面向微博應(yīng)用的新聞文本自動(dòng)摘要研究
本文關(guān)鍵詞:面向微博應(yīng)用的新聞文本自動(dòng)摘要研究 出處:《鄭州大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 語(yǔ)義特征 統(tǒng)計(jì)特征 Ranking SVM 新聞文本自動(dòng)摘要 潤(rùn)色處理
【摘要】:Web2.0時(shí)代到來(lái)后,大數(shù)據(jù)時(shí)代接踵而至,微博等社交媒體越來(lái)越受到社會(huì)和研究者們的高度關(guān)注,面向微博應(yīng)用的相關(guān)任務(wù)以及評(píng)測(cè)也在逐年增加。文本自動(dòng)摘要主要是通過(guò)計(jì)算機(jī)自動(dòng)提取文本的關(guān)鍵信息,生成反映文本中心主旨的短文,能夠方便壓縮文本內(nèi)容、加快信息交流速度、提升信息檢索效率。因此,本文的主要研究工作是面向微博應(yīng)用的新聞文本自動(dòng)摘要研究,通過(guò)文本自動(dòng)摘要技術(shù),微博用戶可以實(shí)現(xiàn)對(duì)所關(guān)注新聞進(jìn)行快速縮減然后轉(zhuǎn)發(fā),能夠很大程度減少微博用戶人工編輯新聞字?jǐn)?shù)再進(jìn)行轉(zhuǎn)發(fā)所耗費(fèi)的時(shí)間,具有很高的實(shí)用價(jià)值。在深入學(xué)習(xí)了目前文本自動(dòng)摘要相關(guān)研究方法的基礎(chǔ)上,本文提出了基于多層次特征和Ranking SVM(Support Vector Model)排序模型的面向微博應(yīng)用的新聞文本自動(dòng)摘要研究算法,具體研究工作如下:(1)多層次特征提取。深入挖掘新聞文本各個(gè)統(tǒng)計(jì)特征及語(yǔ)義特征即句子詞頻、句子位置、句子與標(biāo)題相似度、句子長(zhǎng)度、指示性詞語(yǔ)等統(tǒng)計(jì)特征和主題句這一語(yǔ)義特征,全面分析不同特征的提取方法,積極探索基于新聞文本的表示模型,以更好地運(yùn)用文本特征。(2)文本句子排序。本文首先預(yù)處理新聞文本訓(xùn)練數(shù)據(jù)中各個(gè)句子并將其處理成能夠運(yùn)用的形式,接著將其轉(zhuǎn)換為dat文件作為輸入,獲得Ranking SVM訓(xùn)練模型,利用得到的模型對(duì)處理好的測(cè)試數(shù)據(jù)文本中的各個(gè)句子進(jìn)行排序,最終得到句子由高到低的排序;后期使用冗余處理、通順度處理、指代消解等相應(yīng)的可讀性加工原則,對(duì)排好序的句子進(jìn)行處理,最終得到比較理想的低冗余度及相對(duì)通順的摘要句集合。最后,本文將上述特征提取方法及句子排序算法在NLPCC2015面向微博新聞自動(dòng)摘要評(píng)測(cè)任務(wù)的數(shù)據(jù)集上做實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果的ROUGE-1值達(dá)到50%以上,具備可行性。
[Abstract]:The arrival of Web2.0 era, the era of big data followed, micro-blog and other social media paid more and more attention by society and researchers, the relevant task for micro-blog application and evaluation also increased year by year. Automatic text summarization is the key information automatic extraction of text by computer, text generation reflects the central theme of the passage can be easily compressed the text content, accelerate the speed of information exchange, enhance the efficiency of information retrieval. Therefore, the main work of this paper is to study the news text summarization for micro-blog applications, through the automatic text summarization technology, micro-blog users can realize to the attention of the press are shrinking fast and forward, can greatly reduce micro-blog user manual editing news words again forwarding time, has very high practical value. In depth study of the current automatic text summarization related Based on the research method, this paper proposes a multi level feature based on SVM and Ranking (Support Vector Model) news automatic text summarization algorithm based on ranking model micro-blog oriented applications, specific studies are as follows: (1) extracting multi level feature. Dig the various news statistics and semantic features of that sentence word, sentence the position, title and sentence similarity, sentence length, indicative words such as statistical features and the semantic features of the topic sentence, the comprehensive analysis method to extract different features, and actively explore based on news text representation model, in order to better use the text features. (2) the text sentence ordering. Firstly, preprocessing each sentence of news text training data in the process to use the form, and then convert it to dat file as input, Ranking SVM training model, using the model of processing Each sentence in the text of the test data well sorted, finally get the sentence from high to low ranking; the use of redundant processing, smoothness, readability refers to the corresponding principle of coreference resolution processing, processing of sorted sentences, finally get the ideal low redundancy and relatively smooth Abstract sentence set. Finally, the method of feature extraction and sentence ranking algorithm for micro-blog News Summarization Evaluation task in NLPCC2015 data sets to do the experiment, the experimental results of the ROUGE-1 value reached more than 50%, with feasibility.
【學(xué)位授予單位】:鄭州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 ;中英文自動(dòng)摘要系統(tǒng)軟件問(wèn)世[J];情報(bào)理論與實(shí)踐;2001年01期
2 沈洲,王永成,許一震,吳芳芳;一種面向新聞文獻(xiàn)的自動(dòng)摘要系統(tǒng)的研究與實(shí)踐[J];計(jì)算機(jī)工程;2000年09期
3 李愛(ài)紅;試論自動(dòng)摘要技術(shù)[J];圖書(shū)情報(bào)工作;2000年04期
4 沈洲,王永成,韓客松;一種基于主題敏感辭分析的新聞文獻(xiàn)自動(dòng)摘要系統(tǒng)的研究與實(shí)踐[J];高技術(shù)通訊;2001年09期
5 王彩霞;試論自動(dòng)摘要技術(shù)[J];晉圖學(xué)刊;2003年02期
6 張雷生,萬(wàn)紹俊,許鵬文;簡(jiǎn)單中文自動(dòng)摘要系統(tǒng)研究[J];裝備指揮技術(shù)學(xué)院學(xué)報(bào);2004年03期
7 王建會(huì);周水庚;胡運(yùn)發(fā);;基于聚類的自動(dòng)摘要[J];模式識(shí)別與人工智能;2004年03期
8 黃水清;李志燕;梁剛;;面向計(jì)算機(jī)類文獻(xiàn)的自動(dòng)摘要系統(tǒng)的研究與實(shí)現(xiàn)[J];圖書(shū)與情報(bào);2006年03期
9 陳珂;殷凡;;中文自動(dòng)摘要綜述[J];福建電腦;2007年02期
10 李念峰;;基于自動(dòng)摘要的網(wǎng)絡(luò)情報(bào)收集系統(tǒng)研究[J];現(xiàn)代情報(bào);2007年11期
相關(guān)會(huì)議論文 前9條
1 章彥星;張銘;鄧志鴻;;基于特征的用戶評(píng)論自動(dòng)摘要[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
2 吳中勤;黃萱菁;吳立德;;基于有監(jiān)督分類技術(shù)的文本自動(dòng)摘要研究[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年
3 王暉;馬軍;;面向Web論壇的多文檔摘要方法[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
4 張奇;黃萱菁;吳立德;;一種新的句子相似度度量及其在文本自動(dòng)摘要中的應(yīng)用[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
5 李芳;何婷婷;;面向查詢的多模式自動(dòng)摘要研究[A];第五屆全國(guó)青年計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2010年
6 劉娜;肖智博;路瑩;唐曉君;肖鵬;;自適應(yīng)主題融合的多文檔自動(dòng)摘要算法[A];2013年中國(guó)智能自動(dòng)化學(xué)術(shù)會(huì)議論文集(第五分冊(cè))[C];2013年
7 王荀;李素建;宋濤;姜伯平;;服務(wù)于內(nèi)容側(cè)面發(fā)現(xiàn)的框架識(shí)別[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
8 楊瀟;馬軍;楊同峰;杜言琦;邵海敏;;基于主題模型LDA的多文檔自動(dòng)摘要[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
9 賀春祿;;報(bào)紙科技新聞文本的受眾解讀[A];中國(guó)科技新聞學(xué)會(huì)第九次學(xué)術(shù)年會(huì)論文集[C];2007年
相關(guān)重要報(bào)紙文章 前1條
1 董天策 暨南大學(xué)新聞學(xué)院教授;多研讀新聞文本[N];中華新聞報(bào);2005年
相關(guān)博士學(xué)位論文 前3條
1 劉娜;文本自動(dòng)摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年
2 耿煥同;范例推理與互聯(lián)網(wǎng)文本信息處理研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2006年
3 孫發(fā)友;新聞文本顯性狀態(tài)及其潛在張力[D];華中科技大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 李孟爽;面向微博應(yīng)用的新聞文本自動(dòng)摘要研究[D];鄭州大學(xué);2017年
2 王馨;網(wǎng)絡(luò)新聞熱點(diǎn)發(fā)現(xiàn)研究[D];河北大學(xué);2015年
3 李子健;專題摘要自動(dòng)生成技術(shù)研究[D];浙江大學(xué);2015年
4 熊嬌;基于詞項(xiàng)—句子—文檔三層圖模型的多文檔自動(dòng)摘要[D];江西師范大學(xué);2015年
5 程園;輿情分析中維吾爾文文本自動(dòng)摘要研究[D];新疆大學(xué);2015年
6 梁入文;基于文本意見(jiàn)挖掘的煙臺(tái)大學(xué)教學(xué)評(píng)價(jià)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2015年
7 楊瑞;在線網(wǎng)絡(luò)中文本自動(dòng)摘要系統(tǒng)研究和實(shí)現(xiàn)[D];南京航空航天大學(xué);2014年
8 唐亞娟;基于文本挖掘的糧食情報(bào)分析技術(shù)與系統(tǒng)實(shí)現(xiàn)[D];河南工業(yè)大學(xué);2015年
9 張占江;基于短語(yǔ)主題模型和多文檔自動(dòng)摘要技術(shù)的文獻(xiàn)綜述內(nèi)容推薦[D];浙江大學(xué);2016年
10 董非;基于圖的主觀性多文本自動(dòng)摘要方法研究和實(shí)現(xiàn)[D];上海交通大學(xué);2015年
,本文編號(hào):1382565
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1382565.html