多文檔自動摘要方法的進展研究
【圖文】:
文而被分為抽取式(Extractive)摘要和抽象式(Abstractive)摘要。抽取式摘要主要將原文檔的語句進行重要性評估,再從中選取重點語句形成摘要。抽象式摘要主要從原文檔中提取單詞信息,然后組織單詞串聯(lián)語句形成摘要。圖1多文檔自動摘要研究框架多文檔自動摘要技術(shù)的研究框架主要分成四個階段(如圖1所示),分別為數(shù)據(jù)選娶信息處理、形成摘要和摘要評估。多文檔自動摘要研究首要考慮數(shù)據(jù)選取的問題,不同數(shù)據(jù)形態(tài)將影響算法的思路與評估方式,依據(jù)寫作方式的不同可將目前研究的文檔數(shù)據(jù)分成正式形態(tài)與非正式形態(tài),主要區(qū)別在于語法語句的口語化程度。信息處理階段包括預(yù)處理和提取特征信息,其主要目的是從文章中提取關(guān)鍵信息或單詞,并且去除噪聲。形成摘要階段根據(jù)抽象式摘要和抽取式摘要分為生成語句篩選語句。生成語句通過前一階段所獲取的關(guān)鍵信息進行組織并生成語句,而篩選語句則根據(jù)句子特征、知識本體和句間關(guān)系從文檔中選取語句。語句排序獨立于二者,是有了摘要語句之后,將其按照一定的標準進行賦分,從而重新排序。最后,摘要評估階段通過語料參照或自主評估兩類方法對形成的摘要結(jié)果進行評估。本文將對研究框架的每個階段按照如上順序進行闡釋與總結(jié)。1數(shù)據(jù)選取在選擇輸入數(shù)據(jù)的階段,目前多文檔自動摘要的研究主要利用特定領(lǐng)域的語料數(shù)據(jù)進行實證分析,數(shù)據(jù)可分成正式形態(tài)和非正式形態(tài)。正式形態(tài)文檔具有完整的寫作結(jié)構(gòu)和正式書面用詞的特性,例如學術(shù)文章和新聞稿件。非正式形態(tài)文檔則主要屬于交談式、口語用語較多的會話數(shù)據(jù),包含大量的縮寫、簡寫等非書面用語,例如電子郵件。兩類形態(tài)主要有三個區(qū)別:(1)非正式文檔用語多含非書面用語,這可能對信息處理階段的去除停用詞造成影響;(2
文而被分為抽取式(Extractive)摘要和抽象式(Abstractive)摘要。抽取式摘要主要將原文檔的語句進行重要性評估,再從中選取重點語句形成摘要。抽象式摘要主要從原文檔中提取單詞信息,然后組織單詞串聯(lián)語句形成摘要。圖1多文檔自動摘要研究框架多文檔自動摘要技術(shù)的研究框架主要分成四個階段(如圖1所示),分別為數(shù)據(jù)選娶信息處理、形成摘要和摘要評估。多文檔自動摘要研究首要考慮數(shù)據(jù)選取的問題,不同數(shù)據(jù)形態(tài)將影響算法的思路與評估方式,依據(jù)寫作方式的不同可將目前研究的文檔數(shù)據(jù)分成正式形態(tài)與非正式形態(tài),主要區(qū)別在于語法語句的口語化程度。信息處理階段包括預(yù)處理和提取特征信息,其主要目的是從文章中提取關(guān)鍵信息或單詞,并且去除噪聲。形成摘要階段根據(jù)抽象式摘要和抽取式摘要分為生成語句篩選語句。生成語句通過前一階段所獲取的關(guān)鍵信息進行組織并生成語句,而篩選語句則根據(jù)句子特征、知識本體和句間關(guān)系從文檔中選取語句。語句排序獨立于二者,是有了摘要語句之后,將其按照一定的標準進行賦分,從而重新排序。最后,摘要評估階段通過語料參照或自主評估兩類方法對形成的摘要結(jié)果進行評估。本文將對研究框架的每個階段按照如上順序進行闡釋與總結(jié)。1數(shù)據(jù)選取在選擇輸入數(shù)據(jù)的階段,目前多文檔自動摘要的研究主要利用特定領(lǐng)域的語料數(shù)據(jù)進行實證分析,數(shù)據(jù)可分成正式形態(tài)和非正式形態(tài)。正式形態(tài)文檔具有完整的寫作結(jié)構(gòu)和正式書面用詞的特性,例如學術(shù)文章和新聞稿件。非正式形態(tài)文檔則主要屬于交談式、口語用語較多的會話數(shù)據(jù),,包含大量的縮寫、簡寫等非書面用語,例如電子郵件。兩類形態(tài)主要有三個區(qū)別:(1)非正式文檔用語多含非書面用語,這可能對信息處理階段的去除停用詞造成影響;(2
【相似文獻】
相關(guān)期刊論文 前10條
1 沈洲,王永成,許一震,吳芳芳;一種面向新聞文獻的自動摘要系統(tǒng)的研究與實踐[J];計算機工程;2000年09期
2 李愛紅;試論自動摘要技術(shù)[J];圖書情報工作;2000年04期
3 沈洲,王永成,韓客松;一種基于主題敏感辭分析的新聞文獻自動摘要系統(tǒng)的研究與實踐[J];高技術(shù)通訊;2001年09期
4 王彩霞;試論自動摘要技術(shù)[J];晉圖學刊;2003年02期
5 張雷生,萬紹俊,許鵬文;簡單中文自動摘要系統(tǒng)研究[J];裝備指揮技術(shù)學院學報;2004年03期
6 王建會;周水庚;胡運發(fā);;基于聚類的自動摘要[J];模式識別與人工智能;2004年03期
7 黃水清;李志燕;梁剛;;面向計算機類文獻的自動摘要系統(tǒng)的研究與實現(xiàn)[J];圖書與情報;2006年03期
8 陳珂;殷凡;;中文自動摘要綜述[J];福建電腦;2007年02期
9 李念峰;;基于自動摘要的網(wǎng)絡(luò)情報收集系統(tǒng)研究[J];現(xiàn)代情報;2007年11期
10 郭琳虹;張小松;;文本自動摘要的方法研究[J];福建電腦;2008年06期
相關(guān)會議論文 前8條
1 章彥星;張銘;鄧志鴻;;基于特征的用戶評論自動摘要[A];第26屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)[C];2009年
2 吳中勤;黃萱菁;吳立德;;基于有監(jiān)督分類技術(shù)的文本自動摘要研究[A];第二屆全國信息檢索與內(nèi)容安全學術(shù)會議(NCIRCS-2005)論文集[C];2005年
3 王暉;馬軍;;面向Web論壇的多文檔摘要方法[A];第五屆全國信息檢索學術(shù)會議論文集[C];2009年
4 張奇;黃萱菁;吳立德;;一種新的句子相似度度量及其在文本自動摘要中的應(yīng)用[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2004年
5 李芳;何婷婷;;面向查詢的多模式自動摘要研究[A];第五屆全國青年計算語言學研討會論文集[C];2010年
6 劉娜;肖智博;路瑩;唐曉君;肖鵬;;自適應(yīng)主題融合的多文檔自動摘要算法[A];2013年中國智能自動化學術(shù)會議論文集(第五分冊)[C];2013年
7 王荀;李素建;宋濤;姜伯平;;服務(wù)于內(nèi)容側(cè)面發(fā)現(xiàn)的框架識別[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
8 楊瀟;馬軍;楊同峰;杜言琦;邵海敏;;基于主題模型LDA的多文檔自動摘要[A];第五屆全國信息檢索學術(shù)會議論文集[C];2009年
相關(guān)博士學位論文 前2條
1 劉娜;文本自動摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學;2012年
2 耿煥同;范例推理與互聯(lián)網(wǎng)文本信息處理研究[D];中國科學技術(shù)大學;2006年
相關(guān)碩士學位論文 前10條
1 王馨;網(wǎng)絡(luò)新聞熱點發(fā)現(xiàn)研究[D];河北大學;2015年
2 李子健;專題摘要自動生成技術(shù)研究[D];浙江大學;2015年
3 熊嬌;基于詞項—句子—文檔三層圖模型的多文檔自動摘要[D];江西師范大學;2015年
4 程園;輿情分析中維吾爾文文本自動摘要研究[D];新疆大學;2015年
5 梁入文;基于文本意見挖掘的煙臺大學教學評價系統(tǒng)設(shè)計與實現(xiàn)[D];電子科技大學;2015年
6 楊瑞;在線網(wǎng)絡(luò)中文本自動摘要系統(tǒng)研究和實現(xiàn)[D];南京航空航天大學;2014年
7 唐亞娟;基于文本挖掘的糧食情報分析技術(shù)與系統(tǒng)實現(xiàn)[D];河南工業(yè)大學;2015年
8 張占江;基于短語主題模型和多文檔自動摘要技術(shù)的文獻綜述內(nèi)容推薦[D];浙江大學;2016年
9 董非;基于圖的主觀性多文本自動摘要方法研究和實現(xiàn)[D];上海交通大學;2015年
10 程娟;中文文檔自動摘要技術(shù)[D];山東大學;2006年
本文編號:2575732
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2575732.html