多文檔自動摘要方法的進展研究

發(fā)布時間：2020-02-02 15:10

【摘要】：【目的/意義】多文檔自動摘要技術(shù)的目的是從一組文檔中精煉出重要信息摘要,減輕用戶從文檔中獲取與理解信息的負擔,是自然語言理解領(lǐng)域的重要研究方向之一�！痉椒�/過程】本文提取十五年內(nèi)的多文檔自動摘要研究文獻并篩選出至少50篇關(guān)鍵影響文章,梳理多文檔自動摘要的概念與研究進展,揭示了最新的技術(shù)實現(xiàn)與實踐情況�！窘Y(jié)果/結(jié)論】基于不同技術(shù)方法對單詞、句子或段落作為主要數(shù)據(jù)處理對象,找出多文檔自動摘要的技術(shù)特征與難點,明確該領(lǐng)域的發(fā)展趨勢,為未來的研究奠定了基礎(chǔ)。
【圖文】：

自動摘要,多文檔

文而被分為抽取式（Extractive）摘要和抽象式（Abstractive）摘要。抽取式摘要主要將原文檔的語句進行重要性評估，再從中選取重點語句形成摘要。抽象式摘要主要從原文檔中提取單詞信息，然后組織單詞串聯(lián)語句形成摘要。圖1多文檔自動摘要研究框架多文檔自動摘要技術(shù)的研究框架主要分成四個階段（如圖1所示），分別為數(shù)據(jù)選娶信息處理、形成摘要和摘要評估。多文檔自動摘要研究首要考慮數(shù)據(jù)選取的問題，不同數(shù)據(jù)形態(tài)將影響算法的思路與評估方式，依據(jù)寫作方式的不同可將目前研究的文檔數(shù)據(jù)分成正式形態(tài)與非正式形態(tài)，主要區(qū)別在于語法語句的口語化程度。信息處理階段包括預(yù)處理和提取特征信息，其主要目的是從文章中提取關(guān)鍵信息或單詞，并且去除噪聲。形成摘要階段根據(jù)抽象式摘要和抽取式摘要分為生成語句篩選語句。生成語句通過前一階段所獲取的關(guān)鍵信息進行組織并生成語句，而篩選語句則根據(jù)句子特征、知識本體和句間關(guān)系從文檔中選取語句。語句排序獨立于二者，是有了摘要語句之后，將其按照一定的標準進行賦分，從而重新排序。最后，摘要評估階段通過語料參照或自主評估兩類方法對形成的摘要結(jié)果進行評估。本文將對研究框架的每個階段按照如上順序進行闡釋與總結(jié)。1數(shù)據(jù)選取在選擇輸入數(shù)據(jù)的階段，目前多文檔自動摘要的研究主要利用特定領(lǐng)域的語料數(shù)據(jù)進行實證分析，數(shù)據(jù)可分成正式形態(tài)和非正式形態(tài)。正式形態(tài)文檔具有完整的寫作結(jié)構(gòu)和正式書面用詞的特性，例如學術(shù)文章和新聞稿件。非正式形態(tài)文檔則主要屬于交談式、口語用語較多的會話數(shù)據(jù)，包含大量的縮寫、簡寫等非書面用語，例如電子郵件。兩類形態(tài)主要有三個區(qū)別：（1）非正式文檔用語多含非書面用語，這可能對信息處理階段的去除停用詞造成影響；（2

自動摘要,多文檔

文而被分為抽取式（Extractive）摘要和抽象式（Abstractive）摘要。抽取式摘要主要將原文檔的語句進行重要性評估，再從中選取重點語句形成摘要。抽象式摘要主要從原文檔中提取單詞信息，然后組織單詞串聯(lián)語句形成摘要。圖1多文檔自動摘要研究框架多文檔自動摘要技術(shù)的研究框架主要分成四個階段（如圖1所示），分別為數(shù)據(jù)選娶信息處理、形成摘要和摘要評估。多文檔自動摘要研究首要考慮數(shù)據(jù)選取的問題，不同數(shù)據(jù)形態(tài)將影響算法的思路與評估方式，依據(jù)寫作方式的不同可將目前研究的文檔數(shù)據(jù)分成正式形態(tài)與非正式形態(tài)，主要區(qū)別在于語法語句的口語化程度。信息處理階段包括預(yù)處理和提取特征信息，其主要目的是從文章中提取關(guān)鍵信息或單詞，并且去除噪聲。形成摘要階段根據(jù)抽象式摘要和抽取式摘要分為生成語句篩選語句。生成語句通過前一階段所獲取的關(guān)鍵信息進行組織并生成語句，而篩選語句則根據(jù)句子特征、知識本體和句間關(guān)系從文檔中選取語句。語句排序獨立于二者，是有了摘要語句之后，將其按照一定的標準進行賦分，從而重新排序。最后，摘要評估階段通過語料參照或自主評估兩類方法對形成的摘要結(jié)果進行評估。本文將對研究框架的每個階段按照如上順序進行闡釋與總結(jié)。1數(shù)據(jù)選取在選擇輸入數(shù)據(jù)的階段，目前多文檔自動摘要的研究主要利用特定領(lǐng)域的語料數(shù)據(jù)進行實證分析，數(shù)據(jù)可分成正式形態(tài)和非正式形態(tài)。正式形態(tài)文檔具有完整的寫作結(jié)構(gòu)和正式書面用詞的特性，例如學術(shù)文章和新聞稿件。非正式形態(tài)文檔則主要屬于交談式、口語用語較多的會話數(shù)據(jù)，，包含大量的縮寫、簡寫等非書面用語，例如電子郵件。兩類形態(tài)主要有三個區(qū)別：（1）非正式文檔用語多含非書面用語，這可能對信息處理階段的去除停用詞造成影響；（2

【相似文獻】

相關(guān)期刊論文前10條

1 沈洲,王永成,許一震,吳芳芳;一種面向新聞文獻的自動摘要系統(tǒng)的研究與實踐[J];計算機工程;2000年09期

2 李愛紅;試論自動摘要技術(shù)[J];圖書情報工作;2000年04期

3 沈洲,王永成,韓客松;一種基于主題敏感辭分析的新聞文獻自動摘要系統(tǒng)的研究與實踐[J];高技術(shù)通訊;2001年09期

4 王彩霞;試論自動摘要技術(shù)[J];晉圖學刊;2003年02期

5 張雷生,萬紹俊,許鵬文;簡單中文自動摘要系統(tǒng)研究[J];裝備指揮技術(shù)學院學報;2004年03期

6 王建會;周水庚;胡運發(fā);;基于聚類的自動摘要[J];模式識別與人工智能;2004年03期

7 黃水清;李志燕;梁剛;;面向計算機類文獻的自動摘要系統(tǒng)的研究與實現(xiàn)[J];圖書與情報;2006年03期

8 陳珂;殷凡;;中文自動摘要綜述[J];福建電腦;2007年02期

9 李念峰;;基于自動摘要的網(wǎng)絡(luò)情報收集系統(tǒng)研究[J];現(xiàn)代情報;2007年11期

10 郭琳虹;張小松;;文本自動摘要的方法研究[J];福建電腦;2008年06期

相關(guān)會議論文前8條

1 章彥星;張銘;鄧志鴻;;基于特征的用戶評論自動摘要[A];第26屆中國數(shù)據(jù)庫學術(shù)會議論文集（B輯）[C];2009年

2 吳中勤;黃萱菁;吳立德;;基于有監(jiān)督分類技術(shù)的文本自動摘要研究[A];第二屆全國信息檢索與內(nèi)容安全學術(shù)會議（NCIRCS-2005）論文集[C];2005年

3 王暉;馬軍;;面向Web論壇的多文檔摘要方法[A];第五屆全國信息檢索學術(shù)會議論文集[C];2009年

4 張奇;黃萱菁;吳立德;;一種新的句子相似度度量及其在文本自動摘要中的應(yīng)用[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2004年

5 李芳;何婷婷;;面向查詢的多模式自動摘要研究[A];第五屆全國青年計算語言學研討會論文集[C];2010年

6 劉娜;肖智博;路瑩;唐曉君;肖鵬;;自適應(yīng)主題融合的多文檔自動摘要算法[A];2013年中國智能自動化學術(shù)會議論文集（第五分冊）[C];2013年

7 王荀;李素建;宋濤;姜伯平;;服務(wù)于內(nèi)容側(cè)面發(fā)現(xiàn)的框架識別[A];中國計算語言學研究前沿進展（2009-2011）[C];2011年

8 楊瀟;馬軍;楊同峰;杜言琦;邵海敏;;基于主題模型LDA的多文檔自動摘要[A];第五屆全國信息檢索學術(shù)會議論文集[C];2009年

相關(guān)博士學位論文前2條

1 劉娜;文本自動摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學;2012年

2 耿煥同;范例推理與互聯(lián)網(wǎng)文本信息處理研究[D];中國科學技術(shù)大學;2006年

相關(guān)碩士學位論文前10條

1 王馨;網(wǎng)絡(luò)新聞熱點發(fā)現(xiàn)研究[D];河北大學;2015年

2 李子健;專題摘要自動生成技術(shù)研究[D];浙江大學;2015年

3 熊嬌;基于詞項—句子—文檔三層圖模型的多文檔自動摘要[D];江西師范大學;2015年

4 程園;輿情分析中維吾爾文文本自動摘要研究[D];新疆大學;2015年

5 梁入文;基于文本意見挖掘的煙臺大學教學評價系統(tǒng)設(shè)計與實現(xiàn)[D];電子科技大學;2015年

6 楊瑞;在線網(wǎng)絡(luò)中文本自動摘要系統(tǒng)研究和實現(xiàn)[D];南京航空航天大學;2014年

7 唐亞娟;基于文本挖掘的糧食情報分析技術(shù)與系統(tǒng)實現(xiàn)[D];河南工業(yè)大學;2015年

8 張占江;基于短語主題模型和多文檔自動摘要技術(shù)的文獻綜述內(nèi)容推薦[D];浙江大學;2016年

9 董非;基于圖的主觀性多文本自動摘要方法研究和實現(xiàn)[D];上海交通大學;2015年

10 程娟;中文文檔自動摘要技術(shù)[D];山東大學;2006年

本文編號：2575732

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2575732.html

上一篇：基于ASP.NET技術(shù)的圖書館管理系統(tǒng)的設(shè)計與實現(xiàn)
下一篇：基于圖像匹配的結(jié)構(gòu)位移與應(yīng)變獲取方法

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

多文檔自動摘要方法的進展研究