基于TextRank算法的單文檔自動文摘研究
本文關鍵詞:基于TextRank算法的單文檔自動文摘研究,由筆耕文化傳播整理發(fā)布。
【摘要】:信息時代的來臨引發(fā)了文獻的指數(shù)級增長,信息用戶迅速由信息貧乏過渡到信息過載,傳統(tǒng)手工文摘速度已經(jīng)遠遠落后于用戶的需要。起于1958年的自動文摘研究一直是信息自動處理領域的熱點。其中,基于圖的自動文摘主要利用文本中的詞匯或者語義信息構建拓撲結構圖,TextRank是其代表性的算法之一。借鑒了PageRank的算法思想,TextRank算法將文檔劃分為由若干文本單元(詞項或者句子)構成的節(jié)點,文本單元間的相似度構成節(jié)點間的邊,形成圖模型,利用PageRank算法對圖模型進行迭代直至收斂,然后對所有節(jié)點進行排序,輸出關鍵詞或文摘句。TextRank算法作為一種無監(jiān)督方法,無需訓練語料,可以運用在多種不同的領域。本文對TextRank算法自動文摘過程中的句子相似度、句子權重計算等部分進行了改進,提出了一種面向英文語料的單文檔自動文摘方法。本文的研究工作包括以下幾個方面:(1)研究問題。對基于TextRank算法自動文摘的主要步驟進行了梳理與分析,發(fā)現(xiàn)預處理以及迭代計算部分已經(jīng)較為成熟,改進空間有限,而句子相似度以及句子權重計算則尚有較大的提升空間。(2)句子相似度。本文比較了基于編輯距離、WordNet語義詞典、BM25以及經(jīng)典TextRank的相似度算法;分析發(fā)現(xiàn)基于BM25相似度計算方法的自動文摘效果最優(yōu),同時也發(fā)現(xiàn)BM25計算公式中的IDF(si)部分,當n(si)大于N/2時,IDF(si)取負值,從而得到一個取負值的權重。對此,本文提出了兩種BM25的改進思路,其一是采用經(jīng)典TF-IDF計算公式中的IDF計算部分替換BM25原有的IDF(si)計算公式,并對經(jīng)典IDF計算公式的分母采用拉普拉斯加1平滑;另一則是對BM25原有的IDF(5i)計算公式,當n(si)小于等于N/2時,公式不變,IDF(Si)取正值,當n(si)大于N/2時,用α·avglDF替換原來的公式。其中,a是調(diào)節(jié)參數(shù)(0≤α≤), avgIDF是所有詞項的平均IDF值。(3)句子權重。經(jīng)典TextRank方法考慮了句子的全局信息,但是忽視了句子本身的特征。對此,提出了將句子位置、線索詞與經(jīng)典TextRank加以整合的句子權重計算方案。(4)文摘實驗。語料庫為DUC2002,具體的工作包括:語料的預處理(分句、分詞、詞性標注、詞項過濾);句子相似性計算;句子權重計算;文摘生成。(5)文摘評價。評價方法采用ROUGE,主要考查了面對不同文摘抽取任務時的表現(xiàn)(100個單詞、壓縮10%、壓縮20%)。實驗表明,在ROUGE的各項指標上,本文提出的句子相似度計算方法與句子權重計算方法均比經(jīng)典TextRank方法有所提高。同時,本文給出了在面對不同文摘抽取任務時BM25改進方法的α取值策略。實驗表明,本文改進的基于TextRank算法的單文檔自動文摘方法具有一定的創(chuàng)新性與適用性。
【關鍵詞】:自動文摘 TextRank BM25 單文檔自動文摘
【學位授予單位】:南京大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1;G250.7
【目錄】:
- 摘要5-7
- Abstract7-14
- 第一章 緒論14-17
- 1.1 研究背景14
- 1.2 研究目的與意義14-15
- 1.3 創(chuàng)新點15
- 1.4 論文結構安排15-17
- 第二章 研究綜述17-37
- 2.1 自動文摘17-30
- 2.1.1 自動文摘的定義及其分類17-19
- 2.1.2 自動文摘方法19-28
- 2.1.3 自動文摘評價28-30
- 2.2 TextRank算法30-37
- 2.2.1 基于TextRank的關鍵詞抽取31-32
- 2.2.2 基于TextRank的文摘句抽取32-37
- 第三章 研究設計37-46
- 3.1 句子相似度計算37-43
- 3.1.1 基于信息量的相似度計算方法38
- 3.1.2 基于編輯距離的相似度計算方法38-39
- 3.1.3 基于語義詞典的相似度計算方法39
- 3.1.4 基于BM25的相似度計算方法39-41
- 3.1.5 基于BM25的改進相似度計算方法41-43
- 3.2 句子權重計算43-46
- 3.2.1 基于TextRank的句子權重43-44
- 3.2.2 基于位置的句子權重44
- 3.2.3 基于線索詞的句子權重44-46
- 第四章 實驗與分析46-63
- 4.1 實驗語料庫46
- 4.2 實驗環(huán)境46-47
- 4.3 語料庫預處理47-50
- 4.3.1 內(nèi)容提取47-48
- 4.3.2 文本分割48-50
- 4.4 實驗指標50
- 4.5 句子相似性分析50-61
- 4.5.1 固定長度文摘(100個詞項)51-54
- 4.5.2 可變長度文摘(壓縮10%)54-57
- 4.5.3 可變長度文摘(壓縮20%)57-61
- 4.6 句子權重分析61-63
- 4.6.1 固定長度文摘(100個詞項)61
- 4.6.2 可變長度文摘(壓縮10%)61-62
- 4.6.3 可變長度文摘(壓縮20%)62-63
- 第五章 結語63-65
- 5.1 研究結論63-64
- 5.2 進一步研究工作64-65
- 參考文獻65-73
- 附錄73-79
- 附錄1:DUC 2002原文AP880912-0095示例73-74
- 附錄2:本文提出的文摘方法產(chǎn)生AP880912-0095的文摘74-75
- 附錄3:DUC 2002原文LA122190-0149示例75-78
- 附錄4:本文提出的文摘方法產(chǎn)生LA122190-0149的文摘78-79
- 致謝79-80
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 金博,史彥軍,滕弘飛,艾景波;自動文摘技術及應用[J];計算機應用研究;2004年12期
2 陸和健;李祝啟;;網(wǎng)絡信息自動文摘研究[J];情報科學;2008年10期
3 林莉;;自動文摘的生成方法與評價研究[J];圖書館學刊;2009年05期
4 王建波,王開鑄;自然語言篇章理解及基于理解的自動文摘研究[J];中文信息學報;1992年02期
5 王開鑄,李俊杰,李秀坤,吳巖,張軍;自動文摘系統(tǒng)的歷史和現(xiàn)狀[J];電腦學習;1995年04期
6 王開鑄,吳巖,劉挺,張軍;自動文摘設計模型[J];電腦學習;1995年05期
7 王開鑄,吳巖,劉挺;基于理解的自動文摘系統(tǒng)設計[J];電腦學習;1996年02期
8 李蕾,鐘義信,郭祥昊;面向特定領域的理解型中文自動文摘系統(tǒng)[J];計算機研究與發(fā)展;2000年04期
9 胡舜耕,鐘義信,魏超成;基于多Agent技術的自動文摘研究[J];計算機工程與應用;2000年09期
10 宋今,趙東巖;基于語料庫與層次詞典的自動文摘研究(英文)[J];軟件學報;2000年03期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 桂卓民;何婷婷;陳勁光;李芳;;一種面向查詢的多文檔自動文摘系統(tǒng)實現(xiàn)方法[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
2 劉茂福;金可佳;姬東鴻;張曉龍;;統(tǒng)計與規(guī)則相結合的指代消解在事件自動文摘中的應用[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
3 耿崇;宋丹;薛德軍;張燦;;基于詞位置與同現(xiàn)特征的中文自動文摘研究[A];第五屆全國信息檢索學術會議論文集[C];2009年
4 劉海濤;老松楊;吳玲達;;基于段落自適應聚類的自動文摘系統(tǒng)研究[A];第一屆建立和諧人機環(huán)境聯(lián)合學術會議(HHME2005)論文集[C];2005年
5 李成城;;基于修辭結構理論的自動文摘研究[A];民族語言文字信息技術研究——第十一屆全國民族語言文字信息學術研討會論文集[C];2007年
6 呂靜;昝紅英;;基于語義統(tǒng)計的中文自動文摘研究[A];第三屆學生計算語言學研討會論文集[C];2006年
7 王紅玲;黃超超;張明慧;周國棟;;面向冗余度控制的中文多文檔自動文摘[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
8 盧冶;林鴻飛;趙晶;;中文自動文摘系統(tǒng)的綜合評價模式[A];全國第八屆計算語言學聯(lián)合學術會議(JSCL-2005)論文集[C];2005年
9 邵偉;何婷婷;胡珀;肖華松;;一種面向查詢的多文檔文摘句選擇策略[A];內(nèi)容計算的研究與應用前沿——第九屆全國計算語言學學術會議論文集[C];2007年
10 王小磊;張瑾;許洪波;;基于交互增強原理的多文檔自動文摘算法[A];第四屆全國學生計算語言學研討會會議論文集[C];2008年
中國重要報紙全文數(shù)據(jù)庫 前1條
1 教育部語言文字應用研究所副所長 靳光瑾 中國社會科學院語言文字應用系研究生 易江燕;話題發(fā)現(xiàn)技術:決策參考的“探測器”[N];中國社會科學報;2014年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 趙林;面向查詢的多文檔自動文摘關鍵技術研究[D];復旦大學;2008年
2 李鵬;面向主題的多文檔自動文摘關鍵技術研究[D];上海交通大學;2013年
3 胡珀;融合上下文信息的自動文摘研究[D];武漢大學;2013年
4 蔣昌金;基于關鍵詞提取的中文網(wǎng)頁自動文摘方法研究[D];華南理工大學;2010年
5 韋福如;基于圖模型多文檔自動文摘研究[D];武漢大學;2009年
6 徐永東;多文檔自動文摘關鍵技術研究[D];哈爾濱工業(yè)大學;2007年
7 張琳;基于引用聚類的多文檔自動文摘技術研究[D];大連海事大學;2013年
8 陳勁光;基于云模型的中文面向查詢多文檔自動文摘研究[D];華中師范大學;2011年
9 劉德喜;基于基本要素的多文檔自動文摘研究[D];武漢大學;2007年
10 鄭義;多媒體信息自動摘要及其相關技術研究[D];復旦大學;2003年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 陳奕辰;基于句子權重和篇章結構的自動文摘算法的研究與實現(xiàn)[D];湖南師范大學;2015年
2 蘇彬;基于Word2Vec的自動文摘系統(tǒng)的設計與實現(xiàn)[D];河北科技大學;2015年
3 孫佩佩;面向事件的自動文摘研究[D];安徽理工大學;2016年
4 曹洋;基于TextRank算法的單文檔自動文摘研究[D];南京大學;2016年
5 朱荷香;中文自動文摘系統(tǒng)的研究與實現(xiàn)[D];南京師范大學;2008年
6 石子言;用戶驅動的特定領域自動文摘系統(tǒng)設計與實現(xiàn)[D];東北師范大學;2009年
7 孟慶富;生物醫(yī)學多文檔自動文摘系統(tǒng)設計與實現(xiàn)[D];哈爾濱工業(yè)大學;2010年
8 馬長林;中文自動文摘技術若干問題的研究[D];華中師范大學;2002年
9 胡珀;基于自適應聚類的中文自動文摘研究[D];華中師范大學;2005年
10 柴曉麗;自動文摘技術的研究與應用[D];長春理工大學;2007年
本文關鍵詞:基于TextRank算法的單文檔自動文摘研究,由筆耕文化傳播整理發(fā)布。
,本文編號:350123
本文鏈接:http://sikaile.net/tushudanganlunwen/350123.html