Web新聞自動(dòng)摘要方法研究
本文關(guān)鍵詞:Web新聞自動(dòng)摘要方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:伴隨互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)中的信息資源呈指數(shù)級(jí)增長,導(dǎo)致了“信息爆炸時(shí)代”的到來。信息的巨增給信息檢索帶來了新的挑戰(zhàn),如何從數(shù)以千億計(jì)的資源中便捷快速地找到所需信息越來越成為研究的重點(diǎn)。搜索引擎從一定程度上解決了信息檢索的難度,用戶輸入檢索的關(guān)鍵詞,就可以找到相關(guān)的信息,但是有時(shí)一個(gè)檢索關(guān)鍵詞,可能就會(huì)返回幾百甚至上千條結(jié)果。這些結(jié)果主要以標(biāo)題列表的形式呈現(xiàn)給用戶,用戶仍然需要逐條點(diǎn)擊進(jìn)去瀏覽網(wǎng)頁才能知道是不是所要的資源。摘要是一篇文檔內(nèi)容的概述,包含了文檔的主題。若搜索引擎能在檢索的時(shí)候可以同時(shí)返回標(biāo)題和摘要,這將大大減少用戶逐一瀏覽網(wǎng)頁花費(fèi)的時(shí)間。人工摘要需要花費(fèi)大量時(shí)間,自動(dòng)摘要技術(shù)被提出。自動(dòng)摘要是使用計(jì)算機(jī)從輸入的文檔中自動(dòng)提取主題,是自然語言理解研究的重要方向之一。近些年自動(dòng)摘要技術(shù)的研究取得了較大進(jìn)展,文中提出了一種適合Web新聞網(wǎng)頁的基于改進(jìn)TF*IDF算法與句子相似度相結(jié)合的方法自動(dòng)生成摘要。本文首先介紹了摘要的含義以及自動(dòng)摘要的必要性,通過對(duì)國內(nèi)外研究現(xiàn)狀的了解,明確了現(xiàn)有技術(shù)存在的問題和局限性,提出了本課題的研究意義和主要內(nèi)容。然后分析了自動(dòng)摘要的相關(guān)理論知識(shí),包括摘要的分類和方法,鑒于研究對(duì)象為Web網(wǎng)頁這一特殊性,介紹了網(wǎng)頁去噪和正則表達(dá)式的原理。研究了文中要實(shí)現(xiàn)的摘要系統(tǒng)在開發(fā)過程中需要用的關(guān)鍵技術(shù),包括基于行塊分布函數(shù)的網(wǎng)頁正文抽取算法、基于分治法的小標(biāo)題識(shí)別方法、中文分詞原理和分類、改進(jìn)TF*IDF算法、基于語義相似度與結(jié)構(gòu)相似度的句子相似度計(jì)算方法。接著從軟件開發(fā)的角度重點(diǎn)闡述了使用文中提出的方法生成摘要系統(tǒng)的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn),包括系統(tǒng)功能、數(shù)據(jù)庫表設(shè)計(jì)、子功能模塊的設(shè)計(jì)。對(duì)于系統(tǒng)中的關(guān)鍵模塊,使用邏輯流程圖或偽代碼算法描述的方法給予說明,加深了對(duì)其功能與實(shí)現(xiàn)原理的認(rèn)識(shí)。最后,對(duì)系統(tǒng)的各個(gè)子模塊進(jìn)行實(shí)驗(yàn),并分析實(shí)驗(yàn)結(jié)果。通過實(shí)例的方法展示了文中開發(fā)系統(tǒng)的用戶界面,使用文中實(shí)現(xiàn)的系統(tǒng)做統(tǒng)計(jì)實(shí)驗(yàn),對(duì)結(jié)果的分析表明基于改進(jìn)TF*IDF算法與句子相似度相結(jié)合的方法自動(dòng)生成摘要的可行性及有效性。
【關(guān)鍵詞】:自動(dòng)摘要 新聞網(wǎng)頁 改進(jìn)TF*IDF算法 句子相似度
【學(xué)位授予單位】:湖北工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1
【目錄】:
- 摘要5-6
- Abstract6-8
- 目錄8-10
- 第1章 引言10-16
- 1.1 研究背景與意義10-11
- 1.2 研究歷史與現(xiàn)狀11-14
- 1.2.1 國外自動(dòng)摘要研究11-13
- 1.2.2 國內(nèi)自動(dòng)摘要研究13-14
- 1.3 課題研究的主要內(nèi)容14-15
- 1.4 論文組織結(jié)構(gòu)15-16
- 第2章 自動(dòng)摘要相關(guān)理論知識(shí)介紹16-24
- 2.1 摘要分類與方法16-20
- 2.1.1 摘要的分類16-17
- 2.1.2 自動(dòng)摘要方法17-20
- 2.2 網(wǎng)頁去噪20-22
- 2.3 正則表達(dá)式22-23
- 2.4 本章小結(jié)23-24
- 第3章Web新聞自動(dòng)摘要關(guān)鍵技術(shù)研究24-46
- 3.1 基于行塊分布函數(shù)的網(wǎng)頁正文抽取算法24-31
- 3.1.1 Web網(wǎng)頁特征24-25
- 3.1.2 行塊分布算法思想25-28
- 3.1.3 行塊分布算法實(shí)現(xiàn)應(yīng)用實(shí)例28-31
- 3.2 基于分治法的小標(biāo)題識(shí)別算法31-33
- 3.3 中文分詞33-37
- 3.3.1 基于字符串匹配分詞法34-35
- 3.3.2 基于統(tǒng)計(jì)分詞法35
- 3.3.3 基于知識(shí)理解分詞法35-37
- 3.4 基于改進(jìn)TF*IDF的詞語權(quán)重計(jì)算方法37-39
- 3.5 基于語義與結(jié)構(gòu)相似度的句子相似度計(jì)算方法39-45
- 3.5.1 基于《知網(wǎng)》的句子語義相似度計(jì)算方法39-45
- 3.5.2 句子結(jié)構(gòu)相似度計(jì)算45
- 3.6 本章小結(jié)45-46
- 第4章Web新聞自動(dòng)摘要系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)46-57
- 4.1 系統(tǒng)功能46
- 4.2 數(shù)據(jù)庫表結(jié)構(gòu)設(shè)計(jì)46-48
- 4.3 功能模塊設(shè)計(jì)與實(shí)現(xiàn)48-56
- 4.3.1 網(wǎng)頁清洗48-49
- 4.3.2 結(jié)構(gòu)分析49-52
- 4.3.3 文本分詞52-53
- 4.3.4 計(jì)算權(quán)重53-55
- 4.3.5 生成摘要55-56
- 4.4 本章小結(jié)56-57
- 第5章 實(shí)驗(yàn)結(jié)果與分析57-66
- 5.1 網(wǎng)頁清洗實(shí)驗(yàn)57-59
- 5.2 文本分詞實(shí)驗(yàn)59
- 5.3 句子相似度計(jì)算實(shí)驗(yàn)59-61
- 5.4 生成摘要實(shí)驗(yàn)與評(píng)價(jià)61-65
- 5.5 本章小結(jié)65-66
- 第6章 總結(jié)與展望66-68
- 6.1 本文工作總結(jié)66
- 6.2 研究工作展望66-68
- 參考文獻(xiàn)68-71
- 致謝71-72
- 附錄72
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 沈洲,王永成,許一震,吳芳芳;一種面向新聞文獻(xiàn)的自動(dòng)摘要系統(tǒng)的研究與實(shí)踐[J];計(jì)算機(jī)工程;2000年09期
2 李愛紅;試論自動(dòng)摘要技術(shù)[J];圖書情報(bào)工作;2000年04期
3 沈洲,王永成,韓客松;一種基于主題敏感辭分析的新聞文獻(xiàn)自動(dòng)摘要系統(tǒng)的研究與實(shí)踐[J];高技術(shù)通訊;2001年09期
4 王彩霞;試論自動(dòng)摘要技術(shù)[J];晉圖學(xué)刊;2003年02期
5 張雷生,萬紹俊,許鵬文;簡單中文自動(dòng)摘要系統(tǒng)研究[J];裝備指揮技術(shù)學(xué)院學(xué)報(bào);2004年03期
6 王建會(huì);周水庚;胡運(yùn)發(fā);;基于聚類的自動(dòng)摘要[J];模式識(shí)別與人工智能;2004年03期
7 黃水清;李志燕;梁剛;;面向計(jì)算機(jī)類文獻(xiàn)的自動(dòng)摘要系統(tǒng)的研究與實(shí)現(xiàn)[J];圖書與情報(bào);2006年03期
8 陳珂;殷凡;;中文自動(dòng)摘要綜述[J];福建電腦;2007年02期
9 李念峰;;基于自動(dòng)摘要的網(wǎng)絡(luò)情報(bào)收集系統(tǒng)研究[J];現(xiàn)代情報(bào);2007年11期
10 郭琳虹;張小松;;文本自動(dòng)摘要的方法研究[J];福建電腦;2008年06期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前8條
1 章彥星;張銘;鄧志鴻;;基于特征的用戶評(píng)論自動(dòng)摘要[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
2 吳中勤;黃萱菁;吳立德;;基于有監(jiān)督分類技術(shù)的文本自動(dòng)摘要研究[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年
3 王暉;馬軍;;面向Web論壇的多文檔摘要方法[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
4 張奇;黃萱菁;吳立德;;一種新的句子相似度度量及其在文本自動(dòng)摘要中的應(yīng)用[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
5 李芳;何婷婷;;面向查詢的多模式自動(dòng)摘要研究[A];第五屆全國青年計(jì)算語言學(xué)研討會(huì)論文集[C];2010年
6 劉娜;肖智博;路瑩;唐曉君;肖鵬;;自適應(yīng)主題融合的多文檔自動(dòng)摘要算法[A];2013年中國智能自動(dòng)化學(xué)術(shù)會(huì)議論文集(第五分冊)[C];2013年
7 王荀;李素建;宋濤;姜伯平;;服務(wù)于內(nèi)容側(cè)面發(fā)現(xiàn)的框架識(shí)別[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
8 楊瀟;馬軍;楊同峰;杜言琦;邵海敏;;基于主題模型LDA的多文檔自動(dòng)摘要[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
中國重要報(bào)紙全文數(shù)據(jù)庫 前1條
1 記者 熊偉;863成果衍生搜索引擎[N];計(jì)算機(jī)世界;2003年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 劉娜;文本自動(dòng)摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年
2 耿煥同;范例推理與互聯(lián)網(wǎng)文本信息處理研究[D];中國科學(xué)技術(shù)大學(xué);2006年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 程娟;中文文檔自動(dòng)摘要技術(shù)[D];山東大學(xué);2006年
2 周凱;中文突發(fā)事件新聞自動(dòng)摘要的研究[D];上海交通大學(xué);2008年
3 宋銳;特定領(lǐng)域的自動(dòng)摘要生成策略[D];大連理工大學(xué);2009年
4 李阜;基于滑窗取詞的單文檔自動(dòng)摘要技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2010年
5 劉海濤;面向新聞文本的自動(dòng)摘要技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2005年
6 章芝青;基于語義的單文檔自動(dòng)摘要研究[D];浙江大學(xué);2010年
7 商s,
本文編號(hào):332546
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/332546.html