中文科技文獻(xiàn)網(wǎng)絡(luò)搜索引擎自動(dòng)文摘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:中文科技文獻(xiàn)網(wǎng)絡(luò)搜索引擎自動(dòng)文摘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
更多相關(guān)文章: 自動(dòng)文摘 搜索引擎 中文科技文獻(xiàn) 網(wǎng)頁(yè)清洗 摘要提取
【摘要】: 隨著Internet的迅速發(fā)展,Web上的各種數(shù)據(jù)急劇增加,網(wǎng)絡(luò)已經(jīng)成為數(shù)據(jù)的倉(cāng)庫(kù)和知識(shí)的來(lái)源。用戶如何才能快速有效地獲取和利用這些資源,已經(jīng)成為迫切需要解決的一個(gè)問(wèn)題,而信息檢索和自動(dòng)摘要是目前解決這一難題的關(guān)鍵技術(shù)。自動(dòng)摘要技術(shù)將文檔內(nèi)容以簡(jiǎn)潔精練的形式呈現(xiàn)出來(lái),是信息檢索技術(shù)發(fā)展到一定程度的自然延伸。目前,搜索引擎作為信息檢索的一個(gè)重要工具,往往只是簡(jiǎn)單截取關(guān)鍵字所在的部分句子或段落作為摘要提供給用戶,造成用戶在瀏覽搜索結(jié)果時(shí)無(wú)法把握整個(gè)網(wǎng)頁(yè)的內(nèi)容提要,進(jìn)而影響檢索效率。而傳統(tǒng)基于詞頻統(tǒng)計(jì)的摘要方法又主要針對(duì)純文本文檔,且單純考慮文本的表層特征,缺乏對(duì)文檔的語(yǔ)義分析,生成的文摘質(zhì)量不高,因此也難以直接適用于Web文檔摘要的自動(dòng)提取。 本課題的研究目標(biāo)是在對(duì)自動(dòng)文摘技術(shù)進(jìn)行深入研究的基礎(chǔ)上,提出一種適合于中文科技文獻(xiàn)搜索引擎的Web文檔的自動(dòng)摘要方法,并實(shí)際開發(fā)出一個(gè)Web文檔自動(dòng)摘要系統(tǒng)。該系統(tǒng)可作為搜索引擎的輔助檢索,摘要內(nèi)容應(yīng)滿足完備性和概括性,并且具備一定連貫性。 為此,本文在綜合分析Web頁(yè)面信息特征的基礎(chǔ)上,首先獲得頁(yè)面的正文信息,然后綜合統(tǒng)計(jì)方法和啟發(fā)式規(guī)則來(lái)提取文檔的關(guān)鍵詞、關(guān)鍵句,最后根據(jù)摘要比例輸出符合條件的摘要句子。在這過(guò)程中,本文全面系統(tǒng)的介紹了文本自動(dòng)摘要的相關(guān)問(wèn)題和技術(shù),深入分析了Web頁(yè)面信息特征,提出了Web頁(yè)面原文摘要的抽取方法及一種適合于網(wǎng)頁(yè)信息的小標(biāo)題提取算法,探討了摘要生成的相關(guān)技術(shù),并提出了一種結(jié)合統(tǒng)計(jì)方法和文本結(jié)構(gòu)特征分析的自動(dòng)摘要方法。最后本文綜合以上研究成果設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)中文Web網(wǎng)頁(yè)自動(dòng)摘要系統(tǒng)模型,并對(duì)實(shí)際的網(wǎng)頁(yè)進(jìn)行了測(cè)試。 測(cè)試結(jié)果表明:對(duì)網(wǎng)頁(yè)文檔的摘要能夠滿足完備性和概括性的要求,反映文檔的主要內(nèi)容。說(shuō)明本文提出的摘要方法對(duì)中文網(wǎng)頁(yè)的處理是切實(shí)可行的。在測(cè)試中發(fā)現(xiàn),部分摘要的連貫性不是很好。在不影響處理速度的前提下,適當(dāng)?shù)乩靡恍┳匀徽Z(yǔ)言理解和生成技術(shù)來(lái)提高摘要質(zhì)量,尤其是改善摘要的可讀性,這將是今后進(jìn)一步研究的重點(diǎn)。
【關(guān)鍵詞】:自動(dòng)文摘 搜索引擎 中文科技文獻(xiàn) 網(wǎng)頁(yè)清洗 摘要提取
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2008
【分類號(hào)】:TP311.52
【目錄】:
- 第1章 緒論7-21
- 1.1 論文研究背景及意義7-9
- 1.1.1 論文研究背景7-8
- 1.1.2 論文研究意義8-9
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀9-17
- 1.2.1 搜索引擎的產(chǎn)生和發(fā)展現(xiàn)狀9-13
- 1.2.2 國(guó)外自動(dòng)文摘現(xiàn)狀研究13-15
- 1.2.3 國(guó)內(nèi)自動(dòng)文摘現(xiàn)狀研究15-17
- 1.3 論文研究目標(biāo)17
- 1.4 論文研究路線17-18
- 1.5 論文研究?jī)?nèi)容18-19
- 1.6 論文研究方法19-21
- 第2章 中文科技文獻(xiàn)自動(dòng)文摘概述21-36
- 2.1 相關(guān)理論及概念21-24
- 2.1.1 科技文獻(xiàn)21-22
- 2.1.2 文摘的概念22-24
- 2.1.3 文摘內(nèi)容的選擇標(biāo)準(zhǔn)24
- 2.2 中文自動(dòng)文摘主要生成方法24-33
- 2.2.1 基于原文抽取的自動(dòng)文摘25-28
- 2.2.2 基于結(jié)構(gòu)分析的自動(dòng)文摘28-30
- 2.2.3 基于語(yǔ)義理解的自動(dòng)文摘30-31
- 2.2.4 基于模板的自動(dòng)文摘31-33
- 2.3 自動(dòng)文摘系統(tǒng)的評(píng)價(jià)33-36
- 2.3.1 內(nèi)部評(píng)價(jià)方法(Intrinsic Methods)33-34
- 2.3.2 外部評(píng)價(jià)方法(Extrinsic Methods)34-35
- 2.3.3 內(nèi)部評(píng)價(jià)與外部評(píng)價(jià)方法的選擇階段35-36
- 第3章 網(wǎng)頁(yè)主體內(nèi)容提取36-50
- 3.1 網(wǎng)頁(yè)結(jié)構(gòu)分析36-38
- 3.2 文檔對(duì)象模型38-39
- 3.3 網(wǎng)頁(yè)清洗過(guò)程39-47
- 3.3.1 網(wǎng)頁(yè)清洗概述41-42
- 3.3.2 HTML 文檔解析42-43
- 3.3.3 頁(yè)面清洗43-47
- 3.4 實(shí)例分析47-50
- 第4章 中文自動(dòng)文摘功能模塊設(shè)計(jì)50-76
- 4.1 原文摘要提取模塊50-55
- 4.1.1 原文摘要結(jié)構(gòu)分析52-53
- 4.1.2 原文摘要提取算法53
- 4.1.3 實(shí)例分析53-55
- 4.2 小標(biāo)題識(shí)別與提取模塊55-60
- 4.2.1 小標(biāo)題識(shí)別55-57
- 4.2.2 小標(biāo)題提取算法57-58
- 4.2.3 實(shí)例分析58-60
- 4.3 文摘句提取模塊60-73
- 4.3.1 自動(dòng)分詞61-66
- 4.3.2 詞語(yǔ)權(quán)值計(jì)算66-67
- 4.3.3 計(jì)算句子權(quán)值67-69
- 4.3.4 實(shí)例分析69-73
- 4.4 網(wǎng)頁(yè)文檔摘要降低冗余處理73-76
- 第5章 中文自動(dòng)文摘系統(tǒng)實(shí)現(xiàn)76-92
- 5.1 中文自動(dòng)文摘系統(tǒng)子模塊功能及結(jié)構(gòu)76-79
- 5.2 中文自動(dòng)文摘系統(tǒng)運(yùn)行流程79-81
- 5.3 中文自動(dòng)文摘系統(tǒng)實(shí)現(xiàn)81-92
- 5.3.1 系統(tǒng)軟件環(huán)境簡(jiǎn)介81-84
- 5.3.2 系統(tǒng)操作過(guò)程84-90
- 5.3.3 系統(tǒng)小結(jié)90-92
- 第6章 結(jié)束語(yǔ)92-93
- 參考文獻(xiàn)93-96
- 摘要96-98
- ABSTRACT98-100
- 致謝100
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 王永成,許慧敏;OA-1.4 版中文自動(dòng)摘要系統(tǒng)[J];高技術(shù)通訊;1998年01期
2 陳桂林,王永成;Internet網(wǎng)絡(luò)信息自動(dòng)摘要的研究[J];高技術(shù)通訊;1999年02期
3 李蕾,鐘義信,郭祥昊;面向特定領(lǐng)域的理解型中文自動(dòng)文摘系統(tǒng)[J];計(jì)算機(jī)研究與發(fā)展;2000年04期
4 劉功申,王永成,許一震;小標(biāo)題識(shí)別的意義和方法[J];計(jì)算機(jī)工程;2002年06期
5 王建波,王開鑄;自然語(yǔ)言篇章理解及基于理解的自動(dòng)文摘研究[J];中文信息學(xué)報(bào);1992年02期
6 刁倩,王永成,張惠惠,何驥;文本自動(dòng)分類中的詞權(quán)重與分類算法[J];中文信息學(xué)報(bào);2000年03期
7 薛翠芳,郭炳炎;漢語(yǔ)文本結(jié)構(gòu)的自動(dòng)分析[J];情報(bào)學(xué)報(bào);2000年04期
8 楊曉蘭,鐘義信;基于全信息詞典的自動(dòng)文摘系統(tǒng)研究與實(shí)現(xiàn)[J];情報(bào)學(xué)報(bào);1997年06期
9 劉挺,吳巖,王開鑄;基于信息抽取和文本生成的自動(dòng)文摘系統(tǒng)設(shè)計(jì)[J];情報(bào)學(xué)報(bào);1997年S1期
10 吳巖,李秀坤,王開鑄;HIT-97Ⅰ型英文自動(dòng)文摘系統(tǒng)[J];情報(bào)學(xué)報(bào);1998年05期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 鄭義;多媒體信息自動(dòng)摘要及其相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2003年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條
1 夏洪斌;基于知識(shí)分詞算法的病案全文檢索系統(tǒng)[D];第二軍醫(yī)大學(xué);2004年
2 明廷波;基于神經(jīng)網(wǎng)絡(luò)的Web信息抽取系統(tǒng)的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2006年
3 程娟;中文文檔自動(dòng)摘要技術(shù)[D];山東大學(xué);2006年
,本文編號(hào):730314
本文鏈接:http://sikaile.net/wenshubaike/mishujinen/730314.html