當(dāng)前位置：主頁(yè) > 論文百科 > 英文數(shù)據(jù)庫(kù) >

中文科技文獻(xiàn)網(wǎng)絡(luò)搜索引擎自動(dòng)文摘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間：2017-08-24 08:41

本文關(guān)鍵詞：中文科技文獻(xiàn)網(wǎng)絡(luò)搜索引擎自動(dòng)文摘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

【摘要】： 隨著Internet的迅速發(fā)展,Web上的各種數(shù)據(jù)急劇增加,網(wǎng)絡(luò)已經(jīng)成為數(shù)據(jù)的倉(cāng)庫(kù)和知識(shí)的來(lái)源。用戶如何才能快速有效地獲取和利用這些資源,已經(jīng)成為迫切需要解決的一個(gè)問(wèn)題,而信息檢索和自動(dòng)摘要是目前解決這一難題的關(guān)鍵技術(shù)。自動(dòng)摘要技術(shù)將文檔內(nèi)容以簡(jiǎn)潔精練的形式呈現(xiàn)出來(lái),是信息檢索技術(shù)發(fā)展到一定程度的自然延伸。目前,搜索引擎作為信息檢索的一個(gè)重要工具,往往只是簡(jiǎn)單截取關(guān)鍵字所在的部分句子或段落作為摘要提供給用戶,造成用戶在瀏覽搜索結(jié)果時(shí)無(wú)法把握整個(gè)網(wǎng)頁(yè)的內(nèi)容提要,進(jìn)而影響檢索效率。而傳統(tǒng)基于詞頻統(tǒng)計(jì)的摘要方法又主要針對(duì)純文本文檔,且單純考慮文本的表層特征,缺乏對(duì)文檔的語(yǔ)義分析,生成的文摘質(zhì)量不高,因此也難以直接適用于Web文檔摘要的自動(dòng)提取。本課題的研究目標(biāo)是在對(duì)自動(dòng)文摘技術(shù)進(jìn)行深入研究的基礎(chǔ)上,提出一種適合于中文科技文獻(xiàn)搜索引擎的Web文檔的自動(dòng)摘要方法,并實(shí)際開發(fā)出一個(gè)Web文檔自動(dòng)摘要系統(tǒng)。該系統(tǒng)可作為搜索引擎的輔助檢索,摘要內(nèi)容應(yīng)滿足完備性和概括性,并且具備一定連貫性。為此,本文在綜合分析Web頁(yè)面信息特征的基礎(chǔ)上,首先獲得頁(yè)面的正文信息,然后綜合統(tǒng)計(jì)方法和啟發(fā)式規(guī)則來(lái)提取文檔的關(guān)鍵詞、關(guān)鍵句,最后根據(jù)摘要比例輸出符合條件的摘要句子。在這過(guò)程中,本文全面系統(tǒng)的介紹了文本自動(dòng)摘要的相關(guān)問(wèn)題和技術(shù),深入分析了Web頁(yè)面信息特征,提出了Web頁(yè)面原文摘要的抽取方法及一種適合于網(wǎng)頁(yè)信息的小標(biāo)題提取算法,探討了摘要生成的相關(guān)技術(shù),并提出了一種結(jié)合統(tǒng)計(jì)方法和文本結(jié)構(gòu)特征分析的自動(dòng)摘要方法。最后本文綜合以上研究成果設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)中文Web網(wǎng)頁(yè)自動(dòng)摘要系統(tǒng)模型,并對(duì)實(shí)際的網(wǎng)頁(yè)進(jìn)行了測(cè)試。測(cè)試結(jié)果表明:對(duì)網(wǎng)頁(yè)文檔的摘要能夠滿足完備性和概括性的要求,反映文檔的主要內(nèi)容。說(shuō)明本文提出的摘要方法對(duì)中文網(wǎng)頁(yè)的處理是切實(shí)可行的。在測(cè)試中發(fā)現(xiàn),部分摘要的連貫性不是很好。在不影響處理速度的前提下,適當(dāng)?shù)乩靡恍┳匀徽Z(yǔ)言理解和生成技術(shù)來(lái)提高摘要質(zhì)量,尤其是改善摘要的可讀性,這將是今后進(jìn)一步研究的重點(diǎn)。
【關(guān)鍵詞】：自動(dòng)文摘 搜索引擎 中文科技文獻(xiàn) 網(wǎng)頁(yè)清洗 摘要提取
【學(xué)位授予單位】：吉林大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2008
【分類號(hào)】：TP311.52
【目錄】：

第1章緒論7-21
1.1 論文研究背景及意義7-9
1.1.1 論文研究背景7-8
1.1.2 論文研究意義8-9
1.2 國(guó)內(nèi)外研究現(xiàn)狀9-17
1.2.1 搜索引擎的產(chǎn)生和發(fā)展現(xiàn)狀9-13
1.2.2 國(guó)外自動(dòng)文摘現(xiàn)狀研究13-15
1.2.3 國(guó)內(nèi)自動(dòng)文摘現(xiàn)狀研究15-17
1.3 論文研究目標(biāo)17
1.4 論文研究路線17-18
1.5 論文研究?jī)?nèi)容18-19
1.6 論文研究方法19-21
第2章中文科技文獻(xiàn)自動(dòng)文摘概述21-36
2.1 相關(guān)理論及概念21-24
2.1.1 科技文獻(xiàn)21-22
2.1.2 文摘的概念22-24
2.1.3 文摘內(nèi)容的選擇標(biāo)準(zhǔn)24
2.2 中文自動(dòng)文摘主要生成方法24-33
2.2.1 基于原文抽取的自動(dòng)文摘25-28
2.2.2 基于結(jié)構(gòu)分析的自動(dòng)文摘28-30
2.2.3 基于語(yǔ)義理解的自動(dòng)文摘30-31
2.2.4 基于模板的自動(dòng)文摘31-33
2.3 自動(dòng)文摘系統(tǒng)的評(píng)價(jià)33-36
2.3.1 內(nèi)部評(píng)價(jià)方法（Intrinsic Methods）33-34
2.3.2 外部評(píng)價(jià)方法（Extrinsic Methods）34-35
2.3.3 內(nèi)部評(píng)價(jià)與外部評(píng)價(jià)方法的選擇階段35-36
第3章網(wǎng)頁(yè)主體內(nèi)容提取36-50
3.1 網(wǎng)頁(yè)結(jié)構(gòu)分析36-38
3.2 文檔對(duì)象模型38-39
3.3 網(wǎng)頁(yè)清洗過(guò)程39-47
3.3.1 網(wǎng)頁(yè)清洗概述41-42
3.3.2 HTML 文檔解析42-43
3.3.3 頁(yè)面清洗43-47
3.4 實(shí)例分析47-50
第4章中文自動(dòng)文摘功能模塊設(shè)計(jì)50-76
4.1 原文摘要提取模塊50-55
4.1.1 原文摘要結(jié)構(gòu)分析52-53
4.1.2 原文摘要提取算法53
4.1.3 實(shí)例分析53-55
4.2 小標(biāo)題識(shí)別與提取模塊55-60
4.2.1 小標(biāo)題識(shí)別55-57
4.2.2 小標(biāo)題提取算法57-58
4.2.3 實(shí)例分析58-60
4.3 文摘句提取模塊60-73
4.3.1 自動(dòng)分詞61-66
4.3.2 詞語(yǔ)權(quán)值計(jì)算66-67
4.3.3 計(jì)算句子權(quán)值67-69
4.3.4 實(shí)例分析69-73
4.4 網(wǎng)頁(yè)文檔摘要降低冗余處理73-76
第5章中文自動(dòng)文摘系統(tǒng)實(shí)現(xiàn)76-92
5.1 中文自動(dòng)文摘系統(tǒng)子模塊功能及結(jié)構(gòu)76-79
5.2 中文自動(dòng)文摘系統(tǒng)運(yùn)行流程79-81
5.3 中文自動(dòng)文摘系統(tǒng)實(shí)現(xiàn)81-92
5.3.1 系統(tǒng)軟件環(huán)境簡(jiǎn)介81-84
5.3.2 系統(tǒng)操作過(guò)程84-90
5.3.3 系統(tǒng)小結(jié)90-92
第6章結(jié)束語(yǔ)92-93
參考文獻(xiàn)93-96
摘要96-98
ABSTRACT98-100
致謝100

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 王永成,許慧敏;OA-1.4 版中文自動(dòng)摘要系統(tǒng)[J];高技術(shù)通訊;1998年01期

2 陳桂林,王永成;Internet網(wǎng)絡(luò)信息自動(dòng)摘要的研究[J];高技術(shù)通訊;1999年02期

3 李蕾,鐘義信,郭祥昊;面向特定領(lǐng)域的理解型中文自動(dòng)文摘系統(tǒng)[J];計(jì)算機(jī)研究與發(fā)展;2000年04期

4 劉功申,王永成,許一震;小標(biāo)題識(shí)別的意義和方法[J];計(jì)算機(jī)工程;2002年06期

5 王建波,王開鑄;自然語(yǔ)言篇章理解及基于理解的自動(dòng)文摘研究[J];中文信息學(xué)報(bào);1992年02期

6 刁倩,王永成,張惠惠,何驥;文本自動(dòng)分類中的詞權(quán)重與分類算法[J];中文信息學(xué)報(bào);2000年03期

7 薛翠芳,郭炳炎;漢語(yǔ)文本結(jié)構(gòu)的自動(dòng)分析[J];情報(bào)學(xué)報(bào);2000年04期

8 楊曉蘭,鐘義信;基于全信息詞典的自動(dòng)文摘系統(tǒng)研究與實(shí)現(xiàn)[J];情報(bào)學(xué)報(bào);1997年06期

9 劉挺,吳巖,王開鑄;基于信息抽取和文本生成的自動(dòng)文摘系統(tǒng)設(shè)計(jì)[J];情報(bào)學(xué)報(bào);1997年S1期

10 吳巖,李秀坤,王開鑄;HIT-97Ⅰ型英文自動(dòng)文摘系統(tǒng)[J];情報(bào)學(xué)報(bào);1998年05期

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 鄭義;多媒體信息自動(dòng)摘要及其相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2003年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條

1 夏洪斌;基于知識(shí)分詞算法的病案全文檢索系統(tǒng)[D];第二軍醫(yī)大學(xué);2004年

2 明廷波;基于神經(jīng)網(wǎng)絡(luò)的Web信息抽取系統(tǒng)的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2006年

3 程娟;中文文檔自動(dòng)摘要技術(shù)[D];山東大學(xué);2006年

，

本文編號(hào)：730314

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/wenshubaike/mishujinen/730314.html

上一篇：EMERALD:一種基于事件監(jiān)控的異常檢測(cè)技術(shù)
下一篇：情報(bào)學(xué)核心期刊Web引文的作者分析

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

中文科技文獻(xiàn)網(wǎng)絡(luò)搜索引擎自動(dòng)文摘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)