天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

中文科技文獻(xiàn)網(wǎng)絡(luò)搜索引擎自動(dòng)文摘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-08-24 08:41

  本文關(guān)鍵詞:中文科技文獻(xiàn)網(wǎng)絡(luò)搜索引擎自動(dòng)文摘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)


  更多相關(guān)文章: 自動(dòng)文摘 搜索引擎 中文科技文獻(xiàn) 網(wǎng)頁(yè)清洗 摘要提取


【摘要】: 隨著Internet的迅速發(fā)展,Web上的各種數(shù)據(jù)急劇增加,網(wǎng)絡(luò)已經(jīng)成為數(shù)據(jù)的倉(cāng)庫(kù)和知識(shí)的來(lái)源。用戶如何才能快速有效地獲取和利用這些資源,已經(jīng)成為迫切需要解決的一個(gè)問(wèn)題,而信息檢索和自動(dòng)摘要是目前解決這一難題的關(guān)鍵技術(shù)。自動(dòng)摘要技術(shù)將文檔內(nèi)容以簡(jiǎn)潔精練的形式呈現(xiàn)出來(lái),是信息檢索技術(shù)發(fā)展到一定程度的自然延伸。目前,搜索引擎作為信息檢索的一個(gè)重要工具,往往只是簡(jiǎn)單截取關(guān)鍵字所在的部分句子或段落作為摘要提供給用戶,造成用戶在瀏覽搜索結(jié)果時(shí)無(wú)法把握整個(gè)網(wǎng)頁(yè)的內(nèi)容提要,進(jìn)而影響檢索效率。而傳統(tǒng)基于詞頻統(tǒng)計(jì)的摘要方法又主要針對(duì)純文本文檔,且單純考慮文本的表層特征,缺乏對(duì)文檔的語(yǔ)義分析,生成的文摘質(zhì)量不高,因此也難以直接適用于Web文檔摘要的自動(dòng)提取。 本課題的研究目標(biāo)是在對(duì)自動(dòng)文摘技術(shù)進(jìn)行深入研究的基礎(chǔ)上,提出一種適合于中文科技文獻(xiàn)搜索引擎的Web文檔的自動(dòng)摘要方法,并實(shí)際開發(fā)出一個(gè)Web文檔自動(dòng)摘要系統(tǒng)。該系統(tǒng)可作為搜索引擎的輔助檢索,摘要內(nèi)容應(yīng)滿足完備性和概括性,并且具備一定連貫性。 為此,本文在綜合分析Web頁(yè)面信息特征的基礎(chǔ)上,首先獲得頁(yè)面的正文信息,然后綜合統(tǒng)計(jì)方法和啟發(fā)式規(guī)則來(lái)提取文檔的關(guān)鍵詞、關(guān)鍵句,最后根據(jù)摘要比例輸出符合條件的摘要句子。在這過(guò)程中,本文全面系統(tǒng)的介紹了文本自動(dòng)摘要的相關(guān)問(wèn)題和技術(shù),深入分析了Web頁(yè)面信息特征,提出了Web頁(yè)面原文摘要的抽取方法及一種適合于網(wǎng)頁(yè)信息的小標(biāo)題提取算法,探討了摘要生成的相關(guān)技術(shù),并提出了一種結(jié)合統(tǒng)計(jì)方法和文本結(jié)構(gòu)特征分析的自動(dòng)摘要方法。最后本文綜合以上研究成果設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)中文Web網(wǎng)頁(yè)自動(dòng)摘要系統(tǒng)模型,并對(duì)實(shí)際的網(wǎng)頁(yè)進(jìn)行了測(cè)試。 測(cè)試結(jié)果表明:對(duì)網(wǎng)頁(yè)文檔的摘要能夠滿足完備性和概括性的要求,反映文檔的主要內(nèi)容。說(shuō)明本文提出的摘要方法對(duì)中文網(wǎng)頁(yè)的處理是切實(shí)可行的。在測(cè)試中發(fā)現(xiàn),部分摘要的連貫性不是很好。在不影響處理速度的前提下,適當(dāng)?shù)乩靡恍┳匀徽Z(yǔ)言理解和生成技術(shù)來(lái)提高摘要質(zhì)量,尤其是改善摘要的可讀性,這將是今后進(jìn)一步研究的重點(diǎn)。
【關(guān)鍵詞】:自動(dòng)文摘 搜索引擎 中文科技文獻(xiàn) 網(wǎng)頁(yè)清洗 摘要提取
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2008
【分類號(hào)】:TP311.52
【目錄】:
  • 第1章 緒論7-21
  • 1.1 論文研究背景及意義7-9
  • 1.1.1 論文研究背景7-8
  • 1.1.2 論文研究意義8-9
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀9-17
  • 1.2.1 搜索引擎的產(chǎn)生和發(fā)展現(xiàn)狀9-13
  • 1.2.2 國(guó)外自動(dòng)文摘現(xiàn)狀研究13-15
  • 1.2.3 國(guó)內(nèi)自動(dòng)文摘現(xiàn)狀研究15-17
  • 1.3 論文研究目標(biāo)17
  • 1.4 論文研究路線17-18
  • 1.5 論文研究?jī)?nèi)容18-19
  • 1.6 論文研究方法19-21
  • 第2章 中文科技文獻(xiàn)自動(dòng)文摘概述21-36
  • 2.1 相關(guān)理論及概念21-24
  • 2.1.1 科技文獻(xiàn)21-22
  • 2.1.2 文摘的概念22-24
  • 2.1.3 文摘內(nèi)容的選擇標(biāo)準(zhǔn)24
  • 2.2 中文自動(dòng)文摘主要生成方法24-33
  • 2.2.1 基于原文抽取的自動(dòng)文摘25-28
  • 2.2.2 基于結(jié)構(gòu)分析的自動(dòng)文摘28-30
  • 2.2.3 基于語(yǔ)義理解的自動(dòng)文摘30-31
  • 2.2.4 基于模板的自動(dòng)文摘31-33
  • 2.3 自動(dòng)文摘系統(tǒng)的評(píng)價(jià)33-36
  • 2.3.1 內(nèi)部評(píng)價(jià)方法(Intrinsic Methods)33-34
  • 2.3.2 外部評(píng)價(jià)方法(Extrinsic Methods)34-35
  • 2.3.3 內(nèi)部評(píng)價(jià)與外部評(píng)價(jià)方法的選擇階段35-36
  • 第3章 網(wǎng)頁(yè)主體內(nèi)容提取36-50
  • 3.1 網(wǎng)頁(yè)結(jié)構(gòu)分析36-38
  • 3.2 文檔對(duì)象模型38-39
  • 3.3 網(wǎng)頁(yè)清洗過(guò)程39-47
  • 3.3.1 網(wǎng)頁(yè)清洗概述41-42
  • 3.3.2 HTML 文檔解析42-43
  • 3.3.3 頁(yè)面清洗43-47
  • 3.4 實(shí)例分析47-50
  • 第4章 中文自動(dòng)文摘功能模塊設(shè)計(jì)50-76
  • 4.1 原文摘要提取模塊50-55
  • 4.1.1 原文摘要結(jié)構(gòu)分析52-53
  • 4.1.2 原文摘要提取算法53
  • 4.1.3 實(shí)例分析53-55
  • 4.2 小標(biāo)題識(shí)別與提取模塊55-60
  • 4.2.1 小標(biāo)題識(shí)別55-57
  • 4.2.2 小標(biāo)題提取算法57-58
  • 4.2.3 實(shí)例分析58-60
  • 4.3 文摘句提取模塊60-73
  • 4.3.1 自動(dòng)分詞61-66
  • 4.3.2 詞語(yǔ)權(quán)值計(jì)算66-67
  • 4.3.3 計(jì)算句子權(quán)值67-69
  • 4.3.4 實(shí)例分析69-73
  • 4.4 網(wǎng)頁(yè)文檔摘要降低冗余處理73-76
  • 第5章 中文自動(dòng)文摘系統(tǒng)實(shí)現(xiàn)76-92
  • 5.1 中文自動(dòng)文摘系統(tǒng)子模塊功能及結(jié)構(gòu)76-79
  • 5.2 中文自動(dòng)文摘系統(tǒng)運(yùn)行流程79-81
  • 5.3 中文自動(dòng)文摘系統(tǒng)實(shí)現(xiàn)81-92
  • 5.3.1 系統(tǒng)軟件環(huán)境簡(jiǎn)介81-84
  • 5.3.2 系統(tǒng)操作過(guò)程84-90
  • 5.3.3 系統(tǒng)小結(jié)90-92
  • 第6章 結(jié)束語(yǔ)92-93
  • 參考文獻(xiàn)93-96
  • 摘要96-98
  • ABSTRACT98-100
  • 致謝100

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 王永成,許慧敏;OA-1.4 版中文自動(dòng)摘要系統(tǒng)[J];高技術(shù)通訊;1998年01期

2 陳桂林,王永成;Internet網(wǎng)絡(luò)信息自動(dòng)摘要的研究[J];高技術(shù)通訊;1999年02期

3 李蕾,鐘義信,郭祥昊;面向特定領(lǐng)域的理解型中文自動(dòng)文摘系統(tǒng)[J];計(jì)算機(jī)研究與發(fā)展;2000年04期

4 劉功申,王永成,許一震;小標(biāo)題識(shí)別的意義和方法[J];計(jì)算機(jī)工程;2002年06期

5 王建波,王開鑄;自然語(yǔ)言篇章理解及基于理解的自動(dòng)文摘研究[J];中文信息學(xué)報(bào);1992年02期

6 刁倩,王永成,張惠惠,何驥;文本自動(dòng)分類中的詞權(quán)重與分類算法[J];中文信息學(xué)報(bào);2000年03期

7 薛翠芳,郭炳炎;漢語(yǔ)文本結(jié)構(gòu)的自動(dòng)分析[J];情報(bào)學(xué)報(bào);2000年04期

8 楊曉蘭,鐘義信;基于全信息詞典的自動(dòng)文摘系統(tǒng)研究與實(shí)現(xiàn)[J];情報(bào)學(xué)報(bào);1997年06期

9 劉挺,吳巖,王開鑄;基于信息抽取和文本生成的自動(dòng)文摘系統(tǒng)設(shè)計(jì)[J];情報(bào)學(xué)報(bào);1997年S1期

10 吳巖,李秀坤,王開鑄;HIT-97Ⅰ型英文自動(dòng)文摘系統(tǒng)[J];情報(bào)學(xué)報(bào);1998年05期

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 鄭義;多媒體信息自動(dòng)摘要及其相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2003年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條

1 夏洪斌;基于知識(shí)分詞算法的病案全文檢索系統(tǒng)[D];第二軍醫(yī)大學(xué);2004年

2 明廷波;基于神經(jīng)網(wǎng)絡(luò)的Web信息抽取系統(tǒng)的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2006年

3 程娟;中文文檔自動(dòng)摘要技術(shù)[D];山東大學(xué);2006年



本文編號(hào):730314

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenshubaike/mishujinen/730314.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶dd591***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com