天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于視覺(jué)特征和文本結(jié)構(gòu)分析的中文網(wǎng)頁(yè)自動(dòng)摘要技術(shù)研究

發(fā)布時(shí)間:2017-05-19 13:17

  本文關(guān)鍵詞:基于視覺(jué)特征和文本結(jié)構(gòu)分析的中文網(wǎng)頁(yè)自動(dòng)摘要技術(shù)研究,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著國(guó)際互聯(lián)網(wǎng)越來(lái)越深入我們的生活,互聯(lián)網(wǎng)上已經(jīng)聚集了海量的文本資料,而且仍在爆炸性的增長(zhǎng)。為了快速準(zhǔn)確的幫助用戶查找到需要的內(nèi)容,傳統(tǒng)的解決方案是使用搜索引擎。搜索引擎根據(jù)用戶的搜索短語(yǔ)給出一個(gè)網(wǎng)頁(yè)的列表,并結(jié)合網(wǎng)頁(yè)自動(dòng)文摘技術(shù),快速處理每一篇網(wǎng)頁(yè),概括出其核心內(nèi)容并附在文檔標(biāo)題后,供用戶篩選出有價(jià)值的文檔。 然而現(xiàn)有的搜索引擎摘要系統(tǒng)的質(zhì)量較低,僅僅基于統(tǒng)計(jì)方法,摘取網(wǎng)頁(yè)中和搜索短語(yǔ)匹配字句的附近若干句子,既不能體現(xiàn)該文檔的主題思想,也不能很好的根據(jù)用戶的搜索短語(yǔ)篩選出用戶需要的信息。 針對(duì)這些不足,本文提出了一種基于視覺(jué)特征和文本結(jié)構(gòu)分析的中文網(wǎng)頁(yè)自動(dòng)摘要方法。由于網(wǎng)頁(yè)中包含了大量和網(wǎng)頁(yè)主題不相關(guān)的內(nèi)容,例如廣告鏈接、導(dǎo)航菜單、版權(quán)信息等,首先需要從網(wǎng)頁(yè)中提取出正文。本文采用了基于視覺(jué)特征的網(wǎng)頁(yè)正文提取思想,提出了一種正文提取方法:先對(duì)網(wǎng)頁(yè)完整渲染,然后模擬用戶通過(guò)視覺(jué)感知了解網(wǎng)頁(yè)布局的過(guò)程,將頁(yè)面分割成若干個(gè)區(qū)塊,然后從中尋找包含正文的區(qū)塊,最后通過(guò)二次清洗剔除穿插在正文中的廣告。這種方法能夠適應(yīng)目前網(wǎng)頁(yè)隨著Web技術(shù)的快速發(fā)展,變得越來(lái)越復(fù)雜的趨勢(shì),避免了同類研究由于HTML結(jié)構(gòu)和實(shí)際的視覺(jué)結(jié)構(gòu)完全不同導(dǎo)致抽取失敗的情況。 詞匯相關(guān)度分析對(duì)自動(dòng)摘要有著重要意義,本文提出了一種基于義素圖的詞匯語(yǔ)義相關(guān)度計(jì)算方法。采用知網(wǎng)信息構(gòu)造包含義項(xiàng)和義素的義素圖,然后基于人的認(rèn)知,采用一種擴(kuò)展的隨機(jī)游走算法計(jì)算詞匯之間直接和間接的相關(guān)性。 在以上工作的基礎(chǔ)上,本文采用擬人思維,給出了一種基于關(guān)聯(lián)圖分析和文本結(jié)構(gòu)分析的自動(dòng)摘要方法。該方法首先采用文本物理結(jié)構(gòu)分析技術(shù)和文本結(jié)構(gòu)分析方法將文檔分割成若干個(gè)語(yǔ)義段,然后針對(duì)每個(gè)語(yǔ)義段,提出了一種基于關(guān)聯(lián)圖分析的主題詞提取方法,對(duì)各語(yǔ)義段提取主題詞集合。然后根據(jù)主題詞的指導(dǎo),結(jié)合TF-IDF方法和內(nèi)容相關(guān)性分析提取各語(yǔ)義段的摘要。最后根據(jù)用戶搜索詞對(duì)摘要進(jìn)行篩選,生成摘要。 基于以上方法,作者實(shí)現(xiàn)了一個(gè)面向搜索引擎的自動(dòng)文摘系統(tǒng),論文成果成功應(yīng)用在上海市國(guó)際科技合作基金項(xiàng)目基于語(yǔ)義擴(kuò)展及關(guān)系挖掘的智能搜索引擎研究上。 實(shí)驗(yàn)證明,本文算法給出的摘要質(zhì)量較高,并且滿足了用戶的篩選要求。
【關(guān)鍵詞】:自動(dòng)摘要 網(wǎng)頁(yè) 正文提取 義素圖 隨機(jī)游走 語(yǔ)義相關(guān)度 文本結(jié)構(gòu)分析
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.3;TP393.092
【目錄】:
  • 內(nèi)容摘要6-8
  • ABSTRACT8-13
  • 第一章 緒論13-20
  • 1.1. 引言13
  • 1.2. 研究的背景與意義13-14
  • 1.3. 研究發(fā)展現(xiàn)狀14-16
  • 1.4. 關(guān)鍵技術(shù)16
  • 1.5. 本文的研究?jī)?nèi)容16-17
  • 1.6. 本文的特色與創(chuàng)新之處17-18
  • 1.7. 本文的組織18-20
  • 第二章 相關(guān)研究工作20-30
  • 2.1. 自動(dòng)文摘技術(shù)綜述20-27
  • 2.1.1. 文本自動(dòng)摘要分類20-21
  • 2.1.2. 文本自動(dòng)摘要主要方法21-25
  • 2.1.3. 文本自動(dòng)摘要的預(yù)處理和后處理方法25-26
  • 2.1.4. 自動(dòng)摘要評(píng)價(jià)方法26-27
  • 2.2. 網(wǎng)頁(yè)正文提取技術(shù)概述27-28
  • 2.3. 詞匯語(yǔ)義相關(guān)度計(jì)算涉及的技術(shù)28-29
  • 2.3.1. 隨機(jī)游走、pagerank和穩(wěn)定分布28
  • 2.3.2. 知網(wǎng)和義原28-29
  • 2.4. 本章小結(jié)29-30
  • 第三章 網(wǎng)頁(yè)正文提取方法30-37
  • 3.1. 網(wǎng)頁(yè)正文提取31-34
  • 3.2. 舉例與實(shí)驗(yàn)分析34-36
  • 3.3. 本章小結(jié)36-37
  • 第四章 基于義素圖的詞匯語(yǔ)義相關(guān)度計(jì)算37-48
  • 4.1. 引言37-39
  • 4.2. 相關(guān)工作39-40
  • 4.3. 義素與知網(wǎng)40
  • 4.4. 基于義素圖的擴(kuò)展隨機(jī)游走模型40-45
  • 4.4.1. 義素圖的構(gòu)建41-43
  • 4.4.2. 改進(jìn)的隨機(jī)游走算法43-45
  • 4.5. 評(píng)價(jià)45-47
  • 4.6. 本章小結(jié)47-48
  • 第五章 基于文本結(jié)構(gòu)分析的自動(dòng)摘要方法48-62
  • 5.1. 文本物理結(jié)構(gòu)分析48-50
  • 5.2. 基于義素圖的主題詞提取50-53
  • 5.3. 詞向量語(yǔ)義匹配方法53-54
  • 5.4. 基于內(nèi)容相關(guān)度的文本結(jié)構(gòu)分析54-55
  • 5.5. 自動(dòng)摘要流程55-59
  • 5.5.1. 基于文本結(jié)構(gòu)分析的自動(dòng)摘要方法55-57
  • 5.5.2. 實(shí)驗(yàn)舉例57-59
  • 5.6. 面向查詢的自動(dòng)摘要59-61
  • 5.6.1. 搜索短語(yǔ)59
  • 5.6.2. 兼顧搜索短語(yǔ)要求和文章主題的自動(dòng)文摘方法59-61
  • 5.7. 文摘后處理61
  • 5.8. 本章小結(jié)61-62
  • 第六章 網(wǎng)頁(yè)自動(dòng)摘要系統(tǒng)的設(shè)計(jì)、實(shí)現(xiàn)和準(zhǔn)確度測(cè)試62-69
  • 6.1. 系統(tǒng)關(guān)鍵部件設(shè)計(jì)62-67
  • 6.1.1. 系統(tǒng)主要功能模塊62-64
  • 6.1.2. 系統(tǒng)設(shè)計(jì)64-66
  • 6.1.3. 系統(tǒng)接口66-67
  • 6.2. 本文自動(dòng)摘要方法的準(zhǔn)確度測(cè)試67-68
  • 6.3. 本章小結(jié)68-69
  • 第七章 自動(dòng)摘要在元搜索引擎中的應(yīng)用69-73
  • 7.1. 總體架構(gòu)69-70
  • 7.2. 實(shí)際應(yīng)用效果70-71
  • 7.3. 元搜索去重71
  • 7.4. 元搜索排序71-72
  • 7.5. 本章小結(jié)72-73
  • 第八章 總結(jié)與展望73-75
  • 8.1. 全文工作總結(jié)73
  • 8.2. 未來(lái)工作展望73-75
  • 附錄一 作者攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文75-76
  • 附錄二 作者攻讀碩士學(xué)位期間參與的科研項(xiàng)目76-77
  • 參考文獻(xiàn)77-79
  • 后記79

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 龔書;瞿有利;田盛豐;;基于語(yǔ)義的自動(dòng)文摘研究綜述[J];北京交通大學(xué)學(xué)報(bào);2009年05期

2 許云,樊孝忠,張鋒;基于知網(wǎng)的語(yǔ)義相關(guān)度計(jì)算[J];北京理工大學(xué)學(xué)報(bào);2005年05期

3 劉挺,王開(kāi)鑄;基于篇章多級(jí)依存結(jié)構(gòu)的自動(dòng)文摘研究[J];計(jì)算機(jī)研究與發(fā)展;1999年04期

4 蔣效宇;樊孝忠;陳康;;基于用戶查詢的中文自動(dòng)文摘研究[J];計(jì)算機(jī)工程與應(yīng)用;2008年05期

5 劉功申,王永成,許一震;小標(biāo)題識(shí)別的意義和方法[J];計(jì)算機(jī)工程;2002年06期

6 王利;劉宗田;王燕華;廖濤;;基于內(nèi)容相似度的網(wǎng)頁(yè)正文提取[J];計(jì)算機(jī)工程;2010年06期

7 李建鋒;陳佳良;張美華;;一種基于聚類-遺傳算法的文摘提取方法研究[J];計(jì)算技術(shù)與自動(dòng)化;2007年03期

8 宋今,趙東巖;基于語(yǔ)料庫(kù)與層次詞典的自動(dòng)文摘研究(英文)[J];軟件學(xué)報(bào);2000年03期

9 曾淑琴;吳揚(yáng)揚(yáng);;基于HowNet的詞語(yǔ)相關(guān)度計(jì)算模型[J];微型機(jī)與應(yīng)用;2012年08期

10 劉春;黃定光;;本體初探[J];現(xiàn)代情報(bào);2008年01期

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條

1 劉娜;文本自動(dòng)摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年

2 鐘茂生;基于內(nèi)容相關(guān)度計(jì)算的文本結(jié)構(gòu)分析方法研究[D];上海交通大學(xué);2010年


  本文關(guān)鍵詞:基于視覺(jué)特征和文本結(jié)構(gòu)分析的中文網(wǎng)頁(yè)自動(dòng)摘要技術(shù)研究,,由筆耕文化傳播整理發(fā)布。



本文編號(hào):378808

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/378808.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶40ced***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com