天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于視覺特征和文本結(jié)構(gòu)分析的中文網(wǎng)頁自動摘要技術(shù)研究

發(fā)布時間:2017-05-19 13:17

  本文關(guān)鍵詞:基于視覺特征和文本結(jié)構(gòu)分析的中文網(wǎng)頁自動摘要技術(shù)研究,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著國際互聯(lián)網(wǎng)越來越深入我們的生活,互聯(lián)網(wǎng)上已經(jīng)聚集了海量的文本資料,而且仍在爆炸性的增長。為了快速準確的幫助用戶查找到需要的內(nèi)容,傳統(tǒng)的解決方案是使用搜索引擎。搜索引擎根據(jù)用戶的搜索短語給出一個網(wǎng)頁的列表,并結(jié)合網(wǎng)頁自動文摘技術(shù),快速處理每一篇網(wǎng)頁,概括出其核心內(nèi)容并附在文檔標題后,供用戶篩選出有價值的文檔。 然而現(xiàn)有的搜索引擎摘要系統(tǒng)的質(zhì)量較低,僅僅基于統(tǒng)計方法,摘取網(wǎng)頁中和搜索短語匹配字句的附近若干句子,既不能體現(xiàn)該文檔的主題思想,也不能很好的根據(jù)用戶的搜索短語篩選出用戶需要的信息。 針對這些不足,本文提出了一種基于視覺特征和文本結(jié)構(gòu)分析的中文網(wǎng)頁自動摘要方法。由于網(wǎng)頁中包含了大量和網(wǎng)頁主題不相關(guān)的內(nèi)容,例如廣告鏈接、導(dǎo)航菜單、版權(quán)信息等,首先需要從網(wǎng)頁中提取出正文。本文采用了基于視覺特征的網(wǎng)頁正文提取思想,提出了一種正文提取方法:先對網(wǎng)頁完整渲染,然后模擬用戶通過視覺感知了解網(wǎng)頁布局的過程,將頁面分割成若干個區(qū)塊,然后從中尋找包含正文的區(qū)塊,最后通過二次清洗剔除穿插在正文中的廣告。這種方法能夠適應(yīng)目前網(wǎng)頁隨著Web技術(shù)的快速發(fā)展,變得越來越復(fù)雜的趨勢,避免了同類研究由于HTML結(jié)構(gòu)和實際的視覺結(jié)構(gòu)完全不同導(dǎo)致抽取失敗的情況。 詞匯相關(guān)度分析對自動摘要有著重要意義,本文提出了一種基于義素圖的詞匯語義相關(guān)度計算方法。采用知網(wǎng)信息構(gòu)造包含義項和義素的義素圖,然后基于人的認知,采用一種擴展的隨機游走算法計算詞匯之間直接和間接的相關(guān)性。 在以上工作的基礎(chǔ)上,本文采用擬人思維,給出了一種基于關(guān)聯(lián)圖分析和文本結(jié)構(gòu)分析的自動摘要方法。該方法首先采用文本物理結(jié)構(gòu)分析技術(shù)和文本結(jié)構(gòu)分析方法將文檔分割成若干個語義段,然后針對每個語義段,提出了一種基于關(guān)聯(lián)圖分析的主題詞提取方法,對各語義段提取主題詞集合。然后根據(jù)主題詞的指導(dǎo),結(jié)合TF-IDF方法和內(nèi)容相關(guān)性分析提取各語義段的摘要。最后根據(jù)用戶搜索詞對摘要進行篩選,生成摘要。 基于以上方法,作者實現(xiàn)了一個面向搜索引擎的自動文摘系統(tǒng),論文成果成功應(yīng)用在上海市國際科技合作基金項目基于語義擴展及關(guān)系挖掘的智能搜索引擎研究上。 實驗證明,本文算法給出的摘要質(zhì)量較高,并且滿足了用戶的篩選要求。
【關(guān)鍵詞】:自動摘要 網(wǎng)頁 正文提取 義素圖 隨機游走 語義相關(guān)度 文本結(jié)構(gòu)分析
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3;TP393.092
【目錄】:
  • 內(nèi)容摘要6-8
  • ABSTRACT8-13
  • 第一章 緒論13-20
  • 1.1. 引言13
  • 1.2. 研究的背景與意義13-14
  • 1.3. 研究發(fā)展現(xiàn)狀14-16
  • 1.4. 關(guān)鍵技術(shù)16
  • 1.5. 本文的研究內(nèi)容16-17
  • 1.6. 本文的特色與創(chuàng)新之處17-18
  • 1.7. 本文的組織18-20
  • 第二章 相關(guān)研究工作20-30
  • 2.1. 自動文摘技術(shù)綜述20-27
  • 2.1.1. 文本自動摘要分類20-21
  • 2.1.2. 文本自動摘要主要方法21-25
  • 2.1.3. 文本自動摘要的預(yù)處理和后處理方法25-26
  • 2.1.4. 自動摘要評價方法26-27
  • 2.2. 網(wǎng)頁正文提取技術(shù)概述27-28
  • 2.3. 詞匯語義相關(guān)度計算涉及的技術(shù)28-29
  • 2.3.1. 隨機游走、pagerank和穩(wěn)定分布28
  • 2.3.2. 知網(wǎng)和義原28-29
  • 2.4. 本章小結(jié)29-30
  • 第三章 網(wǎng)頁正文提取方法30-37
  • 3.1. 網(wǎng)頁正文提取31-34
  • 3.2. 舉例與實驗分析34-36
  • 3.3. 本章小結(jié)36-37
  • 第四章 基于義素圖的詞匯語義相關(guān)度計算37-48
  • 4.1. 引言37-39
  • 4.2. 相關(guān)工作39-40
  • 4.3. 義素與知網(wǎng)40
  • 4.4. 基于義素圖的擴展隨機游走模型40-45
  • 4.4.1. 義素圖的構(gòu)建41-43
  • 4.4.2. 改進的隨機游走算法43-45
  • 4.5. 評價45-47
  • 4.6. 本章小結(jié)47-48
  • 第五章 基于文本結(jié)構(gòu)分析的自動摘要方法48-62
  • 5.1. 文本物理結(jié)構(gòu)分析48-50
  • 5.2. 基于義素圖的主題詞提取50-53
  • 5.3. 詞向量語義匹配方法53-54
  • 5.4. 基于內(nèi)容相關(guān)度的文本結(jié)構(gòu)分析54-55
  • 5.5. 自動摘要流程55-59
  • 5.5.1. 基于文本結(jié)構(gòu)分析的自動摘要方法55-57
  • 5.5.2. 實驗舉例57-59
  • 5.6. 面向查詢的自動摘要59-61
  • 5.6.1. 搜索短語59
  • 5.6.2. 兼顧搜索短語要求和文章主題的自動文摘方法59-61
  • 5.7. 文摘后處理61
  • 5.8. 本章小結(jié)61-62
  • 第六章 網(wǎng)頁自動摘要系統(tǒng)的設(shè)計、實現(xiàn)和準確度測試62-69
  • 6.1. 系統(tǒng)關(guān)鍵部件設(shè)計62-67
  • 6.1.1. 系統(tǒng)主要功能模塊62-64
  • 6.1.2. 系統(tǒng)設(shè)計64-66
  • 6.1.3. 系統(tǒng)接口66-67
  • 6.2. 本文自動摘要方法的準確度測試67-68
  • 6.3. 本章小結(jié)68-69
  • 第七章 自動摘要在元搜索引擎中的應(yīng)用69-73
  • 7.1. 總體架構(gòu)69-70
  • 7.2. 實際應(yīng)用效果70-71
  • 7.3. 元搜索去重71
  • 7.4. 元搜索排序71-72
  • 7.5. 本章小結(jié)72-73
  • 第八章 總結(jié)與展望73-75
  • 8.1. 全文工作總結(jié)73
  • 8.2. 未來工作展望73-75
  • 附錄一 作者攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文75-76
  • 附錄二 作者攻讀碩士學(xué)位期間參與的科研項目76-77
  • 參考文獻77-79
  • 后記79

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 龔書;瞿有利;田盛豐;;基于語義的自動文摘研究綜述[J];北京交通大學(xué)學(xué)報;2009年05期

2 許云,樊孝忠,張鋒;基于知網(wǎng)的語義相關(guān)度計算[J];北京理工大學(xué)學(xué)報;2005年05期

3 劉挺,王開鑄;基于篇章多級依存結(jié)構(gòu)的自動文摘研究[J];計算機研究與發(fā)展;1999年04期

4 蔣效宇;樊孝忠;陳康;;基于用戶查詢的中文自動文摘研究[J];計算機工程與應(yīng)用;2008年05期

5 劉功申,王永成,許一震;小標題識別的意義和方法[J];計算機工程;2002年06期

6 王利;劉宗田;王燕華;廖濤;;基于內(nèi)容相似度的網(wǎng)頁正文提取[J];計算機工程;2010年06期

7 李建鋒;陳佳良;張美華;;一種基于聚類-遺傳算法的文摘提取方法研究[J];計算技術(shù)與自動化;2007年03期

8 宋今,趙東巖;基于語料庫與層次詞典的自動文摘研究(英文)[J];軟件學(xué)報;2000年03期

9 曾淑琴;吳揚揚;;基于HowNet的詞語相關(guān)度計算模型[J];微型機與應(yīng)用;2012年08期

10 劉春;黃定光;;本體初探[J];現(xiàn)代情報;2008年01期

中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 劉娜;文本自動摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年

2 鐘茂生;基于內(nèi)容相關(guān)度計算的文本結(jié)構(gòu)分析方法研究[D];上海交通大學(xué);2010年


  本文關(guān)鍵詞:基于視覺特征和文本結(jié)構(gòu)分析的中文網(wǎng)頁自動摘要技術(shù)研究,,由筆耕文化傳播整理發(fā)布。



本文編號:378808

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/378808.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶40ced***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
中文字幕在线区中文色| 欧美日韩精品久久亚洲区熟妇人 | 亚洲天堂久久精品成人| 狠狠干狠狠操亚洲综合| 国内外免费在线激情视频| 91福利免费一区二区三区| 亚洲深夜精品福利一区| 91亚洲精品国产一区| 日韩免费成人福利在线| 久久综合日韩精品免费观看| 久热久热精品视频在线观看| 日韩av欧美中文字幕| 日韩一区二区三区18| 激情爱爱一区二区三区| 在线免费国产一区二区三区| 人妻内射在线二区一区| 国产欧美一区二区三区精品视| 国产一区二区三区不卡| 亚洲欧美日韩在线看片| 又大又长又粗又猛国产精品| 日本办公室三级在线观看| 成人午夜免费观看视频| 韩国日本欧美国产三级| 草草视频精品在线观看| 精品少妇人妻av一区二区蜜桃| 老司机这里只有精品视频| 91精品国产av一区二区| 伊人欧美一区二区三区| 91麻豆视频国产一区二区| 亚洲一区二区精品国产av| 国产成人精品视频一区二区三区| 日韩中文无线码在线视频| 中日韩美一级特黄大片| 在线懂色一区二区三区精品| 国产水滴盗摄一区二区| 精品一区二区三区不卡少妇av| 日韩中文无线码在线视频| 久久国产成人精品国产成人亚洲| 国产毛片不卡视频在线| 精品午夜福利无人区乱码| 久久精品国产99国产免费|