基于視覺特征和文本結(jié)構(gòu)分析的中文網(wǎng)頁自動摘要技術(shù)研究
本文關(guān)鍵詞:基于視覺特征和文本結(jié)構(gòu)分析的中文網(wǎng)頁自動摘要技術(shù)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著國際互聯(lián)網(wǎng)越來越深入我們的生活,互聯(lián)網(wǎng)上已經(jīng)聚集了海量的文本資料,而且仍在爆炸性的增長。為了快速準確的幫助用戶查找到需要的內(nèi)容,傳統(tǒng)的解決方案是使用搜索引擎。搜索引擎根據(jù)用戶的搜索短語給出一個網(wǎng)頁的列表,并結(jié)合網(wǎng)頁自動文摘技術(shù),快速處理每一篇網(wǎng)頁,概括出其核心內(nèi)容并附在文檔標題后,供用戶篩選出有價值的文檔。 然而現(xiàn)有的搜索引擎摘要系統(tǒng)的質(zhì)量較低,僅僅基于統(tǒng)計方法,摘取網(wǎng)頁中和搜索短語匹配字句的附近若干句子,既不能體現(xiàn)該文檔的主題思想,也不能很好的根據(jù)用戶的搜索短語篩選出用戶需要的信息。 針對這些不足,本文提出了一種基于視覺特征和文本結(jié)構(gòu)分析的中文網(wǎng)頁自動摘要方法。由于網(wǎng)頁中包含了大量和網(wǎng)頁主題不相關(guān)的內(nèi)容,例如廣告鏈接、導(dǎo)航菜單、版權(quán)信息等,首先需要從網(wǎng)頁中提取出正文。本文采用了基于視覺特征的網(wǎng)頁正文提取思想,提出了一種正文提取方法:先對網(wǎng)頁完整渲染,然后模擬用戶通過視覺感知了解網(wǎng)頁布局的過程,將頁面分割成若干個區(qū)塊,然后從中尋找包含正文的區(qū)塊,最后通過二次清洗剔除穿插在正文中的廣告。這種方法能夠適應(yīng)目前網(wǎng)頁隨著Web技術(shù)的快速發(fā)展,變得越來越復(fù)雜的趨勢,避免了同類研究由于HTML結(jié)構(gòu)和實際的視覺結(jié)構(gòu)完全不同導(dǎo)致抽取失敗的情況。 詞匯相關(guān)度分析對自動摘要有著重要意義,本文提出了一種基于義素圖的詞匯語義相關(guān)度計算方法。采用知網(wǎng)信息構(gòu)造包含義項和義素的義素圖,然后基于人的認知,采用一種擴展的隨機游走算法計算詞匯之間直接和間接的相關(guān)性。 在以上工作的基礎(chǔ)上,本文采用擬人思維,給出了一種基于關(guān)聯(lián)圖分析和文本結(jié)構(gòu)分析的自動摘要方法。該方法首先采用文本物理結(jié)構(gòu)分析技術(shù)和文本結(jié)構(gòu)分析方法將文檔分割成若干個語義段,然后針對每個語義段,提出了一種基于關(guān)聯(lián)圖分析的主題詞提取方法,對各語義段提取主題詞集合。然后根據(jù)主題詞的指導(dǎo),結(jié)合TF-IDF方法和內(nèi)容相關(guān)性分析提取各語義段的摘要。最后根據(jù)用戶搜索詞對摘要進行篩選,生成摘要。 基于以上方法,作者實現(xiàn)了一個面向搜索引擎的自動文摘系統(tǒng),論文成果成功應(yīng)用在上海市國際科技合作基金項目基于語義擴展及關(guān)系挖掘的智能搜索引擎研究上。 實驗證明,本文算法給出的摘要質(zhì)量較高,并且滿足了用戶的篩選要求。
【關(guān)鍵詞】:自動摘要 網(wǎng)頁 正文提取 義素圖 隨機游走 語義相關(guān)度 文本結(jié)構(gòu)分析
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3;TP393.092
【目錄】:
- 內(nèi)容摘要6-8
- ABSTRACT8-13
- 第一章 緒論13-20
- 1.1. 引言13
- 1.2. 研究的背景與意義13-14
- 1.3. 研究發(fā)展現(xiàn)狀14-16
- 1.4. 關(guān)鍵技術(shù)16
- 1.5. 本文的研究內(nèi)容16-17
- 1.6. 本文的特色與創(chuàng)新之處17-18
- 1.7. 本文的組織18-20
- 第二章 相關(guān)研究工作20-30
- 2.1. 自動文摘技術(shù)綜述20-27
- 2.1.1. 文本自動摘要分類20-21
- 2.1.2. 文本自動摘要主要方法21-25
- 2.1.3. 文本自動摘要的預(yù)處理和后處理方法25-26
- 2.1.4. 自動摘要評價方法26-27
- 2.2. 網(wǎng)頁正文提取技術(shù)概述27-28
- 2.3. 詞匯語義相關(guān)度計算涉及的技術(shù)28-29
- 2.3.1. 隨機游走、pagerank和穩(wěn)定分布28
- 2.3.2. 知網(wǎng)和義原28-29
- 2.4. 本章小結(jié)29-30
- 第三章 網(wǎng)頁正文提取方法30-37
- 3.1. 網(wǎng)頁正文提取31-34
- 3.2. 舉例與實驗分析34-36
- 3.3. 本章小結(jié)36-37
- 第四章 基于義素圖的詞匯語義相關(guān)度計算37-48
- 4.1. 引言37-39
- 4.2. 相關(guān)工作39-40
- 4.3. 義素與知網(wǎng)40
- 4.4. 基于義素圖的擴展隨機游走模型40-45
- 4.4.1. 義素圖的構(gòu)建41-43
- 4.4.2. 改進的隨機游走算法43-45
- 4.5. 評價45-47
- 4.6. 本章小結(jié)47-48
- 第五章 基于文本結(jié)構(gòu)分析的自動摘要方法48-62
- 5.1. 文本物理結(jié)構(gòu)分析48-50
- 5.2. 基于義素圖的主題詞提取50-53
- 5.3. 詞向量語義匹配方法53-54
- 5.4. 基于內(nèi)容相關(guān)度的文本結(jié)構(gòu)分析54-55
- 5.5. 自動摘要流程55-59
- 5.5.1. 基于文本結(jié)構(gòu)分析的自動摘要方法55-57
- 5.5.2. 實驗舉例57-59
- 5.6. 面向查詢的自動摘要59-61
- 5.6.1. 搜索短語59
- 5.6.2. 兼顧搜索短語要求和文章主題的自動文摘方法59-61
- 5.7. 文摘后處理61
- 5.8. 本章小結(jié)61-62
- 第六章 網(wǎng)頁自動摘要系統(tǒng)的設(shè)計、實現(xiàn)和準確度測試62-69
- 6.1. 系統(tǒng)關(guān)鍵部件設(shè)計62-67
- 6.1.1. 系統(tǒng)主要功能模塊62-64
- 6.1.2. 系統(tǒng)設(shè)計64-66
- 6.1.3. 系統(tǒng)接口66-67
- 6.2. 本文自動摘要方法的準確度測試67-68
- 6.3. 本章小結(jié)68-69
- 第七章 自動摘要在元搜索引擎中的應(yīng)用69-73
- 7.1. 總體架構(gòu)69-70
- 7.2. 實際應(yīng)用效果70-71
- 7.3. 元搜索去重71
- 7.4. 元搜索排序71-72
- 7.5. 本章小結(jié)72-73
- 第八章 總結(jié)與展望73-75
- 8.1. 全文工作總結(jié)73
- 8.2. 未來工作展望73-75
- 附錄一 作者攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文75-76
- 附錄二 作者攻讀碩士學(xué)位期間參與的科研項目76-77
- 參考文獻77-79
- 后記79
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 龔書;瞿有利;田盛豐;;基于語義的自動文摘研究綜述[J];北京交通大學(xué)學(xué)報;2009年05期
2 許云,樊孝忠,張鋒;基于知網(wǎng)的語義相關(guān)度計算[J];北京理工大學(xué)學(xué)報;2005年05期
3 劉挺,王開鑄;基于篇章多級依存結(jié)構(gòu)的自動文摘研究[J];計算機研究與發(fā)展;1999年04期
4 蔣效宇;樊孝忠;陳康;;基于用戶查詢的中文自動文摘研究[J];計算機工程與應(yīng)用;2008年05期
5 劉功申,王永成,許一震;小標題識別的意義和方法[J];計算機工程;2002年06期
6 王利;劉宗田;王燕華;廖濤;;基于內(nèi)容相似度的網(wǎng)頁正文提取[J];計算機工程;2010年06期
7 李建鋒;陳佳良;張美華;;一種基于聚類-遺傳算法的文摘提取方法研究[J];計算技術(shù)與自動化;2007年03期
8 宋今,趙東巖;基于語料庫與層次詞典的自動文摘研究(英文)[J];軟件學(xué)報;2000年03期
9 曾淑琴;吳揚揚;;基于HowNet的詞語相關(guān)度計算模型[J];微型機與應(yīng)用;2012年08期
10 劉春;黃定光;;本體初探[J];現(xiàn)代情報;2008年01期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 劉娜;文本自動摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年
2 鐘茂生;基于內(nèi)容相關(guān)度計算的文本結(jié)構(gòu)分析方法研究[D];上海交通大學(xué);2010年
本文關(guān)鍵詞:基于視覺特征和文本結(jié)構(gòu)分析的中文網(wǎng)頁自動摘要技術(shù)研究,,由筆耕文化傳播整理發(fā)布。
本文編號:378808
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/378808.html