基于視覺(jué)特征和文本結(jié)構(gòu)分析的中文網(wǎng)頁(yè)自動(dòng)摘要技術(shù)研究
本文關(guān)鍵詞:基于視覺(jué)特征和文本結(jié)構(gòu)分析的中文網(wǎng)頁(yè)自動(dòng)摘要技術(shù)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著國(guó)際互聯(lián)網(wǎng)越來(lái)越深入我們的生活,互聯(lián)網(wǎng)上已經(jīng)聚集了海量的文本資料,而且仍在爆炸性的增長(zhǎng)。為了快速準(zhǔn)確的幫助用戶查找到需要的內(nèi)容,傳統(tǒng)的解決方案是使用搜索引擎。搜索引擎根據(jù)用戶的搜索短語(yǔ)給出一個(gè)網(wǎng)頁(yè)的列表,并結(jié)合網(wǎng)頁(yè)自動(dòng)文摘技術(shù),快速處理每一篇網(wǎng)頁(yè),概括出其核心內(nèi)容并附在文檔標(biāo)題后,供用戶篩選出有價(jià)值的文檔。 然而現(xiàn)有的搜索引擎摘要系統(tǒng)的質(zhì)量較低,僅僅基于統(tǒng)計(jì)方法,摘取網(wǎng)頁(yè)中和搜索短語(yǔ)匹配字句的附近若干句子,既不能體現(xiàn)該文檔的主題思想,也不能很好的根據(jù)用戶的搜索短語(yǔ)篩選出用戶需要的信息。 針對(duì)這些不足,本文提出了一種基于視覺(jué)特征和文本結(jié)構(gòu)分析的中文網(wǎng)頁(yè)自動(dòng)摘要方法。由于網(wǎng)頁(yè)中包含了大量和網(wǎng)頁(yè)主題不相關(guān)的內(nèi)容,例如廣告鏈接、導(dǎo)航菜單、版權(quán)信息等,首先需要從網(wǎng)頁(yè)中提取出正文。本文采用了基于視覺(jué)特征的網(wǎng)頁(yè)正文提取思想,提出了一種正文提取方法:先對(duì)網(wǎng)頁(yè)完整渲染,然后模擬用戶通過(guò)視覺(jué)感知了解網(wǎng)頁(yè)布局的過(guò)程,將頁(yè)面分割成若干個(gè)區(qū)塊,然后從中尋找包含正文的區(qū)塊,最后通過(guò)二次清洗剔除穿插在正文中的廣告。這種方法能夠適應(yīng)目前網(wǎng)頁(yè)隨著Web技術(shù)的快速發(fā)展,變得越來(lái)越復(fù)雜的趨勢(shì),避免了同類研究由于HTML結(jié)構(gòu)和實(shí)際的視覺(jué)結(jié)構(gòu)完全不同導(dǎo)致抽取失敗的情況。 詞匯相關(guān)度分析對(duì)自動(dòng)摘要有著重要意義,本文提出了一種基于義素圖的詞匯語(yǔ)義相關(guān)度計(jì)算方法。采用知網(wǎng)信息構(gòu)造包含義項(xiàng)和義素的義素圖,然后基于人的認(rèn)知,采用一種擴(kuò)展的隨機(jī)游走算法計(jì)算詞匯之間直接和間接的相關(guān)性。 在以上工作的基礎(chǔ)上,本文采用擬人思維,給出了一種基于關(guān)聯(lián)圖分析和文本結(jié)構(gòu)分析的自動(dòng)摘要方法。該方法首先采用文本物理結(jié)構(gòu)分析技術(shù)和文本結(jié)構(gòu)分析方法將文檔分割成若干個(gè)語(yǔ)義段,然后針對(duì)每個(gè)語(yǔ)義段,提出了一種基于關(guān)聯(lián)圖分析的主題詞提取方法,對(duì)各語(yǔ)義段提取主題詞集合。然后根據(jù)主題詞的指導(dǎo),結(jié)合TF-IDF方法和內(nèi)容相關(guān)性分析提取各語(yǔ)義段的摘要。最后根據(jù)用戶搜索詞對(duì)摘要進(jìn)行篩選,生成摘要。 基于以上方法,作者實(shí)現(xiàn)了一個(gè)面向搜索引擎的自動(dòng)文摘系統(tǒng),論文成果成功應(yīng)用在上海市國(guó)際科技合作基金項(xiàng)目基于語(yǔ)義擴(kuò)展及關(guān)系挖掘的智能搜索引擎研究上。 實(shí)驗(yàn)證明,本文算法給出的摘要質(zhì)量較高,并且滿足了用戶的篩選要求。
【關(guān)鍵詞】:自動(dòng)摘要 網(wǎng)頁(yè) 正文提取 義素圖 隨機(jī)游走 語(yǔ)義相關(guān)度 文本結(jié)構(gòu)分析
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.3;TP393.092
【目錄】:
- 內(nèi)容摘要6-8
- ABSTRACT8-13
- 第一章 緒論13-20
- 1.1. 引言13
- 1.2. 研究的背景與意義13-14
- 1.3. 研究發(fā)展現(xiàn)狀14-16
- 1.4. 關(guān)鍵技術(shù)16
- 1.5. 本文的研究?jī)?nèi)容16-17
- 1.6. 本文的特色與創(chuàng)新之處17-18
- 1.7. 本文的組織18-20
- 第二章 相關(guān)研究工作20-30
- 2.1. 自動(dòng)文摘技術(shù)綜述20-27
- 2.1.1. 文本自動(dòng)摘要分類20-21
- 2.1.2. 文本自動(dòng)摘要主要方法21-25
- 2.1.3. 文本自動(dòng)摘要的預(yù)處理和后處理方法25-26
- 2.1.4. 自動(dòng)摘要評(píng)價(jià)方法26-27
- 2.2. 網(wǎng)頁(yè)正文提取技術(shù)概述27-28
- 2.3. 詞匯語(yǔ)義相關(guān)度計(jì)算涉及的技術(shù)28-29
- 2.3.1. 隨機(jī)游走、pagerank和穩(wěn)定分布28
- 2.3.2. 知網(wǎng)和義原28-29
- 2.4. 本章小結(jié)29-30
- 第三章 網(wǎng)頁(yè)正文提取方法30-37
- 3.1. 網(wǎng)頁(yè)正文提取31-34
- 3.2. 舉例與實(shí)驗(yàn)分析34-36
- 3.3. 本章小結(jié)36-37
- 第四章 基于義素圖的詞匯語(yǔ)義相關(guān)度計(jì)算37-48
- 4.1. 引言37-39
- 4.2. 相關(guān)工作39-40
- 4.3. 義素與知網(wǎng)40
- 4.4. 基于義素圖的擴(kuò)展隨機(jī)游走模型40-45
- 4.4.1. 義素圖的構(gòu)建41-43
- 4.4.2. 改進(jìn)的隨機(jī)游走算法43-45
- 4.5. 評(píng)價(jià)45-47
- 4.6. 本章小結(jié)47-48
- 第五章 基于文本結(jié)構(gòu)分析的自動(dòng)摘要方法48-62
- 5.1. 文本物理結(jié)構(gòu)分析48-50
- 5.2. 基于義素圖的主題詞提取50-53
- 5.3. 詞向量語(yǔ)義匹配方法53-54
- 5.4. 基于內(nèi)容相關(guān)度的文本結(jié)構(gòu)分析54-55
- 5.5. 自動(dòng)摘要流程55-59
- 5.5.1. 基于文本結(jié)構(gòu)分析的自動(dòng)摘要方法55-57
- 5.5.2. 實(shí)驗(yàn)舉例57-59
- 5.6. 面向查詢的自動(dòng)摘要59-61
- 5.6.1. 搜索短語(yǔ)59
- 5.6.2. 兼顧搜索短語(yǔ)要求和文章主題的自動(dòng)文摘方法59-61
- 5.7. 文摘后處理61
- 5.8. 本章小結(jié)61-62
- 第六章 網(wǎng)頁(yè)自動(dòng)摘要系統(tǒng)的設(shè)計(jì)、實(shí)現(xiàn)和準(zhǔn)確度測(cè)試62-69
- 6.1. 系統(tǒng)關(guān)鍵部件設(shè)計(jì)62-67
- 6.1.1. 系統(tǒng)主要功能模塊62-64
- 6.1.2. 系統(tǒng)設(shè)計(jì)64-66
- 6.1.3. 系統(tǒng)接口66-67
- 6.2. 本文自動(dòng)摘要方法的準(zhǔn)確度測(cè)試67-68
- 6.3. 本章小結(jié)68-69
- 第七章 自動(dòng)摘要在元搜索引擎中的應(yīng)用69-73
- 7.1. 總體架構(gòu)69-70
- 7.2. 實(shí)際應(yīng)用效果70-71
- 7.3. 元搜索去重71
- 7.4. 元搜索排序71-72
- 7.5. 本章小結(jié)72-73
- 第八章 總結(jié)與展望73-75
- 8.1. 全文工作總結(jié)73
- 8.2. 未來(lái)工作展望73-75
- 附錄一 作者攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文75-76
- 附錄二 作者攻讀碩士學(xué)位期間參與的科研項(xiàng)目76-77
- 參考文獻(xiàn)77-79
- 后記79
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 龔書;瞿有利;田盛豐;;基于語(yǔ)義的自動(dòng)文摘研究綜述[J];北京交通大學(xué)學(xué)報(bào);2009年05期
2 許云,樊孝忠,張鋒;基于知網(wǎng)的語(yǔ)義相關(guān)度計(jì)算[J];北京理工大學(xué)學(xué)報(bào);2005年05期
3 劉挺,王開(kāi)鑄;基于篇章多級(jí)依存結(jié)構(gòu)的自動(dòng)文摘研究[J];計(jì)算機(jī)研究與發(fā)展;1999年04期
4 蔣效宇;樊孝忠;陳康;;基于用戶查詢的中文自動(dòng)文摘研究[J];計(jì)算機(jī)工程與應(yīng)用;2008年05期
5 劉功申,王永成,許一震;小標(biāo)題識(shí)別的意義和方法[J];計(jì)算機(jī)工程;2002年06期
6 王利;劉宗田;王燕華;廖濤;;基于內(nèi)容相似度的網(wǎng)頁(yè)正文提取[J];計(jì)算機(jī)工程;2010年06期
7 李建鋒;陳佳良;張美華;;一種基于聚類-遺傳算法的文摘提取方法研究[J];計(jì)算技術(shù)與自動(dòng)化;2007年03期
8 宋今,趙東巖;基于語(yǔ)料庫(kù)與層次詞典的自動(dòng)文摘研究(英文)[J];軟件學(xué)報(bào);2000年03期
9 曾淑琴;吳揚(yáng)揚(yáng);;基于HowNet的詞語(yǔ)相關(guān)度計(jì)算模型[J];微型機(jī)與應(yīng)用;2012年08期
10 劉春;黃定光;;本體初探[J];現(xiàn)代情報(bào);2008年01期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 劉娜;文本自動(dòng)摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年
2 鐘茂生;基于內(nèi)容相關(guān)度計(jì)算的文本結(jié)構(gòu)分析方法研究[D];上海交通大學(xué);2010年
本文關(guān)鍵詞:基于視覺(jué)特征和文本結(jié)構(gòu)分析的中文網(wǎng)頁(yè)自動(dòng)摘要技術(shù)研究,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):378808
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/378808.html