基于隱馬爾科夫模型在網(wǎng)頁信息抽取中的研究與應(yīng)用
發(fā)布時間:2017-07-05 12:28
本文關(guān)鍵詞:基于隱馬爾科夫模型在網(wǎng)頁信息抽取中的研究與應(yīng)用
更多相關(guān)文章: 隱馬爾可夫模型 最大熵原理 網(wǎng)頁信息抽取 網(wǎng)頁內(nèi)容塊
【摘要】:互聯(lián)網(wǎng)技術(shù)的快速發(fā)展帶動了網(wǎng)上數(shù)據(jù)呈指數(shù)級增長,也標(biāo)示著大數(shù)據(jù)時代的到來,同時人們也創(chuàng)造了大量的半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),而信息抽取技術(shù)的意義就是從大量的數(shù)據(jù)中準(zhǔn)確、快速地按需求獲取目標(biāo)信息,并進(jìn)一步提高信息的利用率。所以,需要一種自動化工具來幫助人們從海量數(shù)據(jù)中快速發(fā)現(xiàn)真正需要的信息,并將這些信息自動分類、提取、重組,使其有益于后續(xù)的檢查、比較及自動處理,由此需要相應(yīng)成熟的信息抽取技術(shù)。但是在該領(lǐng)域還存在著很多問題,諸如:信息抽取性能不足、自動化程度不高(訓(xùn)練語料的收集、標(biāo)注需要大量人工操作)、適用范圍有限、缺乏移植能力。本文分析了在利用隱馬爾可夫模型(HMM)訓(xùn)練建立信息抽取方法中遇到的問題和不足后,借助最大熵原理在處理特征知識表示方面的優(yōu)勢,提出了改進(jìn)的HMM。在HMM中加入前向、后向依賴,利用發(fā)射單元特征信息和上下文信息來調(diào)整模型參數(shù)。改進(jìn)后的HMM狀態(tài)轉(zhuǎn)移概率和觀察值發(fā)射概率不僅依賴于模型的當(dāng)前狀態(tài)值,而且可以以模型的前向狀態(tài)值和后向特征值加以修正?紤]網(wǎng)頁數(shù)據(jù)的特點,文中通過利用網(wǎng)頁所特有的屬性提出一種適用于網(wǎng)頁信息抽取的模型,該模型的建立是基于改進(jìn)的HMM。利用網(wǎng)頁中相似或相關(guān)的內(nèi)容聚集在一起的性質(zhì),在本文中使用網(wǎng)頁內(nèi)容塊作為基本抽取單元(發(fā)射單元);利用網(wǎng)頁布局結(jié)構(gòu)使用VIPS算法,得到適用于網(wǎng)頁的狀態(tài)轉(zhuǎn)移順序;利用網(wǎng)頁數(shù)據(jù)中的其他屬性信息(語義、布局、格式等),得到適用于網(wǎng)頁的觀察值發(fā)射概率的計算公式。而文中網(wǎng)頁信息抽取模型整體上類似分層結(jié)構(gòu),通過對網(wǎng)頁的分析兩次選取不同的基本抽取單元完成對網(wǎng)頁數(shù)據(jù)的精細(xì)抽取。
【關(guān)鍵詞】:隱馬爾可夫模型 最大熵原理 網(wǎng)頁信息抽取 網(wǎng)頁內(nèi)容塊
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要6-7
- ABSTRACT7-11
- 第一章 緒論11-17
- 1.1 信息抽取的背景與意義11-12
- 1.2 信息抽取國內(nèi)外研究現(xiàn)狀12-13
- 1.3 信息抽取現(xiàn)階段存在的問題及未來的挑戰(zhàn)和趨勢13-14
- 1.3.1 信息抽取存在的問題13-14
- 1.3.2 信息抽取的發(fā)展趨勢14
- 1.4 論文的研究目標(biāo)和工作內(nèi)容14-15
- 1.5 論文的組織結(jié)構(gòu)15-16
- 1.6 本章小結(jié)16-17
- 第二章 相關(guān)理論基礎(chǔ)與技術(shù)方法17-31
- 2.1 信息抽取的基本概念17-19
- 2.1.1 信息抽取的定義17-18
- 2.1.2 信息抽取的任務(wù)及常用方法18-19
- 2.2 網(wǎng)頁信息抽取的基本概念和方法19-21
- 2.2.1 網(wǎng)頁信息抽取的定義19-20
- 2.2.2 網(wǎng)頁信息抽取的主流方法20-21
- 2.3 隱馬爾可夫模型21-30
- 2.3.1 隱馬爾可夫模型簡介23-25
- 2.3.2 隱馬爾科夫模型的三個主要問題及解決算法25-29
- 2.3.3 數(shù)據(jù)稀疏問題及解決方法29-30
- 2.4 本章小結(jié)30-31
- 第三章 基于最大熵原理提出的改進(jìn)的隱馬爾科夫模型31-45
- 3.1 擴(kuò)展HMM前提假設(shè)的改進(jìn)方法31-37
- 3.1.1 擴(kuò)展HMM前提假設(shè)的基本理論32-33
- 3.1.2 二階隱馬爾可夫模型33-37
- 3.2 改進(jìn)的隱馬爾可夫模型的思想概述37-43
- 3.2.1 最大熵原理38-40
- 3.2.2 改進(jìn)的隱馬爾可夫模型的定義40-43
- 3.3 本章小結(jié)43-45
- 第四章 基于改進(jìn)的隱馬爾科夫模型在網(wǎng)頁信息抽取中解決方案的設(shè)計45-57
- 4.1 網(wǎng)頁信息抽取模型設(shè)計概覽45-48
- 4.2 網(wǎng)頁數(shù)據(jù)準(zhǔn)備階段48-51
- 4.2.1 數(shù)據(jù)預(yù)處理48-49
- 4.2.2 模型結(jié)構(gòu)的選擇49-51
- 4.3 模型訓(xùn)練階段的設(shè)計實現(xiàn)51-54
- 4.3.1 改進(jìn)的HMM相關(guān)參數(shù)的訓(xùn)練51-53
- 4.3.2 針對模型參數(shù)進(jìn)一步優(yōu)化的改進(jìn)建議53-54
- 4.4 完成信息抽取階段54-55
- 4.4.1 改進(jìn)的viterbi算法54-55
- 4.5 本章小結(jié)55-57
- 第五章 基于改進(jìn)的隱馬爾可夫模型在網(wǎng)頁信息抽取中研究的實驗性驗證57-65
- 5.1 信息抽取的評價指標(biāo)57-58
- 5.2 驗證改進(jìn)的HMM的有效性58-60
- 5.3 基于改進(jìn)的HMM的網(wǎng)頁信息抽取模型的評估60-63
- 5.3.1 數(shù)據(jù)集大小對訓(xùn)練結(jié)果的影響62-63
- 5.4 本章小結(jié)63-65
- 第六章 總結(jié)與展望65-67
- 6.1 論文的特色65-66
- 6.2 后續(xù)工作展望66-67
- 參考文獻(xiàn)67-73
- 作者簡歷及攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文73-75
- 致謝75
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前5條
1 郭喜躍;何婷婷;;信息抽取研究綜述[J];計算機(jī)科學(xué);2015年02期
2 李榮;馮麗萍;王鴻斌;;基于改進(jìn)遺傳退火HMM的Web信息抽取研究[J];計算機(jī)應(yīng)用與軟件;2014年04期
3 陳釗;張冬梅;;Web信息抽取技術(shù)綜述[J];計算機(jī)應(yīng)用研究;2010年12期
4 王達(dá);崔蕊;;數(shù)據(jù)平滑技術(shù)綜述[J];電腦知識與技術(shù);2009年17期
5 楊少華;林海略;韓燕波;;針對模板生成網(wǎng)頁的一種數(shù)據(jù)自動抽取方法(英文)[J];軟件學(xué)報;2008年02期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 許志堅;中文Deep Web數(shù)據(jù)集成系統(tǒng)的研究與應(yīng)用[D];華東師范大學(xué);2013年
,本文編號:522013
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/522013.html
最近更新
教材專著