基于視覺信息的Deep Web信息自動(dòng)抽取技術(shù)的研究

發(fā)布時(shí)間：2017-03-26 03:10

本文關(guān)鍵詞：基于視覺信息的Deep Web信息自動(dòng)抽取技術(shù)的研究，由筆耕文化傳播整理發(fā)布。

【摘要】：隨著互聯(lián)網(wǎng)技術(shù)日新月異的發(fā)展，web已經(jīng)成為一個(gè)巨大的信息源，擁有著海量的重要數(shù)據(jù)。目前數(shù)據(jù)挖掘在許多領(lǐng)域應(yīng)用廣泛，如：金融、醫(yī)療保險(xiǎn)、市場(chǎng)分析等。通過分析挖掘得到的數(shù)據(jù)，可以獲得許多有用知識(shí)，最大程度的進(jìn)行輔助決策。然而，Web數(shù)據(jù)的特點(diǎn)是數(shù)量多，形式異構(gòu)，自治的，分布存儲(chǔ)，這使得Web數(shù)據(jù)挖掘的分析工作變得尤為困難，所以當(dāng)務(wù)之急是對(duì)數(shù)據(jù)進(jìn)行集成，為高質(zhì)量數(shù)據(jù)分析奠定基礎(chǔ)。根據(jù)web中所蘊(yùn)含信息的“深度”，可以將web分為Surface Web和DeepWeb。在數(shù)量和質(zhì)量上，Deep Web遠(yuǎn)遠(yuǎn)超過了Surface Web，具有較高的應(yīng)用價(jià)值。因此，如何進(jìn)行抽取Deep Web中的數(shù)據(jù)，以便于更有效的分析，具有重要的現(xiàn)實(shí)意義和廣闊的應(yīng)用前景。 Internet上的各個(gè)網(wǎng)站的信息相互獨(dú)立，，Deep Web數(shù)據(jù)收集起來十分困難，在這種情況下，通常的搜索引擎發(fā)揮的作用微乎其微。雖然手工編寫信息的抽取規(guī)則準(zhǔn)確率較高，但技術(shù)門檻低，而且由于信息源的多元性和改版的潛在風(fēng)險(xiǎn)，手工方法無法滿足人們對(duì)信息獲取的需求。在這樣的背景下，可以發(fā)現(xiàn)Deep Web信息自動(dòng)提取技術(shù)的實(shí)現(xiàn)與研究是一個(gè)非常重要的問題。針對(duì)這一問題，本文在Deep Web信息自動(dòng)抽取技術(shù)方面，包括基于網(wǎng)頁視覺信息、機(jī)器學(xué)習(xí)訓(xùn)練模型、Deep Web數(shù)據(jù)區(qū)域定位、數(shù)據(jù)項(xiàng)的對(duì)齊等方面，進(jìn)行了深入而系統(tǒng)的研究，同時(shí)開發(fā)了Web信息自動(dòng)抽取系統(tǒng)。本文具體的研究工作和研究成果如下： (1)基于頁面中的視覺信息，分割網(wǎng)頁得到視覺塊樹，然后在視覺塊樹上，整合數(shù)據(jù)區(qū)域判定所需的視覺屬性，得到進(jìn)行實(shí)驗(yàn)的訓(xùn)練集。 (2)使用機(jī)器學(xué)習(xí)的有效工具進(jìn)行訓(xùn)練，結(jié)合人工編寫的規(guī)則進(jìn)行去重去噪，準(zhǔn)確地完成了Deep Web數(shù)據(jù)區(qū)域的查找和定位。 (3)提出了有效的對(duì)齊規(guī)則，大大提高了數(shù)據(jù)項(xiàng)的對(duì)齊準(zhǔn)確率。 (4)在以上研究內(nèi)容的基礎(chǔ)上，設(shè)計(jì)開發(fā)了Deep Web信息自動(dòng)抽取系統(tǒng)，系統(tǒng)實(shí)現(xiàn)功能包括：1)網(wǎng)頁視覺塊樹的轉(zhuǎn)換；2)數(shù)據(jù)區(qū)域的自動(dòng)定位；3)數(shù)據(jù)項(xiàng)的完整抽取與對(duì)齊；4)生成Wrapper；5)實(shí)現(xiàn)了自動(dòng)翻頁功能實(shí)現(xiàn)表明，本文提出的技術(shù)方法可以在基本無人工干預(yù)下快速、自動(dòng)地抽取列表頁面的豐富數(shù)據(jù)。
【關(guān)鍵詞】：deep web 信息抽取 視覺信息 機(jī)器學(xué)習(xí)
【學(xué)位授予單位】：中國海洋大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2014
【分類號(hào)】：TP181;TP311.13
【目錄】：

摘要6-8
Abstract8-12
1 引言12-19
1.1 研究背景和意義12
1.2 Web 信息抽取技術(shù)的發(fā)展12-16
1.2.1 概述12-15
1.2.2 面臨的問題15-16
1.3 本文研究內(nèi)容及創(chuàng)新點(diǎn)16-17
1.4 本論文的組織17-19
2 決策樹分類算法19-26
2.1 決策樹簡介19-24
2.1.1 決策樹的學(xué)習(xí)算法20-22
2.1.2 問題22-24
2.2 決策樹的評(píng)估24
2.3 WEKA 工具描述24-25
2.4 小結(jié)25-26
3 機(jī)器學(xué)習(xí)與規(guī)則融合的列表頁面抽取26-45
3.1 網(wǎng)頁的視覺特征27-28
3.2 Deep Web 頁面的視覺化表示28-32
3.3 頁面分割算法 VIPS 的概述與應(yīng)用32-35
3.3.1 VIPS 分割算法32-34
3.3.2 DOM4J 解析 xml 字符串34-35
3.4 數(shù)據(jù)區(qū)域的自動(dòng)定位35-40
3.4.1 數(shù)據(jù)區(qū)域的視覺特征35-36
3.4.2 機(jī)器學(xué)習(xí)數(shù)據(jù)區(qū)域的判定規(guī)則36-38
3.4.3 手工編寫規(guī)則完成區(qū)域節(jié)點(diǎn)的篩選38-40
3.5 數(shù)據(jù)項(xiàng)的對(duì)齊并輸出40-43
3.5.1 視覺匹配算法41
3.5.2 數(shù)據(jù)項(xiàng)對(duì)齊算法41-43
3.5.3 數(shù)據(jù)項(xiàng)的對(duì)齊示例43
3.6 小結(jié)43-45
4 列表頁面自動(dòng)抽取系統(tǒng)45-53
4.1 系統(tǒng)簡介45-52
4.1.1 實(shí)驗(yàn)訓(xùn)練樣例的獲取45-46
4.1.2 訓(xùn)練集的優(yōu)化46-47
4.1.3 訓(xùn)練樣例的獲取47-48
4.1.4 列表頁面抽取及過濾48-50
4.1.5 數(shù)據(jù)項(xiàng)對(duì)齊實(shí)驗(yàn)結(jié)果50-51
4.1.6 分頁數(shù)據(jù)的自動(dòng)連續(xù)抽取51-52
4.2 小結(jié)52-53
5 總結(jié)與展望53-54
5.1 總結(jié)53
5.2 展望未來的工作53-54
參考文獻(xiàn)54-57
致謝57-58
個(gè)人簡歷58
發(fā)表的論文58
科研成果58-59

【共引文獻(xiàn)】

中國博士學(xué)位論文全文數(shù)據(jù)庫前2條

1 宋鑫瑩;網(wǎng)絡(luò)信息自動(dòng)化高效抽取技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2013年

2 吳共慶;基于標(biāo)簽路徑特征的Web新聞內(nèi)容抽取研究[D];合肥工業(yè)大學(xué);2012年

本文關(guān)鍵詞：基于視覺信息的Deep Web信息自動(dòng)抽取技術(shù)的研究，由筆耕文化傳播整理發(fā)布。

本文編號(hào)：268184

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/268184.html

上一篇：流量劫持的網(wǎng)絡(luò)不正當(dāng)競(jìng)爭行為研究
下一篇：基于asp的換客交易網(wǎng)站系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于視覺信息的Deep Web信息自動(dòng)抽取技術(shù)的研究