天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于視覺信息的Deep Web信息自動抽取技術(shù)的研究

發(fā)布時間:2017-03-26 03:10

  本文關(guān)鍵詞:基于視覺信息的Deep Web信息自動抽取技術(shù)的研究,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)技術(shù)日新月異的發(fā)展,web已經(jīng)成為一個巨大的信息源,擁有著海量的重要數(shù)據(jù)。目前數(shù)據(jù)挖掘在許多領(lǐng)域應(yīng)用廣泛,如:金融、醫(yī)療保險、市場分析等。通過分析挖掘得到的數(shù)據(jù),可以獲得許多有用知識,最大程度的進行輔助決策。然而,Web數(shù)據(jù)的特點是數(shù)量多,形式異構(gòu),自治的,分布存儲,這使得Web數(shù)據(jù)挖掘的分析工作變得尤為困難,所以當(dāng)務(wù)之急是對數(shù)據(jù)進行集成,為高質(zhì)量數(shù)據(jù)分析奠定基礎(chǔ)。 根據(jù)web中所蘊含信息的“深度”,可以將web分為Surface Web和DeepWeb。在數(shù)量和質(zhì)量上,Deep Web遠(yuǎn)遠(yuǎn)超過了Surface Web,具有較高的應(yīng)用價值。因此,如何進行抽取Deep Web中的數(shù)據(jù),以便于更有效的分析,具有重要的現(xiàn)實意義和廣闊的應(yīng)用前景。 Internet上的各個網(wǎng)站的信息相互獨立,,Deep Web數(shù)據(jù)收集起來十分困難,在這種情況下,通常的搜索引擎發(fā)揮的作用微乎其微。雖然手工編寫信息的抽取規(guī)則準(zhǔn)確率較高,但技術(shù)門檻低,而且由于信息源的多元性和改版的潛在風(fēng)險,手工方法無法滿足人們對信息獲取的需求。在這樣的背景下,可以發(fā)現(xiàn)Deep Web信息自動提取技術(shù)的實現(xiàn)與研究是一個非常重要的問題。針對這一問題,本文在Deep Web信息自動抽取技術(shù)方面,包括基于網(wǎng)頁視覺信息、機器學(xué)習(xí)訓(xùn)練模型、Deep Web數(shù)據(jù)區(qū)域定位、數(shù)據(jù)項的對齊等方面,進行了深入而系統(tǒng)的研究,同時開發(fā)了Web信息自動抽取系統(tǒng)。本文具體的研究工作和研究成果如下: (1)基于頁面中的視覺信息,分割網(wǎng)頁得到視覺塊樹,然后在視覺塊樹上,整合數(shù)據(jù)區(qū)域判定所需的視覺屬性,得到進行實驗的訓(xùn)練集。 (2)使用機器學(xué)習(xí)的有效工具進行訓(xùn)練,結(jié)合人工編寫的規(guī)則進行去重去噪,準(zhǔn)確地完成了Deep Web數(shù)據(jù)區(qū)域的查找和定位。 (3)提出了有效的對齊規(guī)則,大大提高了數(shù)據(jù)項的對齊準(zhǔn)確率。 (4)在以上研究內(nèi)容的基礎(chǔ)上,設(shè)計開發(fā)了Deep Web信息自動抽取系統(tǒng),系統(tǒng)實現(xiàn)功能包括:1)網(wǎng)頁視覺塊樹的轉(zhuǎn)換;2)數(shù)據(jù)區(qū)域的自動定位;3)數(shù)據(jù)項的完整抽取與對齊;4)生成Wrapper;5)實現(xiàn)了自動翻頁功能 實現(xiàn)表明,本文提出的技術(shù)方法可以在基本無人工干預(yù)下快速、自動地抽取列表頁面的豐富數(shù)據(jù)。
【關(guān)鍵詞】:deep web 信息抽取 視覺信息 機器學(xué)習(xí)
【學(xué)位授予單位】:中國海洋大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP181;TP311.13
【目錄】:
  • 摘要6-8
  • Abstract8-12
  • 1 引言12-19
  • 1.1 研究背景和意義12
  • 1.2 Web 信息抽取技術(shù)的發(fā)展12-16
  • 1.2.1 概述12-15
  • 1.2.2 面臨的問題15-16
  • 1.3 本文研究內(nèi)容及創(chuàng)新點16-17
  • 1.4 本論文的組織17-19
  • 2 決策樹分類算法19-26
  • 2.1 決策樹簡介19-24
  • 2.1.1 決策樹的學(xué)習(xí)算法20-22
  • 2.1.2 問題22-24
  • 2.2 決策樹的評估24
  • 2.3 WEKA 工具描述24-25
  • 2.4 小結(jié)25-26
  • 3 機器學(xué)習(xí)與規(guī)則融合的列表頁面抽取26-45
  • 3.1 網(wǎng)頁的視覺特征27-28
  • 3.2 Deep Web 頁面的視覺化表示28-32
  • 3.3 頁面分割算法 VIPS 的概述與應(yīng)用32-35
  • 3.3.1 VIPS 分割算法32-34
  • 3.3.2 DOM4J 解析 xml 字符串34-35
  • 3.4 數(shù)據(jù)區(qū)域的自動定位35-40
  • 3.4.1 數(shù)據(jù)區(qū)域的視覺特征35-36
  • 3.4.2 機器學(xué)習(xí)數(shù)據(jù)區(qū)域的判定規(guī)則36-38
  • 3.4.3 手工編寫規(guī)則完成區(qū)域節(jié)點的篩選38-40
  • 3.5 數(shù)據(jù)項的對齊并輸出40-43
  • 3.5.1 視覺匹配算法41
  • 3.5.2 數(shù)據(jù)項對齊算法41-43
  • 3.5.3 數(shù)據(jù)項的對齊示例43
  • 3.6 小結(jié)43-45
  • 4 列表頁面自動抽取系統(tǒng)45-53
  • 4.1 系統(tǒng)簡介45-52
  • 4.1.1 實驗訓(xùn)練樣例的獲取45-46
  • 4.1.2 訓(xùn)練集的優(yōu)化46-47
  • 4.1.3 訓(xùn)練樣例的獲取47-48
  • 4.1.4 列表頁面抽取及過濾48-50
  • 4.1.5 數(shù)據(jù)項對齊實驗結(jié)果50-51
  • 4.1.6 分頁數(shù)據(jù)的自動連續(xù)抽取51-52
  • 4.2 小結(jié)52-53
  • 5 總結(jié)與展望53-54
  • 5.1 總結(jié)53
  • 5.2 展望未來的工作53-54
  • 參考文獻(xiàn)54-57
  • 致謝57-58
  • 個人簡歷58
  • 發(fā)表的論文58
  • 科研成果58-59

【共引文獻(xiàn)】

中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 宋鑫瑩;網(wǎng)絡(luò)信息自動化高效抽取技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2013年

2 吳共慶;基于標(biāo)簽路徑特征的Web新聞內(nèi)容抽取研究[D];合肥工業(yè)大學(xué);2012年


  本文關(guān)鍵詞:基于視覺信息的Deep Web信息自動抽取技術(shù)的研究,由筆耕文化傳播整理發(fā)布。



本文編號:268184

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/268184.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a2f2a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
日本91在线观看视频| 国产一区二区不卡在线播放| 日本精品最新字幕视频播放| 日韩欧美三级中文字幕| 中文字幕欧美精品人妻一区| 国产成人亚洲精品青草天美| 日韩国产传媒在线精品| 自拍偷拍福利视频在线观看| 99秋霞在线观看视频| 亚洲精品福利视频你懂的| 少妇在线一区二区三区| 欧美午夜不卡在线观看| 日本黄色高清视频久久| 国产综合香蕉五月婷在线| 日韩国产中文在线视频| 国产欧美韩日一区二区三区| 韩日黄片在线免费观看| 香蕉久久夜色精品国产尤物| 国产成人精品99在线观看| 又黄又硬又爽又色的视频| 欧美日韩免费观看视频| 国产三级不卡在线观看视频| 日韩中文字幕视频在线高清版 | 欧美大黄片在线免费观看| 欧美日韩一区二区午夜| 儿媳妇的诱惑中文字幕| 日韩日韩日韩日韩在线| 欧美精品中文字幕亚洲| 国产日产欧美精品视频| 免费国产成人性生活生活片| 视频一区中文字幕日韩| 东京不热免费观看日本| 亚洲中文字幕视频在线观看| 色婷婷在线精品国自产拍| 日韩中文字幕视频在线高清版| 91亚洲国产—区=区a| 日韩欧美在线看一卡一卡| 国产中文另类天堂二区| 99精品国产自在现线观看| 日韩不卡一区二区视频| 丝袜视频日本成人午夜视频|