天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于視覺信息和樹匹配的Deep Web數(shù)據(jù)抽取問題的研究

發(fā)布時間:2017-10-22 13:16

  本文關(guān)鍵詞:基于視覺信息和樹匹配的Deep Web數(shù)據(jù)抽取問題的研究


  更多相關(guān)文章: 列表頁面 視覺塊樹 Deep Web數(shù)據(jù)抽取 樹匹配


【摘要】:隨著網(wǎng)絡技術(shù)的快速發(fā)展和普及,Web已經(jīng)成為一個巨大的信息源集合,擁有著海量信息。Deep Web是由Web中可在線訪問的數(shù)據(jù)庫構(gòu)成,具有信息量大、結(jié)構(gòu)化程度高、領(lǐng)域覆蓋全面等特點,Deep Web對以分析挖掘為目標的應用系統(tǒng)有著十分重大的應用價值。隨著電子商務、市場情報等應用需求的增長,如何從Deep Web中獲取用戶感興趣的信息或數(shù)據(jù),以便進行深度的分析從而提供更具價值的服務和應用,比如比價系統(tǒng)、元搜索等,已成為目前研究的熱點課題。為了有效利用Deep Web, Deep Web數(shù)據(jù)集成應運而生,包括數(shù)據(jù)獲取、數(shù)據(jù)抽取和數(shù)據(jù)整合等環(huán)節(jié),其中Deep Web數(shù)據(jù)抽取是其關(guān)鍵環(huán)節(jié)。由于Deep Web的海量、異構(gòu)等特點使得Deep Web數(shù)據(jù)抽取成為一項極具挑戰(zhàn)的工作,其主要困難有:(1) Deep Web涉及領(lǐng)域廣,數(shù)據(jù)量大,要實現(xiàn)Deep Web數(shù)據(jù)的自動抽取。(2)不同Deep Web頁面差距較大,抽取方法要有一定的適應性,確保其抽取的正確率和效率。本文針對Deep Web中包含半結(jié)構(gòu)化數(shù)據(jù)的列表頁面,利用頁面的視覺信息和樹匹配技術(shù),實現(xiàn)了此類Web頁面中數(shù)據(jù)的全自動抽取,其主要貢獻和創(chuàng)新有以下兩點:(1)列表頁面中數(shù)據(jù)記錄的識別和抽取Web頁面的設計是為了方便用戶瀏覽,有著豐富的視覺信息,比如字體、布局、背景等。為了方便利用頁面的視覺信息,我們給出了頁面的表示模型——視覺塊樹,相較于VIPS等頁面分塊技術(shù),這里沒有使用任何假設和啟發(fā)式規(guī)則,更能客觀的反應頁面信息。為了抽取數(shù)據(jù)記錄,我們首先識別出數(shù)據(jù)區(qū)域,這里結(jié)合列表頁面的視覺特征,給出了數(shù)據(jù)區(qū)域識別算法,相較于傳統(tǒng)方法,此算法有較強的適應性。對于數(shù)據(jù)區(qū)域下數(shù)據(jù)記錄的識別,本文采用一種序列劃分的策略,其基本思想是先對數(shù)據(jù)區(qū)域樹下子樹聚類,根據(jù)聚類的結(jié)果信息對子樹序列進行劃分,過濾掉噪聲節(jié)點從而確定每條數(shù)據(jù)記錄的邊界,最終實現(xiàn)數(shù)據(jù)區(qū)域下數(shù)據(jù)記錄的抽取工作。(2)基于樹匹配技術(shù)實現(xiàn)數(shù)據(jù)項對齊數(shù)據(jù)項對齊是指將由同一模板生成的數(shù)據(jù)記錄中相同語義項放在關(guān)系表的同一列下,即為數(shù)據(jù)記錄生成關(guān)系模式。本文將每條數(shù)據(jù)記錄看為一棵樹,從而把數(shù)據(jù)記錄模式生成看為多序列對齊問題。首先給出了樹匹配的一種嚴格模式;然后采用簡單樹匹配(Simple Tree Matching,簡稱STM)算法得到兩棵樹的一個最大匹配,由于采用了視覺塊樹這種數(shù)據(jù)結(jié)構(gòu),能對STM進行一些剪枝操作,可使算法復雜度由0(n2)幾乎降為線性;最后基于STM給出了模式生成算法。
【關(guān)鍵詞】:列表頁面 視覺塊樹 Deep Web數(shù)據(jù)抽取 樹匹配
【學位授予單位】:山東大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.092
【目錄】:
  • 摘要8-10
  • ABSTRACT10-12
  • 第1章 緒論12-18
  • 1.1 研究背景及意義12-13
  • 1.2 Deep Web數(shù)據(jù)抽取面臨的主要問題13-14
  • 1.3 研究內(nèi)容及貢獻14-17
  • 1.3.1 研究內(nèi)容14-16
  • 1.3.2 本文貢獻16-17
  • 1.4 論文組織結(jié)構(gòu)17-18
  • 第2章 Deep Web數(shù)據(jù)抽取相關(guān)研究和技術(shù)18-28
  • 2.1 引言18
  • 2.2 Deep Web數(shù)據(jù)抽取方法分類18-23
  • 2.2.1 手工實現(xiàn)的抽取方法19-20
  • 2.2.2 半自動的抽取方法20-21
  • 2.2.3 全自動的抽取方法21-23
  • 2.3 Web相關(guān)技術(shù)23-24
  • 2.4 視覺塊樹24-26
  • 2.5 本章小結(jié)26-28
  • 第3章 基于序列劃分策略的列表頁面數(shù)據(jù)記錄抽取28-45
  • 3.1 引言28-29
  • 3.2 挖掘數(shù)據(jù)區(qū)域29-33
  • 3.3 數(shù)據(jù)記錄的抽取33-40
  • 3.3.1 視覺塊相似性度量34-35
  • 3.3.2 數(shù)據(jù)區(qū)域樹下的子樹聚類35-38
  • 3.3.3 確定數(shù)據(jù)記錄38-40
  • 3.4 實驗40-44
  • 3.4.1 數(shù)據(jù)集40
  • 3.4.2 實驗環(huán)境40
  • 3.4.3 評價標準40-41
  • 3.4.4 實驗結(jié)果及分析41-44
  • 3.5 小結(jié)44-45
  • 第4章 基于樹匹配算法的數(shù)據(jù)項對齊45-57
  • 4.1 引言45-46
  • 4.2 數(shù)據(jù)記錄預處理46
  • 4.3 樹匹配算法46-54
  • 4.3.1 簡單樹匹配47-51
  • 4.3.2 多重對齊51-54
  • 4.4 實驗54-56
  • 4.5 小結(jié)56-57
  • 第5章 總結(jié)與展望57-59
  • 5.1 總結(jié)57-58
  • 5.2 展望58-59
  • 參考文獻59-64
  • 致謝64-65
  • 攻讀學位期間發(fā)表的學術(shù)論文目錄65-66
  • 附件66

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 張艷濱;余雁;;視覺信息的多維性探究[J];大眾文藝;2013年04期

2 張恒;劉艷麗;;基于視覺信息融合的駕駛員疲勞監(jiān)測方法綜述[J];信息技術(shù);2008年06期

3 李剛;;視覺信息傳遞的模糊性[J];美術(shù)大觀;2010年03期

4 壽天德;尹德輝;;關(guān)于圖形、圖像與腦對視覺信息的處理[J];臨沂師范學院學報;2010年01期

5 ;非電話類服務[J];視聽界;1991年03期

6 韓叢耀;;中華藝術(shù)視覺信息數(shù)據(jù)庫建設構(gòu)想(上)——視覺信息處理機制的建模及在視覺信息數(shù)據(jù)庫建設中的應用[J];中國教育信息化;2009年17期

7 王苗輝;;基于視知覺的視覺信息界面設計研究[J];包裝工程;2011年08期

8 汪云九,邢靜;視覺信息加工的一些理論和模型[J];機器人;1987年03期

9 刁云程;“視覺信息加工”研究圓滿結(jié)束[J];中國科學基金;1994年01期

10 陳果;張武昕;高雋;;微小目標的視覺信息獲取及系統(tǒng)設計[J];合肥工業(yè)大學學報(自然科學版);2007年12期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 何蕓;杜誠;;21世紀的視覺信息技術(shù)[A];面向21世紀的科技進步與社會經(jīng)濟發(fā)展(上冊)[C];1999年

2 翁強;閆麗;翁偉生;;多維空間感知覺模型對視覺信息加工缺損的研究[A];第十一次中國生物物理學術(shù)大會暨第九屆全國會員代表大會摘要集[C];2009年

3 劉力;龔海韻;;果蠅蘑菇體對視覺信息的歸納作用[A];首屆中國神經(jīng)信息學討論會摘要[C];2000年

4 孫明;;視覺信息學的基本概念及其新技術(shù)在農(nóng)業(yè)中的應用[A];中國農(nóng)業(yè)工程學會2011年學術(shù)年會論文集[C];2011年

5 王書榮;;視覺信息加工中的神經(jīng)元相互作用[A];第九次全國生物物理大會學術(shù)會議論文摘要集[C];2002年

6 蘇潤娥;吉國明;宋筆鋒;;人的視覺信息捕捉能力測試軟件[A];陜西省航空裝備制造技術(shù)發(fā)展——第九屆陜西省青年科學家論壇論文集[C];2006年

7 楊瑾;李瀟;王書榮;;家鴿背外側(cè)丘腦神經(jīng)元參與外側(cè)單眼視覺和環(huán)境亮度檢測[A];第九次全國生物物理大會學術(shù)會議論文摘要集[C];2002年

8 張春宇;張蔚;劉海鵬;于立平;王小捷;李睿凡;;基于視覺信息的漢語詞匯語義習得[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年

9 唐克倫;張湘?zhèn)?成思源;熊漢偉;張洪;;視覺信息與CMM測量數(shù)據(jù)的融合[A];第十二屆全國圖象圖形學學術(shù)會議論文集[C];2005年

10 李珊珊;于慶寶;馮士剛;鹿麒麟;唐一源;;視覺信息等級處理的雙腦協(xié)同性研究[A];大連理工大學生物醫(yī)學工程學術(shù)論文集(第2卷)[C];2005年

中國重要報紙全文數(shù)據(jù)庫 前2條

1 記者 班威;“家務機器人”能走能做家務[N];新華每日電訊;2010年

2 本報駐北京記者 李雪;北京心目影院 盲人的音畫世界[N];中國文化報;2014年

中國博士學位論文全文數(shù)據(jù)庫 前7條

1 查正軍;基于機器學習方法的視覺信息標注研究[D];中國科學技術(shù)大學;2009年

2 祝博薈;基于深度與視覺信息融合的行人檢測與再識別研究[D];東華大學;2013年

3 何立火;視覺信息質(zhì)量感知模型及評價方法研究[D];西安電子科技大學;2013年

4 尹顯東;多維隨機序列敏感視覺信息隱藏技術(shù)研究[D];電子科技大學;2007年

5 沈喬楠;堆石混凝土施工管理中視覺信息的處理方法及應用研究[D];清華大學;2010年

6 王蒙軍;唇讀發(fā)聲器中視覺信息的檢測與處理[D];天津大學;2007年

7 劉震;基于局部視覺信息的大規(guī)模圖像檢索研究[D];中國科學技術(shù)大學;2015年

中國碩士學位論文全文數(shù)據(jù)庫 前10條

1 王苗苗;聯(lián)合鋒電位和局部場電位的視覺信息整合特性研究[D];鄭州大學;2015年

2 凡思武;基于視覺信息和樹匹配的Deep Web數(shù)據(jù)抽取問題的研究[D];山東大學;2015年

3 彭凌玲;視覺信息的能量[D];吉林大學;2005年

4 張e,

本文編號:1078527


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1078527.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1ee79***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com