天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Web頁面結(jié)構(gòu)的網(wǎng)頁數(shù)據(jù)提取研究

發(fā)布時間:2017-09-11 13:15

  本文關(guān)鍵詞:基于Web頁面結(jié)構(gòu)的網(wǎng)頁數(shù)據(jù)提取研究


  更多相關(guān)文章: DOM文檔樹 MMTD 目標數(shù)據(jù)區(qū)域 列表型頁面


【摘要】:自上世紀50年代世界上第一臺計算機問世以來,尤其是最近幾十年隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,英特網(wǎng)上來自全球領(lǐng)域的數(shù)據(jù)呈現(xiàn)指數(shù)型的增長。我們的日常生活也早已和這些海量的數(shù)據(jù)密切相關(guān)�;ヂ�(lián)網(wǎng)上的數(shù)據(jù)當(dāng)然主要以Web數(shù)據(jù)為主要載體。但是由于受到web固有半結(jié)構(gòu)限制再加上網(wǎng)頁隨處可見的與主題信息毫不相干的廣告等噪聲信息,這樣使得我們對于自己感興趣的信息難以從海量的web數(shù)據(jù)中獲取并利用。于是研究如何準確方便的從海量的信息中提取人們關(guān)心的目標信息數(shù)據(jù)并且結(jié)構(gòu)化存儲起來變得越來越重要。目前這方面的研究已成為國內(nèi)外學(xué)者研究熱點之一,基本上多數(shù)的研究都是在HTML標簽的解析基礎(chǔ)上基于網(wǎng)頁DOM樹結(jié)構(gòu)或者視覺樹,然后通過一些包裝器的設(shè)計等方法進行人工或者半人工也有自動化的提取技術(shù),很多研究也取得了很好的效果。本文的研究也是建立在DOM樹的結(jié)構(gòu)基礎(chǔ)上,針對列表型頁面的數(shù)據(jù)提取做了詳細的研究。提取結(jié)構(gòu)特征值,通過對特征值的處理引入了中介數(shù)學(xué)理論。在定位目標數(shù)據(jù)區(qū)域的算法研究中,本文首先在基于對HTML解析成DOM文檔樹的基礎(chǔ)上進行了優(yōu)化處理。并且提出了“基于XPath的葉子節(jié)點路徑改進算法”該算法輸出DOM文檔樹葉子節(jié)點一個路徑。此路徑結(jié)構(gòu)是后續(xù)的工作的可行性至關(guān)重要的基礎(chǔ)。在此基礎(chǔ)上把中介數(shù)學(xué)理論系統(tǒng)(MMT D)引入并且針對DOM樹的結(jié)構(gòu)特征提出了“基于MMTD目標數(shù)據(jù)區(qū)域定位算法(DL_MMTD) ",這個對模糊世界進行量化處理的數(shù)學(xué)方法被用在計算機科學(xué)的多個領(lǐng)域,尤其是模糊集處理方面。但是本文首次把中介數(shù)學(xué)理論應(yīng)用到了網(wǎng)頁信息提取研究上來,并且取得了不錯的效果。緊接著對數(shù)據(jù)記錄進行提取算法研究。提出了數(shù)據(jù)記錄長度的概念。并且相應(yīng)提出了“基于路徑結(jié)構(gòu)的數(shù)據(jù)記錄長度求取算法(CDL_PathStructure)"。在得到每一個數(shù)據(jù)記錄的數(shù)據(jù)長度的基礎(chǔ)上都數(shù)據(jù)記錄的數(shù)據(jù)項做依次提取工
【關(guān)鍵詞】:DOM文檔樹 MMTD 目標數(shù)據(jù)區(qū)域 列表型頁面
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP393.092;TP391.1
【目錄】:
  • 摘要3-4
  • ABSTRACT4-8
  • 第一章 緒論8-14
  • 1.1 研究背景及意義8-9
  • 1.2 國內(nèi)外研究現(xiàn)狀9-11
  • 1.3 本文主要研究問題11-12
  • 1.4 本文的章節(jié)安排12-14
  • 第二章 Web頁面數(shù)據(jù)抽取及相關(guān)技術(shù)概述14-24
  • 2.1 半結(jié)構(gòu)化數(shù)據(jù)(Semi-structured Data)14-15
  • 2.1.1 半結(jié)構(gòu)化數(shù)據(jù)定義14-15
  • 2.1.2 半結(jié)構(gòu)化數(shù)據(jù)的特點15
  • 2.2 Web頁面數(shù)據(jù)抽取15-17
  • 2.2.1 Web頁面數(shù)據(jù)抽取定義15-16
  • 2.2.2 數(shù)據(jù)抽取與信息檢索16-17
  • 2.3 常見Web結(jié)構(gòu)分類17-19
  • 2.4 DOM文檔樹19-21
  • 2.5 解析HTML的工具21-24
  • 2.5.1 WebBrowser21-22
  • 2.5.2 HtmlParser22-24
  • 第三章 Web頁面目標數(shù)據(jù)區(qū)域定位24-41
  • 3.1 Web頁面結(jié)構(gòu)特征24-32
  • 3.1.1 解析HTML源文件24-25
  • 3.1.2 葉子節(jié)點組最小子樹獲取算法25-30
  • 3.1.3 目標數(shù)據(jù)區(qū)域結(jié)構(gòu)特征分析30-32
  • 3.2 中介數(shù)學(xué)理論(MMTD)32-34
  • 3.3 基于MMTD目標數(shù)據(jù)區(qū)域定位算法(DL_MMTD)34-37
  • 3.4 實驗驗證37-39
  • 3.4.1 數(shù)據(jù)集選擇37-38
  • 3.4.2 實驗檢測指標38
  • 3.4.3 實驗結(jié)果對比38-39
  • 3.5 本章小結(jié)39-41
  • 第四章 數(shù)據(jù)記錄抽取41-48
  • 4.1 數(shù)據(jù)記錄(DataRecord)41-42
  • 4.2 RST算法介紹42-44
  • 4.3 基于路徑結(jié)構(gòu)的數(shù)據(jù)記錄長度求取算法44-47
  • 4.4 數(shù)據(jù)記錄邊界確定47
  • 4.5 本章小結(jié)47-48
  • 第五章 基于Web頁面結(jié)構(gòu)的數(shù)據(jù)提取實驗分析48-52
  • 5.1 整體流程48
  • 5.2 實驗數(shù)據(jù)集48-49
  • 5.3 實驗評價指標49-50
  • 5.4 實驗結(jié)果50-51
  • 5.5 本章小結(jié)51-52
  • 第六章 總結(jié)與展望52-54
  • 6.1 本文內(nèi)容總結(jié)52-53
  • 6.2 展望53-54
  • 參考文獻54-59
  • 附錄A 圖索引59-60
  • Appendix A Figure Index60-61
  • 附錄B 表索引61-62
  • Appendix B Table Index62-63
  • 致謝63-64
  • 攻讀碩士學(xué)位期間學(xué)術(shù)活動及成果情況64

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 李峰;;教你實時刷新網(wǎng)頁數(shù)據(jù)[J];電腦采購周刊;2002年12期

2 王茹,宋瀚濤,陸玉昌;網(wǎng)頁數(shù)據(jù)自動抽取系統(tǒng)[J];計算機工程與應(yīng)用;2004年19期

3 北運河畔;;網(wǎng)頁數(shù)據(jù)表只看不改[J];電腦愛好者(普及版);2007年12期

4 王娟娟;吳靜;;網(wǎng)頁數(shù)據(jù)多層語義描述標簽設(shè)計[J];通信技術(shù);2009年08期

5 屈武江;;基于網(wǎng)頁數(shù)據(jù)抽取技術(shù)的圖書著錄系統(tǒng)設(shè)計與實現(xiàn)[J];遼寧師專學(xué)報(自然科學(xué)版);2012年02期

6 潘慶紅;基于ASP+ADO技術(shù)的網(wǎng)頁數(shù)據(jù)交付方法分析[J];甘肅科技;2005年07期

7 朱佳;張忠能;;一種基于聚類的全自動網(wǎng)頁數(shù)據(jù)記錄抽取方法[J];微型電腦應(yīng)用;2010年12期

8 俞琰;;網(wǎng)頁數(shù)據(jù)智能抽取方法[J];微處理機;2006年06期

9 ;Google拍街景誤搜WiFi私隱致歉[J];國際新聞界;2010年05期

10 曹淑華;;網(wǎng)頁數(shù)據(jù)采集的設(shè)計編程[J];內(nèi)江科技;2009年07期

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前4條

1 胡瑞;基于Web頁面結(jié)構(gòu)的網(wǎng)頁數(shù)據(jù)提取研究[D];安徽大學(xué);2016年

2 田建超;網(wǎng)頁數(shù)據(jù)采集和還原系統(tǒng)設(shè)計[D];西安電子科技大學(xué);2010年

3 李智;基于樹結(jié)構(gòu)的網(wǎng)頁數(shù)據(jù)自動抽取方法的研究與實現(xiàn)[D];吉林大學(xué);2005年

4 黃佳;比較購物搜索引擎的研究與應(yīng)用[D];武漢理工大學(xué);2013年

,

本文編號:830931

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/830931.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7057a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com