基于Web頁(yè)面結(jié)構(gòu)的網(wǎng)頁(yè)數(shù)據(jù)提取研究
本文關(guān)鍵詞:基于Web頁(yè)面結(jié)構(gòu)的網(wǎng)頁(yè)數(shù)據(jù)提取研究
更多相關(guān)文章: DOM文檔樹 MMTD 目標(biāo)數(shù)據(jù)區(qū)域 列表型頁(yè)面
【摘要】:自上世紀(jì)50年代世界上第一臺(tái)計(jì)算機(jī)問世以來(lái),尤其是最近幾十年隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,英特網(wǎng)上來(lái)自全球領(lǐng)域的數(shù)據(jù)呈現(xiàn)指數(shù)型的增長(zhǎng)。我們的日常生活也早已和這些海量的數(shù)據(jù)密切相關(guān);ヂ(lián)網(wǎng)上的數(shù)據(jù)當(dāng)然主要以Web數(shù)據(jù)為主要載體。但是由于受到web固有半結(jié)構(gòu)限制再加上網(wǎng)頁(yè)隨處可見的與主題信息毫不相干的廣告等噪聲信息,這樣使得我們對(duì)于自己感興趣的信息難以從海量的web數(shù)據(jù)中獲取并利用。于是研究如何準(zhǔn)確方便的從海量的信息中提取人們關(guān)心的目標(biāo)信息數(shù)據(jù)并且結(jié)構(gòu)化存儲(chǔ)起來(lái)變得越來(lái)越重要。目前這方面的研究已成為國(guó)內(nèi)外學(xué)者研究熱點(diǎn)之一,基本上多數(shù)的研究都是在HTML標(biāo)簽的解析基礎(chǔ)上基于網(wǎng)頁(yè)DOM樹結(jié)構(gòu)或者視覺樹,然后通過(guò)一些包裝器的設(shè)計(jì)等方法進(jìn)行人工或者半人工也有自動(dòng)化的提取技術(shù),很多研究也取得了很好的效果。本文的研究也是建立在DOM樹的結(jié)構(gòu)基礎(chǔ)上,針對(duì)列表型頁(yè)面的數(shù)據(jù)提取做了詳細(xì)的研究。提取結(jié)構(gòu)特征值,通過(guò)對(duì)特征值的處理引入了中介數(shù)學(xué)理論。在定位目標(biāo)數(shù)據(jù)區(qū)域的算法研究中,本文首先在基于對(duì)HTML解析成DOM文檔樹的基礎(chǔ)上進(jìn)行了優(yōu)化處理。并且提出了“基于XPath的葉子節(jié)點(diǎn)路徑改進(jìn)算法”該算法輸出DOM文檔樹葉子節(jié)點(diǎn)一個(gè)路徑。此路徑結(jié)構(gòu)是后續(xù)的工作的可行性至關(guān)重要的基礎(chǔ)。在此基礎(chǔ)上把中介數(shù)學(xué)理論系統(tǒng)(MMT D)引入并且針對(duì)DOM樹的結(jié)構(gòu)特征提出了“基于MMTD目標(biāo)數(shù)據(jù)區(qū)域定位算法(DL_MMTD) ",這個(gè)對(duì)模糊世界進(jìn)行量化處理的數(shù)學(xué)方法被用在計(jì)算機(jī)科學(xué)的多個(gè)領(lǐng)域,尤其是模糊集處理方面。但是本文首次把中介數(shù)學(xué)理論應(yīng)用到了網(wǎng)頁(yè)信息提取研究上來(lái),并且取得了不錯(cuò)的效果。緊接著對(duì)數(shù)據(jù)記錄進(jìn)行提取算法研究。提出了數(shù)據(jù)記錄長(zhǎng)度的概念。并且相應(yīng)提出了“基于路徑結(jié)構(gòu)的數(shù)據(jù)記錄長(zhǎng)度求取算法(CDL_PathStructure)"。在得到每一個(gè)數(shù)據(jù)記錄的數(shù)據(jù)長(zhǎng)度的基礎(chǔ)上都數(shù)據(jù)記錄的數(shù)據(jù)項(xiàng)做依次提取工
【關(guān)鍵詞】:DOM文檔樹 MMTD 目標(biāo)數(shù)據(jù)區(qū)域 列表型頁(yè)面
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP393.092;TP391.1
【目錄】:
- 摘要3-4
- ABSTRACT4-8
- 第一章 緒論8-14
- 1.1 研究背景及意義8-9
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀9-11
- 1.3 本文主要研究問題11-12
- 1.4 本文的章節(jié)安排12-14
- 第二章 Web頁(yè)面數(shù)據(jù)抽取及相關(guān)技術(shù)概述14-24
- 2.1 半結(jié)構(gòu)化數(shù)據(jù)(Semi-structured Data)14-15
- 2.1.1 半結(jié)構(gòu)化數(shù)據(jù)定義14-15
- 2.1.2 半結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn)15
- 2.2 Web頁(yè)面數(shù)據(jù)抽取15-17
- 2.2.1 Web頁(yè)面數(shù)據(jù)抽取定義15-16
- 2.2.2 數(shù)據(jù)抽取與信息檢索16-17
- 2.3 常見Web結(jié)構(gòu)分類17-19
- 2.4 DOM文檔樹19-21
- 2.5 解析HTML的工具21-24
- 2.5.1 WebBrowser21-22
- 2.5.2 HtmlParser22-24
- 第三章 Web頁(yè)面目標(biāo)數(shù)據(jù)區(qū)域定位24-41
- 3.1 Web頁(yè)面結(jié)構(gòu)特征24-32
- 3.1.1 解析HTML源文件24-25
- 3.1.2 葉子節(jié)點(diǎn)組最小子樹獲取算法25-30
- 3.1.3 目標(biāo)數(shù)據(jù)區(qū)域結(jié)構(gòu)特征分析30-32
- 3.2 中介數(shù)學(xué)理論(MMTD)32-34
- 3.3 基于MMTD目標(biāo)數(shù)據(jù)區(qū)域定位算法(DL_MMTD)34-37
- 3.4 實(shí)驗(yàn)驗(yàn)證37-39
- 3.4.1 數(shù)據(jù)集選擇37-38
- 3.4.2 實(shí)驗(yàn)檢測(cè)指標(biāo)38
- 3.4.3 實(shí)驗(yàn)結(jié)果對(duì)比38-39
- 3.5 本章小結(jié)39-41
- 第四章 數(shù)據(jù)記錄抽取41-48
- 4.1 數(shù)據(jù)記錄(DataRecord)41-42
- 4.2 RST算法介紹42-44
- 4.3 基于路徑結(jié)構(gòu)的數(shù)據(jù)記錄長(zhǎng)度求取算法44-47
- 4.4 數(shù)據(jù)記錄邊界確定47
- 4.5 本章小結(jié)47-48
- 第五章 基于Web頁(yè)面結(jié)構(gòu)的數(shù)據(jù)提取實(shí)驗(yàn)分析48-52
- 5.1 整體流程48
- 5.2 實(shí)驗(yàn)數(shù)據(jù)集48-49
- 5.3 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)49-50
- 5.4 實(shí)驗(yàn)結(jié)果50-51
- 5.5 本章小結(jié)51-52
- 第六章 總結(jié)與展望52-54
- 6.1 本文內(nèi)容總結(jié)52-53
- 6.2 展望53-54
- 參考文獻(xiàn)54-59
- 附錄A 圖索引59-60
- Appendix A Figure Index60-61
- 附錄B 表索引61-62
- Appendix B Table Index62-63
- 致謝63-64
- 攻讀碩士學(xué)位期間學(xué)術(shù)活動(dòng)及成果情況64
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 李峰;;教你實(shí)時(shí)刷新網(wǎng)頁(yè)數(shù)據(jù)[J];電腦采購(gòu)周刊;2002年12期
2 王茹,宋瀚濤,陸玉昌;網(wǎng)頁(yè)數(shù)據(jù)自動(dòng)抽取系統(tǒng)[J];計(jì)算機(jī)工程與應(yīng)用;2004年19期
3 北運(yùn)河畔;;網(wǎng)頁(yè)數(shù)據(jù)表只看不改[J];電腦愛好者(普及版);2007年12期
4 王娟娟;吳靜;;網(wǎng)頁(yè)數(shù)據(jù)多層語(yǔ)義描述標(biāo)簽設(shè)計(jì)[J];通信技術(shù);2009年08期
5 屈武江;;基于網(wǎng)頁(yè)數(shù)據(jù)抽取技術(shù)的圖書著錄系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];遼寧師專學(xué)報(bào)(自然科學(xué)版);2012年02期
6 潘慶紅;基于ASP+ADO技術(shù)的網(wǎng)頁(yè)數(shù)據(jù)交付方法分析[J];甘肅科技;2005年07期
7 朱佳;張忠能;;一種基于聚類的全自動(dòng)網(wǎng)頁(yè)數(shù)據(jù)記錄抽取方法[J];微型電腦應(yīng)用;2010年12期
8 俞琰;;網(wǎng)頁(yè)數(shù)據(jù)智能抽取方法[J];微處理機(jī);2006年06期
9 ;Google拍街景誤搜WiFi私隱致歉[J];國(guó)際新聞界;2010年05期
10 曹淑華;;網(wǎng)頁(yè)數(shù)據(jù)采集的設(shè)計(jì)編程[J];內(nèi)江科技;2009年07期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條
1 胡瑞;基于Web頁(yè)面結(jié)構(gòu)的網(wǎng)頁(yè)數(shù)據(jù)提取研究[D];安徽大學(xué);2016年
2 田建超;網(wǎng)頁(yè)數(shù)據(jù)采集和還原系統(tǒng)設(shè)計(jì)[D];西安電子科技大學(xué);2010年
3 李智;基于樹結(jié)構(gòu)的網(wǎng)頁(yè)數(shù)據(jù)自動(dòng)抽取方法的研究與實(shí)現(xiàn)[D];吉林大學(xué);2005年
4 黃佳;比較購(gòu)物搜索引擎的研究與應(yīng)用[D];武漢理工大學(xué);2013年
,本文編號(hào):830931
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/830931.html