當(dāng)前位置：主頁(yè) > 管理論文 > 移動(dòng)網(wǎng)絡(luò)論文 >

面向Web信息抽取的網(wǎng)頁(yè)自動(dòng)瀏覽導(dǎo)航與集成規(guī)則研究

發(fā)布時(shí)間：2018-02-07 13:47

本文關(guān)鍵詞： 精確Web信息抽取深度網(wǎng)頁(yè) Web瀏覽導(dǎo)航數(shù)據(jù)集成處理規(guī)則生成　出處：《南京大學(xué)》2014年碩士論文　論文類(lèi)型：學(xué)位論文

【摘要】：隨著Internet的不斷發(fā)展,Web已經(jīng)成為目前全球最大的信息來(lái)源,網(wǎng)頁(yè)中可被利用的數(shù)據(jù)變得越來(lái)越多。如何做到精確和有效地抽取Web網(wǎng)頁(yè)數(shù)據(jù)成為了各類(lèi)應(yīng)用的首要問(wèn)題,Web信息抽取正是為了解決這一問(wèn)題而出現(xiàn)的研究領(lǐng)域。目前,對(duì)于Web信息抽取已經(jīng)有了很多相關(guān)的研究工作,并提出了許多自動(dòng)化和半自動(dòng)化的Web信息抽取技術(shù)和方法。但現(xiàn)有的研究工作大都集中在對(duì)于包含相似數(shù)據(jù)記錄頁(yè)面的自動(dòng)分析和數(shù)據(jù)記錄的抽取層面上,往往忽略或簡(jiǎn)化了Web信息抽取過(guò)程中不可或缺的網(wǎng)頁(yè)瀏覽導(dǎo)航過(guò)程,以及數(shù)據(jù)抽取之后的集成處理過(guò)程。此外,許多已有的頁(yè)面瀏覽導(dǎo)航相關(guān)研究多是相對(duì)獨(dú)立的瀏覽導(dǎo)航工具,一方面是它們未能與數(shù)據(jù)抽取相結(jié)合,另一方面是只能單次重播用戶(hù)的導(dǎo)航過(guò)程,無(wú)法提供多變的流程控制,因而,它們不能解決實(shí)際的Web信息抽取任務(wù)。針對(duì)上述問(wèn)題和現(xiàn)狀,本文主要研究解決Web信息抽取過(guò)程中的網(wǎng)頁(yè)自動(dòng)瀏覽導(dǎo)航問(wèn)題和技術(shù)。本文的主要貢獻(xiàn)和工作有以下幾點(diǎn)：第一,針對(duì)以往研究工作的不足,本文研究建立了全過(guò)程化的Web信息抽取模型與規(guī)則體系,能夠支持自動(dòng)化的網(wǎng)頁(yè)瀏覽導(dǎo)航、網(wǎng)頁(yè)數(shù)據(jù)抽取和網(wǎng)頁(yè)數(shù)據(jù)集成的完整Web信息抽取處理過(guò)程。該模型和規(guī)則體系能夠清晰描述Web信息抽取過(guò)程中的三個(gè)典型性部分。第二,研究解決了Web信息抽取過(guò)程中的自動(dòng)化瀏覽導(dǎo)航模型和方法,并設(shè)計(jì)實(shí)現(xiàn)了一種網(wǎng)頁(yè)自動(dòng)瀏覽導(dǎo)航規(guī)則語(yǔ)言。該語(yǔ)言能刻畫(huà)和模仿用戶(hù)在瀏覽器中的交互和瀏覽導(dǎo)航行為,支撐一般頁(yè)面和AJAX頁(yè)面的復(fù)雜交互動(dòng)作,支持交互動(dòng)作中的參數(shù)化要求(如動(dòng)態(tài)替換表單參數(shù)值)。此外,該語(yǔ)言能夠描述Web信息抽取過(guò)程中的網(wǎng)頁(yè)瀏覽導(dǎo)航鏈接邏輯。第三,研究設(shè)計(jì)了Web信息抽取過(guò)程的數(shù)據(jù)轉(zhuǎn)換集成模型和方法,并設(shè)計(jì)和實(shí)現(xiàn)了相應(yīng)的規(guī)則語(yǔ)言,能夠?qū)木W(wǎng)頁(yè)上所抽取出來(lái)的原始數(shù)據(jù)記錄同Web抽取應(yīng)用所需要的目標(biāo)結(jié)構(gòu)映射起來(lái)。更重要的是,一個(gè)復(fù)雜數(shù)據(jù)記錄可能會(huì)顯示在多個(gè)關(guān)聯(lián)網(wǎng)頁(yè)上。因此,進(jìn)行Web信息抽取時(shí)需要自動(dòng)完成這些關(guān)聯(lián)網(wǎng)頁(yè)的鏈接跳轉(zhuǎn),并且能依據(jù)這些數(shù)據(jù)網(wǎng)頁(yè)的鏈接關(guān)系保持正確的目標(biāo)數(shù)據(jù)關(guān)系,以便最終完成完整數(shù)據(jù)記錄的抽取和集成處理。第四,為了能夠?qū)崿F(xiàn)自動(dòng)化Web頁(yè)面瀏覽導(dǎo)航和數(shù)據(jù)集成中的流程控制,比如在同一個(gè)搜索頁(yè)面替換搜索關(guān)鍵字來(lái)獲取不同的搜索結(jié)果頁(yè)面,本文研究并設(shè)計(jì)了Web信息抽取流程控制語(yǔ)言。該控制語(yǔ)言簡(jiǎn)化了已有的Web抽取系統(tǒng)中的控制邏輯語(yǔ)言的設(shè)計(jì),在規(guī)則的交互生成方面也易于實(shí)現(xiàn),并且能夠完成一定復(fù)雜程度上的流程控制邏輯。第五,基于以上的模型和規(guī)則體系,本文最終設(shè)計(jì)和實(shí)現(xiàn)了完整的網(wǎng)頁(yè)自動(dòng)瀏覽導(dǎo)航、數(shù)據(jù)集成和流程控制規(guī)則執(zhí)行引擎,并實(shí)現(xiàn)了完整的Web抽取原型系統(tǒng)。能夠使得用戶(hù)在可視化的系統(tǒng)界面中通過(guò)簡(jiǎn)單的一次性交互來(lái)記錄和生成導(dǎo)航規(guī)則、數(shù)據(jù)抽取和集成規(guī)則以及控制邏輯。在執(zhí)行階段,由系統(tǒng)對(duì)這些規(guī)則進(jìn)行預(yù)編譯生成java代碼并自動(dòng)執(zhí)行用戶(hù)定義的導(dǎo)航流程和抽取集成任務(wù)。此外,針對(duì)導(dǎo)航控件定位問(wèn)題,本文給出一個(gè)可靠而高效的泛化xpath生成算法。在實(shí)驗(yàn)部分,為了驗(yàn)證原型系統(tǒng)的正確性,我們首先通過(guò)大量的真實(shí)Web網(wǎng)站對(duì)原型系統(tǒng)的瀏覽導(dǎo)航模塊的規(guī)則錄制和執(zhí)行進(jìn)行測(cè)試。其次,我們將原型系統(tǒng)的瀏覽導(dǎo)航模塊和幾種Web導(dǎo)航工具進(jìn)行對(duì)比實(shí)驗(yàn),并取得了良好的實(shí)驗(yàn)結(jié)果。最后,本文給出了一些真實(shí)的商業(yè)化抽取實(shí)例來(lái)測(cè)試和驗(yàn)證完整的Web信息抽取處理流程。實(shí)驗(yàn)結(jié)果表明,本文提出的規(guī)則語(yǔ)言和原型系統(tǒng)能夠有效地完成Web頁(yè)面瀏覽導(dǎo)航過(guò)程和數(shù)據(jù)抽取任務(wù)。
[Abstract]:This paper studies the problems and methods of web browsing and navigation in Web information extraction . This paper presents a reliable and efficient generalization xpath generation algorithm . In the experimental part , in order to verify the correctness of the prototype system , we first test the rules and the execution of the navigation module of the prototype system through a large number of real Web sites . Secondly , we present some real commercial extraction examples to test and validate the complete Web information extraction processing flow . The experimental results show that the proposed rules language and prototype system can effectively complete the navigation process and data extraction tasks of Web pages .

【學(xué)位授予單位】：南京大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2014
【分類(lèi)號(hào)】：TP393.092;TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 還書(shū)國(guó);邱海霞;;WEB信息抽取的研究[J];消費(fèi)導(dǎo)刊;2008年12期

2 周順先;林亞平;王雷;;Web信息抽取中基于頁(yè)面特性的包裝器平衡算法[J];計(jì)算機(jī)工程與應(yīng)用;2006年36期

3 徐中華;;Web信息抽取方法概述[J];經(jīng)營(yíng)管理者;2008年09期

4 張奇;郝志峰;溫雯;蔡瑞初;;基于互信息度量的Web信息抽取[J];計(jì)算機(jī)應(yīng)用與軟件;2013年12期

5 張紹華,徐林昊,楊文柱,薛文玲,李天柱;基于樣本實(shí)例的Web信息抽取[J];河北大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年04期

6 李海健;王曉豐;;Web信息抽取的現(xiàn)狀及未來(lái)展望[J];廊坊師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2009年03期

7 劉偉;賀露;;基于本體的Web信息抽取系統(tǒng)的研究[J];軟件;2013年12期

8 李榮;馮麗萍;王鴻斌;;基于改進(jìn)遺傳退火HMM的Web信息抽取研究[J];計(jì)算機(jī)應(yīng)用與軟件;2014年04期

9 金燕;;基于本體的Web信息抽取研究綜述[J];圖書(shū)館學(xué)研究;2012年16期

10 王志華;魏斌;李占波;趙偉;;基于本體的Web信息抽取系統(tǒng)[J];計(jì)算機(jī)工程與設(shè)計(jì);2012年07期

相關(guān)會(huì)議論文前2條

1 陳少飛;郝亞南;李天柱;張志強(qiáng);張波;;Web信息抽取規(guī)則的優(yōu)化[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集（研究報(bào)告篇）[C];2003年

2 崔欣辰;曲寧;陳青華;;隱馬爾可夫模型在Web信息抽取中的幾點(diǎn)改進(jìn)[A];全國(guó)第4屆信號(hào)和智能信息處理與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2010年

相關(guān)博士學(xué)位論文前2條

1 滕偉;面向Web信息集成的Web信息抽取中若干關(guān)鍵問(wèn)題的研究[D];上海交通大學(xué);2007年

2 張乃洲;實(shí)體搜索爬蟲(chóng)和信息抽取研究[D];武漢大學(xué);2011年

相關(guān)碩士學(xué)位論文前10條

1 李宗超;基于本體的手機(jī)領(lǐng)域Web信息抽取[D];重慶大學(xué);2015年

2 王海濤;面向Web信息抽取的網(wǎng)頁(yè)自動(dòng)瀏覽導(dǎo)航與集成規(guī)則研究[D];南京大學(xué);2014年

3 石倩;Web信息抽取規(guī)則及其學(xué)習(xí)算法[D];大連海事大學(xué);2008年

4 朱道輝;基于條件隨機(jī)域的Web信息抽取研究[D];南華大學(xué);2010年

5 劉玉龍;Web信息抽取規(guī)則的設(shè)計(jì)和實(shí)現(xiàn)[D];南京大學(xué);2013年

6 廉成洋;基于樹(shù)結(jié)構(gòu)的Web信息抽取技術(shù)研究[D];南京航空航天大學(xué);2010年

7 俞琰;基于隱馬爾可夫模型的Web信息抽取研究[D];南京工業(yè)大學(xué);2005年

8 明廷波;基于神經(jīng)網(wǎng)絡(luò)的Web信息抽取系統(tǒng)的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2006年

9 楊丁苗;Web信息抽取在書(shū)簽系統(tǒng)中的應(yīng)用研究與實(shí)現(xiàn)[D];南京理工大學(xué);2014年

10 劉寶;面向搜索引擎評(píng)測(cè)的Web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2012年

，

本文編號(hào)：1494520

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/1494520.html

上一篇：基于I-K-Means聚類(lèi)的樸素貝葉斯HRNB分類(lèi)算法在入侵檢測(cè)中的應(yīng)用研究
下一篇：基于K均值與決策樹(shù)的P2P流量識(shí)別研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向Web信息抽取的網(wǎng)頁(yè)自動(dòng)瀏覽導(dǎo)航與集成規(guī)則研究