自適應(yīng)Web頁面數(shù)據(jù)抽取方法
本文選題:自適應(yīng) + 數(shù)據(jù)抽取; 參考:《計(jì)算機(jī)與數(shù)字工程》2016年11期
【摘要】:針對Web頁面數(shù)據(jù)抽取問題,提出了一種基于抽取模板的自適應(yīng)Web頁面數(shù)據(jù)抽取方法。給出了自適應(yīng)web數(shù)據(jù)抽取的整體流程,詳細(xì)介紹了抽取模板中抽取規(guī)則和自適應(yīng)搜索規(guī)則的定義方式,web頁面與抽取模板的匹配方法,以及抽取路徑失效后目標(biāo)數(shù)據(jù)的搜索與抽取模板的自適應(yīng)修改過程。實(shí)驗(yàn)結(jié)果表明,基于抽取模板的自適應(yīng)web頁面數(shù)據(jù)抽取方法的召回率和查準(zhǔn)率都達(dá)到95%以上,方法中的自適應(yīng)搜索規(guī)則有效地減少了抽取模板的制定數(shù)量。
[Abstract]:To solve the problem of Web page data extraction, an adaptive Web page data extraction method based on extraction template is proposed.The whole process of adaptive web data extraction is given, and the definition of extraction rules and adaptive search rules in extraction template is introduced in detail.And the process of target data searching and the adaptive modification of extraction template after the extraction path failure.The experimental results show that the recall rate and the precision rate of the adaptive web page data extraction method based on extracting template are over 95%, and the adaptive search rules in the method can effectively reduce the number of template formulation.
【作者單位】: 遼寧大學(xué)信息學(xué)院;
【分類號】:TP391.1
【相似文獻(xiàn)】
相關(guān)會議論文 前4條
1 蔣理成;;增量數(shù)據(jù)抽取(ETL)技術(shù)[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2007年
2 張文東;袁春風(fēng);武港山;;基于視覺的網(wǎng)頁數(shù)據(jù)抽取[A];2009年研究生學(xué)術(shù)交流會通信與信息技術(shù)論文集[C];2009年
3 龔英_";;Tribon M3系統(tǒng)快速繪圖開發(fā)[A];2007年CAD/CAM學(xué)術(shù)交流會議論文集[C];2007年
4 閆洋洋;郝德建;王鵬;張軟玉;;數(shù)字核信號智能采樣理論和方法研究[A];第十六屆全國核電子學(xué)與核探測技術(shù)學(xué)術(shù)年會論文集(下冊)[C];2012年
相關(guān)重要報(bào)紙文章 前3條
1 廣東省電信公司科學(xué)技術(shù)研究院 汪虹;數(shù)據(jù)抽取: 復(fù)雜電信數(shù)據(jù)的統(tǒng)一路[N];計(jì)算機(jī)世界;2002年
2 中青旅尚洋電子技術(shù)有限公司 史小六 陳如璇;細(xì)看集中技術(shù)[N];網(wǎng)絡(luò)世界;2003年
3 ;中創(chuàng)軟件電力信息整合方案[N];計(jì)算機(jī)世界;2006年
相關(guān)博士學(xué)位論文 前5條
1 鄧緒斌;面向復(fù)雜數(shù)據(jù)源的數(shù)據(jù)抽取模型和算法研究[D];復(fù)旦大學(xué);2005年
2 張敬偉;Web論壇數(shù)據(jù)抽取[D];華東師范大學(xué);2012年
3 陳珂銳;基于本體演化的Deep Web數(shù)據(jù)抽取與注釋[D];吉林大學(xué);2011年
4 辛潔;Deep Web數(shù)據(jù)抽取及精煉方法研究[D];蘇州大學(xué);2014年
5 黃健斌;基于條件概率圖模型的Deep Web數(shù)據(jù)抽取與集成研究[D];西安電子科技大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 呂鵬濤;鋼鐵本體的構(gòu)建及實(shí)例填充系統(tǒng)的設(shè)計(jì)[D];河北科技大學(xué);2015年
2 常麗君;Web數(shù)據(jù)抽取技術(shù)的研究[D];南京財(cái)經(jīng)大學(xué);2014年
3 溫璐;基于區(qū)段查詢的增量數(shù)據(jù)抽取器的設(shè)計(jì)與實(shí)現(xiàn)[D];河北科技大學(xué);2015年
4 崔琳爽;煤化工領(lǐng)域數(shù)據(jù)抽取及可視化應(yīng)用[D];北京林業(yè)大學(xué);2016年
5 景寒星;基于標(biāo)簽樹的列表頁面數(shù)據(jù)抽取技術(shù)研究[D];華東師范大學(xué);2011年
6 姚志鵬;數(shù)據(jù)抽取、轉(zhuǎn)換、加載描述規(guī)范的研究與應(yīng)用[D];青島大學(xué);2013年
7 韓強(qiáng);一種高效的圖數(shù)據(jù)抽取技術(shù)的研究[D];云南大學(xué);2015年
8 馮全磊;分布式軌道監(jiān)測數(shù)據(jù)抽取與可視化研究[D];大連理工大學(xué);2012年
9 賈艷凱;多源異構(gòu)增量數(shù)據(jù)抽取方法研究與設(shè)計(jì)[D];哈爾濱工程大學(xué);2013年
10 傅民軒;數(shù)據(jù)共享平臺數(shù)據(jù)抽取子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2011年
,本文編號:1736494
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1736494.html