當(dāng)前位置：主頁 > 管理論文 > 移動網(wǎng)絡(luò)論文 >

Web信息抽取規(guī)則的設(shè)計和實現(xiàn)

發(fā)布時間：2024-04-12 18:34

　　Web成為目前全球規(guī)模最大的信息源,包含了大量有價值的信息。Web信息抽取技術(shù)研究如何從網(wǎng)頁上精確獲取為用戶或應(yīng)用感興趣的信息。現(xiàn)有的Web信息抽取研究大都集中于對已有網(wǎng)頁的自動化分析和數(shù)據(jù)抽取,忽略了信息抽取過程中復(fù)雜的網(wǎng)頁瀏覽導(dǎo)航過程,以及抽取后數(shù)據(jù)的集成處理問題。針對現(xiàn)有研究工作的不足,本文首先研究全過程化Web信息抽取模型,該模型將綜合考慮網(wǎng)頁瀏覽導(dǎo)航、網(wǎng)頁數(shù)據(jù)抽取及數(shù)據(jù)集成三個完整處理過程。在網(wǎng)頁瀏覽導(dǎo)航階段,本文研究提出一種網(wǎng)頁瀏覽導(dǎo)航動作模型,該模型能刻畫用戶在網(wǎng)頁上交互和瀏覽跳轉(zhuǎn)的動作和行為,然后在網(wǎng)頁數(shù)據(jù)抽取運行時,通過回放這種網(wǎng)頁交互和瀏覽跳轉(zhuǎn)動作,即可自動完成抽取過程中相關(guān)網(wǎng)頁的連接跳轉(zhuǎn)。在網(wǎng)頁數(shù)據(jù)抽取階段,本文將研究一種能綜合處理各種復(fù)雜格式網(wǎng)頁數(shù)據(jù)記錄的數(shù)據(jù)抽取模型,可解決非規(guī)整數(shù)據(jù)網(wǎng)頁和多種復(fù)雜的規(guī)則數(shù)據(jù)網(wǎng)頁的數(shù)據(jù)記錄抽取處理。在數(shù)據(jù)集成階段,我們將研究采用基于XML的層次式目標(biāo)數(shù)據(jù)模型,可允許用戶定義各種復(fù)雜的目標(biāo)數(shù)據(jù)實體結(jié)構(gòu),并通過一定的數(shù)據(jù)轉(zhuǎn)換和映射方法,將從網(wǎng)頁上抽取出來的原始數(shù)據(jù)集成為所指定的目標(biāo)數(shù)據(jù)記錄。基于以上全過程的Web信息抽取模型,本...

【文章頁數(shù)】：68 頁

【學(xué)位級別】：碩士

【部分圖文】：

圖4Web頁面信息塊抽取平臺

息塊結(jié)果輸出。3　應(yīng)用實例和測試圖4和圖5是使用文中設(shè)計的分割和抽取規(guī)則實現(xiàn)的Web頁面信息塊抽取平臺的運行畫面。圖4　Web頁面信息塊抽取平臺圖5　Web頁面擴展DOM樹和信息抽取結(jié)果圖4顯示出待處理的Web頁面,圖5通過標(biāo)簽分別給出該頁面的擴展DOM樹和信息塊抽取結(jié)果。我們利....

圖5Web頁面擴展DOM樹和信息抽取結(jié)果

息塊結(jié)果輸出。3　應(yīng)用實例和測試圖4和圖5是使用文中設(shè)計的分割和抽取規(guī)則實現(xiàn)的Web頁面信息塊抽取平臺的運行畫面。圖4　Web頁面信息塊抽取平臺圖5　Web頁面擴展DOM樹和信息抽取結(jié)果圖4顯示出待處理的Web頁面,圖5通過標(biāo)簽分別給出該頁面的擴展DOM樹和信息塊抽取結(jié)果。我們利....

本文編號：3951799

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/3951799.html

上一篇：醫(yī)院信息化質(zhì)量與安全平臺設(shè)計與實踐
下一篇：淺談IPV6地址獲取方式

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

Web信息抽取規(guī)則的設(shè)計和實現(xiàn)