Web信息抽取規(guī)則的設(shè)計和實現(xiàn)
發(fā)布時間:2024-04-12 18:34
Web成為目前全球規(guī)模最大的信息源,包含了大量有價值的信息。Web信息抽取技術(shù)研究如何從網(wǎng)頁上精確獲取為用戶或應(yīng)用感興趣的信息,F(xiàn)有的Web信息抽取研究大都集中于對已有網(wǎng)頁的自動化分析和數(shù)據(jù)抽取,忽略了信息抽取過程中復(fù)雜的網(wǎng)頁瀏覽導(dǎo)航過程,以及抽取后數(shù)據(jù)的集成處理問題。針對現(xiàn)有研究工作的不足,本文首先研究全過程化Web信息抽取模型,該模型將綜合考慮網(wǎng)頁瀏覽導(dǎo)航、網(wǎng)頁數(shù)據(jù)抽取及數(shù)據(jù)集成三個完整處理過程。 在網(wǎng)頁瀏覽導(dǎo)航階段,本文研究提出一種網(wǎng)頁瀏覽導(dǎo)航動作模型,該模型能刻畫用戶在網(wǎng)頁上交互和瀏覽跳轉(zhuǎn)的動作和行為,然后在網(wǎng)頁數(shù)據(jù)抽取運行時,通過回放這種網(wǎng)頁交互和瀏覽跳轉(zhuǎn)動作,即可自動完成抽取過程中相關(guān)網(wǎng)頁的連接跳轉(zhuǎn)。在網(wǎng)頁數(shù)據(jù)抽取階段,本文將研究一種能綜合處理各種復(fù)雜格式網(wǎng)頁數(shù)據(jù)記錄的數(shù)據(jù)抽取模型,可解決非規(guī)整數(shù)據(jù)網(wǎng)頁和多種復(fù)雜的規(guī)則數(shù)據(jù)網(wǎng)頁的數(shù)據(jù)記錄抽取處理。在數(shù)據(jù)集成階段,我們將研究采用基于XML的層次式目標數(shù)據(jù)模型,可允許用戶定義各種復(fù)雜的目標數(shù)據(jù)實體結(jié)構(gòu),并通過一定的數(shù)據(jù)轉(zhuǎn)換和映射方法,將從網(wǎng)頁上抽取出來的原始數(shù)據(jù)集成為所指定的目標數(shù)據(jù)記錄。 基于以上全過程的Web信息抽取模型,本...
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
本文編號:3951799
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖4Web頁面信息塊抽取平臺
息塊結(jié)果輸出。3 應(yīng)用實例和測試圖4和圖5是使用文中設(shè)計的分割和抽取規(guī)則實現(xiàn)的Web頁面信息塊抽取平臺的運行畫面。圖4 Web頁面信息塊抽取平臺圖5 Web頁面擴展DOM樹和信息抽取結(jié)果圖4顯示出待處理的Web頁面,圖5通過標簽分別給出該頁面的擴展DOM樹和信息塊抽取結(jié)果。我們利....
圖5Web頁面擴展DOM樹和信息抽取結(jié)果
息塊結(jié)果輸出。3 應(yīng)用實例和測試圖4和圖5是使用文中設(shè)計的分割和抽取規(guī)則實現(xiàn)的Web頁面信息塊抽取平臺的運行畫面。圖4 Web頁面信息塊抽取平臺圖5 Web頁面擴展DOM樹和信息抽取結(jié)果圖4顯示出待處理的Web頁面,圖5通過標簽分別給出該頁面的擴展DOM樹和信息塊抽取結(jié)果。我們利....
本文編號:3951799
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3951799.html
最近更新
教材專著