基于XML的Web信息抽取技術研究
發(fā)布時間:2019-08-20 08:44
【摘要】: 互聯(lián)網(wǎng)的飛速發(fā)展使其成為全球信息傳播與共享的重要資源,Web上的數(shù)據(jù)一直呈幾何級數(shù)增長,要想從Web上獲取一條有用信息的難度卻越來越大,“信息過載”已經(jīng)成為一個亟待解決的問題。一種理想的情況是:人們可以像查詢數(shù)據(jù)庫一樣查詢Web上的信息。然而,如何從浩繁的Web數(shù)據(jù)中抽取出有用的信息成為眾多研究工作希望解決的問題。 Intemet具有的海量、異構、動態(tài)變化等特性使Web信息抽取(IE,InformationExtration)不同于傳統(tǒng)信息抽取,同時帶來了新的挑戰(zhàn)。抽取技術隨著需求的增加而不斷豐富,近年來國內(nèi)外涌現(xiàn)了多種信息抽取方法。這些方法各有側重地解決了上述Web信息抽取中面臨的問題,總體上取得了良好的效果,但在某些方面存在不同程度的局限或缺陷。為了更好地解決Web信息抽取面臨的諸多問題和不足,有必要對Web信息抽取問題作進一步研究。 本文使用標準的XML技術來解決網(wǎng)頁信息抽取問題,開發(fā)出了一個專業(yè)化的詐騙事件信息抽取系統(tǒng)(CEIES,Cheating Event Information Extraction System)。基于標準的XSLT,可以利用它強大而且靈活的特性編寫簡單、健壯和通用的抽取規(guī)則。首先獲得目標HTML頁,并將HTML文檔轉換成符合XML語法的XHTML文檔,然后通過XML強大的數(shù)據(jù)查詢能力對構建的XML文檔庫進行查詢,并利用DOM樹將產(chǎn)生的抽取規(guī)則存入規(guī)則庫中。根據(jù)格語法表示的關鍵動詞用法,抽取句子的局部信息,用知識圖表示。通過知識圖的合并,對局部抽取信息進行綜合,最后,把得到的抽取結果存儲在數(shù)據(jù)庫中,從而完成用戶所需的數(shù)據(jù)的抽取。 由于CEIES事是一個基于自然語言理解的方式的專業(yè)化Web信息抽取系統(tǒng),可以從任何類型網(wǎng)站上的抽取詐騙事件信息。因而具有良好的可擴展性和適應性。經(jīng)測試,本信息抽取系統(tǒng)的準確率和召回率都達到了較滿意的水平。
【圖文】:
過記錄用戶標記的信息,采用“系統(tǒng)默認”或“用戶定制”的方式生成抽取規(guī)則,實現(xiàn)對類似頁面的信息抽取(這里的“類似頁面”的解釋如定義1)。Lixto的系統(tǒng)實施圖如圖2一3所示。蘸贏茲‘‘一氯贏二如_…:-瞬瞬鷺……圖2一 3Lixto系統(tǒng)實施圖5.基于W亡b查詢的信息抽取由于上述的信息抽取技術,采用了不同的原理,抽取規(guī)則的形式和感興趣信
利用網(wǎng)絡蜘蛛 (Webspider),在hitemct上的查找網(wǎng)站并抓取相關網(wǎng)頁;其次,將認尾 bSPider搜索到的web頁面依次過濾掉網(wǎng)頁中的標記,將文本內(nèi)容保存并進行分詞和詞性標注(圖4一l);然后,應用基于自然語言理解的信息抽取模塊將文本信息進行命名實體識別,,將結構化信息存入數(shù)據(jù)庫(圖4一2);最后,將用戶所關注的信息清楚地顯示在界面上(圖4一3)。愉出到讓)必與來翻文件夾相同O文件夾:生;鄉(xiāng)代拜
本文編號:2528506
【圖文】:
過記錄用戶標記的信息,采用“系統(tǒng)默認”或“用戶定制”的方式生成抽取規(guī)則,實現(xiàn)對類似頁面的信息抽取(這里的“類似頁面”的解釋如定義1)。Lixto的系統(tǒng)實施圖如圖2一3所示。蘸贏茲‘‘一氯贏二如_…:-瞬瞬鷺……圖2一 3Lixto系統(tǒng)實施圖5.基于W亡b查詢的信息抽取由于上述的信息抽取技術,采用了不同的原理,抽取規(guī)則的形式和感興趣信
利用網(wǎng)絡蜘蛛 (Webspider),在hitemct上的查找網(wǎng)站并抓取相關網(wǎng)頁;其次,將認尾 bSPider搜索到的web頁面依次過濾掉網(wǎng)頁中的標記,將文本內(nèi)容保存并進行分詞和詞性標注(圖4一l);然后,應用基于自然語言理解的信息抽取模塊將文本信息進行命名實體識別,,將結構化信息存入數(shù)據(jù)庫(圖4一2);最后,將用戶所關注的信息清楚地顯示在界面上(圖4一3)。愉出到讓)必與來翻文件夾相同O文件夾:生;鄉(xiāng)代拜
本文編號:2528506
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2528506.html
最近更新
教材專著