基于XML的Web信息抽取技術(shù)研究
發(fā)布時間:2019-08-20 08:44
【摘要】: 互聯(lián)網(wǎng)的飛速發(fā)展使其成為全球信息傳播與共享的重要資源,Web上的數(shù)據(jù)一直呈幾何級數(shù)增長,要想從Web上獲取一條有用信息的難度卻越來越大,“信息過載”已經(jīng)成為一個亟待解決的問題。一種理想的情況是:人們可以像查詢數(shù)據(jù)庫一樣查詢Web上的信息。然而,如何從浩繁的Web數(shù)據(jù)中抽取出有用的信息成為眾多研究工作希望解決的問題。 Intemet具有的海量、異構(gòu)、動態(tài)變化等特性使Web信息抽取(IE,InformationExtration)不同于傳統(tǒng)信息抽取,同時帶來了新的挑戰(zhàn)。抽取技術(shù)隨著需求的增加而不斷豐富,近年來國內(nèi)外涌現(xiàn)了多種信息抽取方法。這些方法各有側(cè)重地解決了上述Web信息抽取中面臨的問題,總體上取得了良好的效果,但在某些方面存在不同程度的局限或缺陷。為了更好地解決Web信息抽取面臨的諸多問題和不足,有必要對Web信息抽取問題作進(jìn)一步研究。 本文使用標(biāo)準(zhǔn)的XML技術(shù)來解決網(wǎng)頁信息抽取問題,開發(fā)出了一個專業(yè)化的詐騙事件信息抽取系統(tǒng)(CEIES,Cheating Event Information Extraction System);跇(biāo)準(zhǔn)的XSLT,可以利用它強(qiáng)大而且靈活的特性編寫簡單、健壯和通用的抽取規(guī)則。首先獲得目標(biāo)HTML頁,并將HTML文檔轉(zhuǎn)換成符合XML語法的XHTML文檔,然后通過XML強(qiáng)大的數(shù)據(jù)查詢能力對構(gòu)建的XML文檔庫進(jìn)行查詢,并利用DOM樹將產(chǎn)生的抽取規(guī)則存入規(guī)則庫中。根據(jù)格語法表示的關(guān)鍵動詞用法,抽取句子的局部信息,用知識圖表示。通過知識圖的合并,對局部抽取信息進(jìn)行綜合,最后,把得到的抽取結(jié)果存儲在數(shù)據(jù)庫中,從而完成用戶所需的數(shù)據(jù)的抽取。 由于CEIES事是一個基于自然語言理解的方式的專業(yè)化Web信息抽取系統(tǒng),可以從任何類型網(wǎng)站上的抽取詐騙事件信息。因而具有良好的可擴(kuò)展性和適應(yīng)性。經(jīng)測試,本信息抽取系統(tǒng)的準(zhǔn)確率和召回率都達(dá)到了較滿意的水平。
【圖文】:
過記錄用戶標(biāo)記的信息,采用“系統(tǒng)默認(rèn)”或“用戶定制”的方式生成抽取規(guī)則,實現(xiàn)對類似頁面的信息抽取(這里的“類似頁面”的解釋如定義1)。Lixto的系統(tǒng)實施圖如圖2一3所示。蘸贏茲‘‘一氯贏二如_…:-瞬瞬鷺……圖2一 3Lixto系統(tǒng)實施圖5.基于W亡b查詢的信息抽取由于上述的信息抽取技術(shù),采用了不同的原理,抽取規(guī)則的形式和感興趣信
利用網(wǎng)絡(luò)蜘蛛 (Webspider),在hitemct上的查找網(wǎng)站并抓取相關(guān)網(wǎng)頁;其次,將認(rèn)尾 bSPider搜索到的web頁面依次過濾掉網(wǎng)頁中的標(biāo)記,將文本內(nèi)容保存并進(jìn)行分詞和詞性標(biāo)注(圖4一l);然后,應(yīng)用基于自然語言理解的信息抽取模塊將文本信息進(jìn)行命名實體識別,,將結(jié)構(gòu)化信息存入數(shù)據(jù)庫(圖4一2);最后,將用戶所關(guān)注的信息清楚地顯示在界面上(圖4一3)。愉出到讓)必與來翻文件夾相同O文件夾:生;鄉(xiāng)代拜
本文編號:2528506
【圖文】:
過記錄用戶標(biāo)記的信息,采用“系統(tǒng)默認(rèn)”或“用戶定制”的方式生成抽取規(guī)則,實現(xiàn)對類似頁面的信息抽取(這里的“類似頁面”的解釋如定義1)。Lixto的系統(tǒng)實施圖如圖2一3所示。蘸贏茲‘‘一氯贏二如_…:-瞬瞬鷺……圖2一 3Lixto系統(tǒng)實施圖5.基于W亡b查詢的信息抽取由于上述的信息抽取技術(shù),采用了不同的原理,抽取規(guī)則的形式和感興趣信
利用網(wǎng)絡(luò)蜘蛛 (Webspider),在hitemct上的查找網(wǎng)站并抓取相關(guān)網(wǎng)頁;其次,將認(rèn)尾 bSPider搜索到的web頁面依次過濾掉網(wǎng)頁中的標(biāo)記,將文本內(nèi)容保存并進(jìn)行分詞和詞性標(biāo)注(圖4一l);然后,應(yīng)用基于自然語言理解的信息抽取模塊將文本信息進(jìn)行命名實體識別,,將結(jié)構(gòu)化信息存入數(shù)據(jù)庫(圖4一2);最后,將用戶所關(guān)注的信息清楚地顯示在界面上(圖4一3)。愉出到讓)必與來翻文件夾相同O文件夾:生;鄉(xiāng)代拜
本文編號:2528506
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2528506.html
最近更新
教材專著