基于XML和DOM技術(shù)的Web信息抽取模型

發(fā)布時間：2018-05-19 18:52

本文選題：信息抽取 + XML技術(shù)��；參考：《大連交通大學學報》2013年03期

【摘要】：將XML技術(shù)應用于搜索引擎,提出一種基于XML和DOM技術(shù)的Web信息抽取模型,對模型的數(shù)據(jù)采集、頁面優(yōu)化處理、抽取規(guī)則生成和信息抽取四個階段進行了詳細分析,討論了網(wǎng)頁爬蟲、NekoHTML、Xerces-J、JTree、Xpath以及XSLT技術(shù)在Web信息抽取中的應用,實現(xiàn)了Web信息抽取的半自動化.
[Abstract]:Applying XML technology to search engine, a Web information extraction model based on XML and DOM technology is proposed. The four stages of model data collection, page optimization, extraction rule generation and information extraction are analyzed in detail. This paper discusses the application of web crawler Neko HTML Xerces-JnJTreeXpath and XSLT technology in Web information extraction, and realizes the semi-automation of Web information extraction.
【作者單位】：大連交通大學軟件學院;
【基金】：武漢大學軟件工程國家重點實驗室開放基金資助項目(SKLSE2012-9-27) 四川省重點實驗基金資助項目(GK201202) 廣西混雜計算與集成電路設(shè)計分析重點實驗室基金資助項目
【分類號】：TP393.09

【參考文獻】

相關(guān)期刊論文前5條

1 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁主題信息自動提取[J];計算機研究與發(fā)展;2004年10期

2 賀智平;徐學洲;李愛玲;;一種基于信息熵的Web頁面主題信息抽取方法[J];計算機工程與應用;2007年04期

3 冀高峰;湯庸;道煒;吳桂賓;黃帆;王鵬;;基于XML的自動學習Web信息抽取[J];計算機科學;2008年03期

4 陳佳;胡燕;軒艷艷;;一種基于XML的Web信息抽取方法[J];計算機與數(shù)字工程;2007年06期

5 黃豫清,戚廣志,張福炎;從WEB文檔中構(gòu)造半結(jié)構(gòu)化信息的抽取器[J];軟件學報;2000年01期

【共引文獻】

相關(guān)期刊論文前10條

1 劉金紅,夏陽,陸余良;基于Ontology的網(wǎng)絡(luò)元數(shù)據(jù)抽取系統(tǒng)的研究與實現(xiàn)[J];安徽電子信息職業(yè)技術(shù)學院學報;2004年Z1期

2 胡凌云;胡桂蘭;徐勇;李龍澍;;基于Web的新聞文本分類技術(shù)的研究[J];安徽大學學報(自然科學版);2010年06期

3 翟東升;楊洋;;基于XML技術(shù)的USPTO專利抽取系統(tǒng)[J];北京工業(yè)大學學報;2011年04期

4 張惠君;李娟;;基于OPAC的館藏評價方法探究[J];圖書與情報;2010年04期

5 程渤,浮花玲,楊國緯;基于工作流及集成中間件技術(shù)的電力信息一體化設(shè)計及實現(xiàn)[J];電力系統(tǒng)自動化;2004年19期

6 王立建;尹四清;;基于Web頁面有效信息抽取的分類方法[J];電腦開發(fā)與應用;2010年06期

7 陳蕾蕾;張如靜;;面向Web的新聞網(wǎng)頁正文信息抽取策略研究[J];電腦知識與技術(shù);2008年S2期

8 張海強,張永;網(wǎng)絡(luò)用法挖掘及其應用[J];蘭州理工大學學報;2004年05期

9 夏天;;基于擴展標記樹的網(wǎng)頁正文抽取[J];廣西師范大學學報(自然科學版);2011年01期

10 張紹華,徐林昊,楊文柱,薛文玲,李天柱;基于樣本實例的Web信息抽取[J];河北大學學報(自然科學版);2001年04期

相關(guān)會議論文前3條

1 汪建偉;高軍;王騰蛟;楊冬青;;一種基于顯示屬性的網(wǎng)頁信息提取方法[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集（上冊）[C];2007年

2 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年

3 楊建武;陳曉鷗;;半結(jié)構(gòu)化文檔集的結(jié)構(gòu)化處理及其Web發(fā)布[A];第十八屆全國數(shù)據(jù)庫學術(shù)會議論文集（研究報告篇）[C];2001年

相關(guān)博士學位論文前10條

1 鄧斌;B2C在線評論中的客戶知識管理研究[D];電子科技大學;2010年

2 張智雄;Internet科技信息資源門戶網(wǎng)站(STIP)系統(tǒng)的實踐研究[D];中國科學院文獻情報中心;2000年

3 簡（王爭）峰;基于XML的異構(gòu)產(chǎn)品信息網(wǎng)上交換、檢索技術(shù)研究與應用[D];浙江大學;2002年

4 陳治平;智能搜索引擎理論與應用研究[D];湖南大學;2003年

5 朱征宇;Web資源組織與服務性能研究[D];重慶大學;2003年

6 周明建;基于本體的開放式知識管理研究[D];浙江大學;2004年

7 張友華;面向智能服務的Web內(nèi)容計算研究與應用[D];中國科學技術(shù)大學;2006年

8 謝學敏;基于動態(tài)流通語料庫（DCC）的流行語釋義信息自動提取研究[D];北京語言大學;2006年

9 何麗;基于Web挖掘的決策支持系統(tǒng)模型研究[D];天津大學;2005年

10 張永進;面向防汛抗旱指揮系統(tǒng)的應用集成中間件平臺研究[D];西北大學;2007年

相關(guān)碩士學位論文前10條

1 孫嶺;一種基于前綴表達式的Web信息抽取方法的關(guān)鍵問題的實現(xiàn)[D];山東科技大學;2010年

2 雷斌;基于Java技術(shù)的智能化搜索引擎的研究與設(shè)計[D];哈爾濱工程大學;2010年

3 王樂超;Web環(huán)境下文獻信息的提取與匹配研究[D];大連理工大學;2010年

4 楊芹;基于最大熵模型的中文網(wǎng)頁分類器設(shè)計和實現(xiàn)[D];蘇州大學;2010年

5 范春曉;基于XML的Web信息抽取技術(shù)研究[D];沈陽理工大學;2010年

6 付濤;藏文網(wǎng)頁除噪技術(shù)研究[D];西北民族大學;2010年

7 余t煼，

本文編號：1911243

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1911243.html

上一篇：基于SVM的旅游網(wǎng)站頁面判別模型探討
下一篇：Robots協(xié)議維護互聯(lián)網(wǎng)秩序

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于XML和DOM技術(shù)的Web信息抽取模型