基于XML和DOM技術(shù)的Web信息抽取模型
本文選題:信息抽取 + XML技術(shù)。 參考:《大連交通大學(xué)學(xué)報(bào)》2013年03期
【摘要】:將XML技術(shù)應(yīng)用于搜索引擎,提出一種基于XML和DOM技術(shù)的Web信息抽取模型,對(duì)模型的數(shù)據(jù)采集、頁(yè)面優(yōu)化處理、抽取規(guī)則生成和信息抽取四個(gè)階段進(jìn)行了詳細(xì)分析,討論了網(wǎng)頁(yè)爬蟲、NekoHTML、Xerces-J、JTree、Xpath以及XSLT技術(shù)在Web信息抽取中的應(yīng)用,實(shí)現(xiàn)了Web信息抽取的半自動(dòng)化.
[Abstract]:Applying XML technology to search engine, a Web information extraction model based on XML and DOM technology is proposed. The four stages of model data collection, page optimization, extraction rule generation and information extraction are analyzed in detail. This paper discusses the application of web crawler Neko HTML Xerces-JnJTreeXpath and XSLT technology in Web information extraction, and realizes the semi-automation of Web information extraction.
【作者單位】: 大連交通大學(xué)軟件學(xué)院;
【基金】:武漢大學(xué)軟件工程國(guó)家重點(diǎn)實(shí)驗(yàn)室開放基金資助項(xiàng)目(SKLSE2012-9-27) 四川省重點(diǎn)實(shí)驗(yàn)基金資助項(xiàng)目(GK201202) 廣西混雜計(jì)算與集成電路設(shè)計(jì)分析重點(diǎn)實(shí)驗(yàn)室基金資助項(xiàng)目
【分類號(hào)】:TP393.09
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁(yè)主題信息自動(dòng)提取[J];計(jì)算機(jī)研究與發(fā)展;2004年10期
2 賀智平;徐學(xué)洲;李愛(ài)玲;;一種基于信息熵的Web頁(yè)面主題信息抽取方法[J];計(jì)算機(jī)工程與應(yīng)用;2007年04期
3 冀高峰;湯庸;道煒;吳桂賓;黃帆;王鵬;;基于XML的自動(dòng)學(xué)習(xí)Web信息抽取[J];計(jì)算機(jī)科學(xué);2008年03期
4 陳佳;胡燕;軒艷艷;;一種基于XML的Web信息抽取方法[J];計(jì)算機(jī)與數(shù)字工程;2007年06期
5 黃豫清,戚廣志,張福炎;從WEB文檔中構(gòu)造半結(jié)構(gòu)化信息的抽取器[J];軟件學(xué)報(bào);2000年01期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 劉金紅,夏陽(yáng),陸余良;基于Ontology的網(wǎng)絡(luò)元數(shù)據(jù)抽取系統(tǒng)的研究與實(shí)現(xiàn)[J];安徽電子信息職業(yè)技術(shù)學(xué)院學(xué)報(bào);2004年Z1期
2 胡凌云;胡桂蘭;徐勇;李龍澍;;基于Web的新聞文本分類技術(shù)的研究[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年06期
3 翟東升;楊洋;;基于XML技術(shù)的USPTO專利抽取系統(tǒng)[J];北京工業(yè)大學(xué)學(xué)報(bào);2011年04期
4 張惠君;李娟;;基于OPAC的館藏評(píng)價(jià)方法探究[J];圖書與情報(bào);2010年04期
5 程渤,浮花玲,楊國(guó)緯;基于工作流及集成中間件技術(shù)的電力信息一體化設(shè)計(jì)及實(shí)現(xiàn)[J];電力系統(tǒng)自動(dòng)化;2004年19期
6 王立建;尹四清;;基于Web頁(yè)面有效信息抽取的分類方法[J];電腦開發(fā)與應(yīng)用;2010年06期
7 陳蕾蕾;張如靜;;面向Web的新聞網(wǎng)頁(yè)正文信息抽取策略研究[J];電腦知識(shí)與技術(shù);2008年S2期
8 張海強(qiáng),張永;網(wǎng)絡(luò)用法挖掘及其應(yīng)用[J];蘭州理工大學(xué)學(xué)報(bào);2004年05期
9 夏天;;基于擴(kuò)展標(biāo)記樹的網(wǎng)頁(yè)正文抽取[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年01期
10 張紹華,徐林昊,楊文柱,薛文玲,李天柱;基于樣本實(shí)例的Web信息抽取[J];河北大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年04期
相關(guān)會(huì)議論文 前3條
1 汪建偉;高軍;王騰蛟;楊冬青;;一種基于顯示屬性的網(wǎng)頁(yè)信息提取方法[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(上冊(cè))[C];2007年
2 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁(yè)主題信息抽取[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
3 楊建武;陳曉鷗;;半結(jié)構(gòu)化文檔集的結(jié)構(gòu)化處理及其Web發(fā)布[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年
相關(guān)博士學(xué)位論文 前10條
1 鄧斌;B2C在線評(píng)論中的客戶知識(shí)管理研究[D];電子科技大學(xué);2010年
2 張智雄;Internet科技信息資源門戶網(wǎng)站(STIP)系統(tǒng)的實(shí)踐研究[D];中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心;2000年
3 簡(jiǎn)(王爭(zhēng))峰;基于XML的異構(gòu)產(chǎn)品信息網(wǎng)上交換、檢索技術(shù)研究與應(yīng)用[D];浙江大學(xué);2002年
4 陳治平;智能搜索引擎理論與應(yīng)用研究[D];湖南大學(xué);2003年
5 朱征宇;Web資源組織與服務(wù)性能研究[D];重慶大學(xué);2003年
6 周明建;基于本體的開放式知識(shí)管理研究[D];浙江大學(xué);2004年
7 張友華;面向智能服務(wù)的Web內(nèi)容計(jì)算研究與應(yīng)用[D];中國(guó)科學(xué)技術(shù)大學(xué);2006年
8 謝學(xué)敏;基于動(dòng)態(tài)流通語(yǔ)料庫(kù)(DCC)的流行語(yǔ)釋義信息自動(dòng)提取研究[D];北京語(yǔ)言大學(xué);2006年
9 何麗;基于Web挖掘的決策支持系統(tǒng)模型研究[D];天津大學(xué);2005年
10 張永進(jìn);面向防汛抗旱指揮系統(tǒng)的應(yīng)用集成中間件平臺(tái)研究[D];西北大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 孫嶺;一種基于前綴表達(dá)式的Web信息抽取方法的關(guān)鍵問(wèn)題的實(shí)現(xiàn)[D];山東科技大學(xué);2010年
2 雷斌;基于Java技術(shù)的智能化搜索引擎的研究與設(shè)計(jì)[D];哈爾濱工程大學(xué);2010年
3 王樂(lè)超;Web環(huán)境下文獻(xiàn)信息的提取與匹配研究[D];大連理工大學(xué);2010年
4 楊芹;基于最大熵模型的中文網(wǎng)頁(yè)分類器設(shè)計(jì)和實(shí)現(xiàn)[D];蘇州大學(xué);2010年
5 范春曉;基于XML的Web信息抽取技術(shù)研究[D];沈陽(yáng)理工大學(xué);2010年
6 付濤;藏文網(wǎng)頁(yè)除噪技術(shù)研究[D];西北民族大學(xué);2010年
7 余t煼,
本文編號(hào):1911243
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1911243.html