基于單DOM樹特征預(yù)分類的自適應(yīng)Web信息抽取方法

發(fā)布時(shí)間：2019-03-28 06:55

【摘要】：在傳統(tǒng)的輿情中多為基于模板采集模式,基于減少人工維護(hù)的目的,文中提出一種基于單DOM樹特征預(yù)分類的自適應(yīng)Web信息抽取方法,分為鏈接預(yù)分類與信息抽取兩個(gè)部分。鏈接預(yù)分類采用SVM分類算法,提取信息超鏈接在頁面中的特征進(jìn)行分類學(xué)習(xí),再對(duì)分類結(jié)果進(jìn)行同源的Web信息提取。實(shí)驗(yàn)表明,此方法預(yù)分類結(jié)果準(zhǔn)確率可達(dá)94.48%,召回率為94.77%。
[Abstract]:In traditional public opinion, most of them are based on template collection mode, and for the purpose of reducing manual maintenance, this paper proposes an adaptive DOM information extraction method based on single Web tree feature pre-classification, which is divided into two parts: link pre-classification and information extraction. The link pre-classification uses SVM classification algorithm to extract the features of hyperlinks in the page for classification learning and then extract the Web information of the same origin from the classification results. The experimental results show that the accuracy and recall rate of this method are 94.48% and 94.77% respectively.
【作者單位】：武漢郵電科學(xué)研究院;南京烽火星空通信發(fā)展有限公司;
【分類號(hào)】：TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 史慶偉;趙政;鮑虎;;基于條件隨機(jī)域的Web信息抽取[J];遼寧工程技術(shù)大學(xué)學(xué)報(bào);2007年04期

2 鄧箴;包宏;;改進(jìn)的關(guān)鍵詞抽取方法研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2009年20期

3 石楨;姚天f ;;一種基于統(tǒng)計(jì)和規(guī)則的核心地名抽取方法[J];微型電腦應(yīng)用;2013年02期

4 張世輝;一種新的基于距離的漢字筆畫抽取方法[J];計(jì)算機(jī)工程;2003年14期

5 王大亮;涂序彥;鄭雪峰;佟子健;;多策略融合的搭配抽取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年04期

6 楊建明;;關(guān)系抽取方法研究[J];電子技術(shù);2009年04期

7 孫繼鵬;賈民;劉增寶;;一種面向文本的概念抽取方法的研究[J];計(jì)算機(jī)應(yīng)用與軟件;2009年09期

8 鄭偉;呂建新;張建偉;;文本分類中特征預(yù)抽取方法研究[J];情報(bào)科學(xué);2011年01期

9 郝博一;夏云慶;鄔曉鈞;鄭方;劉軼;;基于泛化和繁殖的自舉式意見目標(biāo)抽取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年S1期

10 栗春亮;朱艷輝;徐葉強(qiáng);;中文產(chǎn)品評(píng)論中屬性詞抽取方法研究[J];計(jì)算機(jī)工程;2011年12期

相關(guān)會(huì)議論文前10條

1 宋濤;李素建;;基于流形排序的領(lǐng)域詞抽取方法[A];第五屆全國青年計(jì)算語言學(xué)研討會(huì)論文集[C];2010年

2 卞真旭;;一種關(guān)鍵詞抽取方法研究[A];2011年安徽省智能電網(wǎng)技術(shù)論壇論文集[C];2011年

3 羅斐;毛宇光;;基于領(lǐng)域分類的查詢接口模式抽取方法[A];2009年研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)論文集[C];2009年

4 栗春亮;朱艷輝;徐葉強(qiáng);;中文產(chǎn)品評(píng)論中屬性詞抽取方法研究[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年

5 劉昊;王健;林鴻飛;;一種模板與圖核融合的蛋白質(zhì)關(guān)系抽取方法[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年

6 翁偉;王厚峰;;基于LDA的關(guān)鍵詞抽取方法[A];第五屆全國青年計(jì)算語言學(xué)研討會(huì)論文集[C];2010年

7 何莉;林鴻飛;;一種面向WEB的生物醫(yī)學(xué)領(lǐng)域英漢術(shù)語翻譯對(duì)抽取方法[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展（2007-2009）[C];2009年

8 左云存;宗成慶;;基于HMM的短語翻譯對(duì)抽取方法[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議（JSCL-2005）論文集[C];2005年

9 王裴巖;張桂平;白宇;;一種基于核函數(shù)的技術(shù)關(guān)鍵詞連接關(guān)系抽取方法[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年

10 蒲宇達(dá);關(guān)毅;王強(qiáng);;基于數(shù)據(jù)挖掘思想的網(wǎng)頁正文抽取方法的研究[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年

相關(guān)博士學(xué)位論文前3條

1 劉勝宇;生物醫(yī)學(xué)文本中藥物信息抽取方法研究[D];哈爾濱工業(yè)大學(xué);2016年

2 滕偉;面向Web信息集成的Web信息抽取中若干關(guān)鍵問題的研究[D];上海交通大學(xué);2007年

3 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國科學(xué)技術(shù)大學(xué);2012年

相關(guān)碩士學(xué)位論文前10條

1 李宗超;基于本體的手機(jī)領(lǐng)域Web信息抽取[D];重慶大學(xué);2015年

2 王海濤;面向Web信息抽取的網(wǎng)頁自動(dòng)瀏覽導(dǎo)航與集成規(guī)則研究[D];南京大學(xué);2014年

3 曹攀;大規(guī)模Web信息抽取與文本分類研究[D];南京郵電大學(xué);2016年

4 劉玉龍;Web信息抽取規(guī)則的設(shè)計(jì)和實(shí)現(xiàn)[D];南京大學(xué);2013年

5 廉成洋;基于樹結(jié)構(gòu)的Web信息抽取技術(shù)研究[D];南京航空航天大學(xué);2010年

6 陳倩;基于特征模型的跨領(lǐng)域信息抽取方法研究[D];上海大學(xué);2015年

7 劉驍;基于產(chǎn)品評(píng)論的意見抽取方法研究[D];黑龍江大學(xué);2015年

8 洪軍建;面向社會(huì)網(wǎng)絡(luò)應(yīng)用的人物關(guān)系抽取方法研究[D];西藏大學(xué);2016年

9 梅莉莉;基于領(lǐng)域特殊性和統(tǒng)計(jì)語言知識(shí)的新詞抽取方法[D];北京理工大學(xué);2016年

10 陳亞東;面向數(shù)據(jù)稀疏問題的英文事件抽取研究[D];蘇州大學(xué);2016年

，

本文編號(hào)：2448640

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/wenyilunwen/guanggaoshejilunwen/2448640.html

上一篇：電子產(chǎn)品逆向供應(yīng)鏈網(wǎng)絡(luò)構(gòu)建及其激勵(lì)機(jī)制研究
下一篇：探討平面設(shè)計(jì)與印刷工藝的關(guān)系

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于單DOM樹特征預(yù)分類的自適應(yīng)Web信息抽取方法