任意網(wǎng)頁的主題信息抽取研究
本文選題:任意網(wǎng)頁 切入點(diǎn):主題信息 出處:《中文信息學(xué)報(bào)》2017年05期 論文類型:期刊論文
【摘要】:目前大部分的網(wǎng)頁信息抽取方法都局限于某一類網(wǎng)頁的提取,并沒有進(jìn)一步深入到適用于任意網(wǎng)頁的抽取。針對(duì)這一問題,該文提出了一種基于融合機(jī)制的任意網(wǎng)頁主題信息抽取框架,特點(diǎn)是通過"模板庫匹配—基于模板抽取—網(wǎng)頁分類—全自動(dòng)抽取"四個(gè)步驟實(shí)現(xiàn)對(duì)模板無關(guān)的全自動(dòng)抽取算法和基于模板的抽取算法的融合。實(shí)驗(yàn)顯示,這種融合機(jī)制能促進(jìn)抽取準(zhǔn)確率的有效提高,從而最終建立起一個(gè)適用于任意網(wǎng)頁的、具有實(shí)用價(jià)值的信息抽取框架。
[Abstract]:At present, most of the methods of web page information extraction are limited to a certain type of web page extraction, and do not go further into the extraction of any web page. In this paper, a framework of arbitrary web page topic information extraction based on fusion mechanism is proposed. The feature is that the integration of template independent automatic extraction algorithm and template based extraction algorithm is realized by "template base matching-template based extraction-web page classification-automatic extraction". This fusion mechanism can effectively improve the accuracy of extraction, and finally establish a practical information extraction framework suitable for any web page.
【作者單位】: 中國科學(xué)院計(jì)算技術(shù)研究所中國科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室;中國科學(xué)院大學(xué);
【基金】:國家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(“973”計(jì)劃)(2014CB340401,2013CB329606) 科技部重點(diǎn)研發(fā)計(jì)劃(2016QY02D0405) 國家自然科學(xué)基金(61232010,61472401,61425016,61203298) 中國科學(xué)院青年創(chuàng)新促進(jìn)會(huì)優(yōu)秀會(huì)員項(xiàng)目(20144310,2016102)
【分類號(hào)】:TP391.1;TP393.092
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 巫滿秀;;淺談網(wǎng)頁信息的保存技巧[J];福建電腦;2007年07期
2 呂英杰;葉強(qiáng);李一軍;;模糊綜合評(píng)判理論在網(wǎng)頁自動(dòng)分類中的應(yīng)用[J];計(jì)算機(jī)工程;2007年15期
3 張俊英;胡俠;卜佳俊;;網(wǎng)頁文本信息自動(dòng)提取技術(shù)綜述[J];計(jì)算機(jī)應(yīng)用研究;2009年08期
4 宋明秋;張瑞雪;吳新濤;李文立;;網(wǎng)頁正文信息抽取新方法[J];大連理工大學(xué)學(xué)報(bào);2009年04期
5 張霞亮;陳家駿;;基于邏輯行和最大接納距離的網(wǎng)頁正文抽取[J];計(jì)算機(jī)工程與應(yīng)用;2009年25期
6 周序生;李爽;;網(wǎng)頁自動(dòng)分類的建模與仿真研究[J];計(jì)算機(jī)仿真;2011年10期
7 張小娣;宋余慶;;基于網(wǎng)頁正文邏輯段落和長句提取的網(wǎng)頁去重算法[J];圖書情報(bào)研究;2012年02期
8 周楊;;基于關(guān)鍵長句及正文長度預(yù)分類的網(wǎng)頁去重算法研究[J];軟件導(dǎo)刊;2012年10期
9 黃玲;陳龍;;基于網(wǎng)頁分塊的正文信息提取方法[J];計(jì)算機(jī)應(yīng)用;2008年S2期
10 劉娟;趙曉楠;;網(wǎng)頁主題相關(guān)性判別的聚焦爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)與現(xiàn)代化;2012年10期
相關(guān)會(huì)議論文 前8條
1 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁文檔的方法[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)會(huì)議論文集(上冊(cè))[C];2008年
2 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁的雙語資源挖掘方法[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
3 劉菁菁;林鴻飛;;基于結(jié)構(gòu)和鏈接擴(kuò)展的中文網(wǎng)頁分類研究[A];2007年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2007年
4 張志強(qiáng);梁婷婷;謝曉芹;;一種基于用戶標(biāo)記的搜索結(jié)果排序算法[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
5 朱春江;陸宇e,
本文編號(hào):1585910
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1585910.html