基于知識(shí)圖譜的Web信息抽取系統(tǒng)
本文選題:知識(shí)圖譜 + 多領(lǐng)域。 參考:《計(jì)算機(jī)工程》2017年06期
【摘要】:為實(shí)現(xiàn)多領(lǐng)域海量網(wǎng)頁(yè)信息的有效抽取,以中文知識(shí)圖譜CN-DBpedia為基礎(chǔ)設(shè)計(jì)Web信息抽取系統(tǒng);谥R(shí)圖譜對(duì)網(wǎng)頁(yè)數(shù)據(jù)項(xiàng)進(jìn)行自動(dòng)標(biāo)注,建立具有容錯(cuò)能力的包裝器歸納框架,從包含錯(cuò)誤的標(biāo)注集中歸納學(xué)習(xí)出正確的包裝器。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)的準(zhǔn)確率和召回率均高于傳統(tǒng)人工標(biāo)注方法,可顯著降低網(wǎng)頁(yè)信息抽取過(guò)程中的人力成本,靈活運(yùn)用于大規(guī)模、多領(lǐng)域的網(wǎng)頁(yè)信息抽取任務(wù)。
[Abstract]:A Web information extraction system is designed based on CN-DBpedia, a Chinese knowledge map. Based on the knowledge map, the web page data items are automatically annotated, and a fault-tolerant wrapper inductive framework is established, and the correct wrapper is learned from the annotation set containing errors. The experimental results show that the accuracy and recall rate of the system are higher than those of the traditional manual annotation method, which can significantly reduce the human cost in the process of web page information extraction, and can be used flexibly in large-scale and multi-domain web page information extraction tasks.
【作者單位】: 上海電力學(xué)院經(jīng)濟(jì)與管理學(xué)院;復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院;東華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;
【基金】:上海市科技創(chuàng)新行動(dòng)計(jì)劃基礎(chǔ)研究項(xiàng)目(15JC1400900) 上海市自然科學(xué)基金(13ZR1417700)
【分類號(hào)】:TP391.1;TP393.092
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 呂英杰;葉強(qiáng);李一軍;;模糊綜合評(píng)判理論在網(wǎng)頁(yè)自動(dòng)分類中的應(yīng)用[J];計(jì)算機(jī)工程;2007年15期
2 張俊英;胡俠;卜佳俊;;網(wǎng)頁(yè)文本信息自動(dòng)提取技術(shù)綜述[J];計(jì)算機(jī)應(yīng)用研究;2009年08期
3 宋明秋;張瑞雪;吳新濤;李文立;;網(wǎng)頁(yè)正文信息抽取新方法[J];大連理工大學(xué)學(xué)報(bào);2009年04期
4 張霞亮;陳家駿;;基于邏輯行和最大接納距離的網(wǎng)頁(yè)正文抽取[J];計(jì)算機(jī)工程與應(yīng)用;2009年25期
5 周序生;李爽;;網(wǎng)頁(yè)自動(dòng)分類的建模與仿真研究[J];計(jì)算機(jī)仿真;2011年10期
6 張小娣;宋余慶;;基于網(wǎng)頁(yè)正文邏輯段落和長(zhǎng)句提取的網(wǎng)頁(yè)去重算法[J];圖書情報(bào)研究;2012年02期
7 周楊;;基于關(guān)鍵長(zhǎng)句及正文長(zhǎng)度預(yù)分類的網(wǎng)頁(yè)去重算法研究[J];軟件導(dǎo)刊;2012年10期
8 黃玲;陳龍;;基于網(wǎng)頁(yè)分塊的正文信息提取方法[J];計(jì)算機(jī)應(yīng)用;2008年S2期
9 劉娟;趙曉楠;;網(wǎng)頁(yè)主題相關(guān)性判別的聚焦爬蟲(chóng)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)與現(xiàn)代化;2012年10期
10 任玉;樊勇;鄭家恒;;基于分塊的網(wǎng)頁(yè)主題文本抽取[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年01期
相關(guān)會(huì)議論文 前5條
1 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁(yè)文檔的方法[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)會(huì)議論文集(上冊(cè))[C];2008年
2 羅陽(yáng);季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁(yè)的雙語(yǔ)資源挖掘方法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
3 劉菁菁;林鴻飛;;基于結(jié)構(gòu)和鏈接擴(kuò)展的中文網(wǎng)頁(yè)分類研究[A];2007年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2007年
4 張志強(qiáng);梁婷婷;謝曉芹;;一種基于用戶標(biāo)記的搜索結(jié)果排序算法[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
5 朱春江;陸宇e,
本文編號(hào):2004226
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2004226.html