基于塊密度加權(quán)標(biāo)簽路徑特征的Web新聞在線抽取
本文關(guān)鍵詞: 內(nèi)容抽取 Web新聞 文本塊密度 標(biāo)簽路徑特征 在線算法 出處:《中國科學(xué):信息科學(xué)》2017年08期 論文類型:期刊論文
【摘要】:Web新聞內(nèi)容抽取是眾多"大數(shù)據(jù)"和"大知識(shí)"應(yīng)用的基礎(chǔ),也是一個(gè)開放性問題.標(biāo)簽路徑特征和文本塊密度特征是目前解決該問題的兩類優(yōu)良特征.標(biāo)簽路徑特征能較好地區(qū)分全網(wǎng)頁的內(nèi)容與噪聲,但難以識(shí)別內(nèi)容塊中的噪聲和噪聲塊中的內(nèi)容;文本塊密度特征能較好地識(shí)別高密度的內(nèi)容塊,但魯棒性不足.因此,本文提出了一種可有效結(jié)合標(biāo)簽路徑特征和文本塊密度特征的Web信息抽取模型CEDP,結(jié)合兩種特征的優(yōu)點(diǎn),設(shè)計(jì)了一種基于文本塊密度加權(quán)的標(biāo)簽路徑特征,并設(shè)計(jì)了基于該特征的Web新聞抽取算法CEDP-NLTD.CEDP-NLTD是一種快速的、通用的、無需訓(xùn)練的在線Web新聞內(nèi)容抽取算法,適用于Web大數(shù)據(jù)環(huán)境下的多種來源、多種風(fēng)格、多種語言的異構(gòu)Web新聞網(wǎng)頁抽取任務(wù).在Clean Eval等測(cè)試數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,CEDP-NLTD方法優(yōu)于CETR,CETD,CEPR,CEPF等在線抽取方法,且優(yōu)于基于CEDP模型直接使用CETD方法設(shè)計(jì)的3種塊密度特征所形成的算法CEDP-TD,CEDP-CTD,CEDP-DSum.
[Abstract]:Web news content extraction is the basis of many "big data" and "big knowledge" applications. Label path feature and text block density feature are two kinds of excellent features to solve the problem. Label path feature can better distinguish the content and noise of the whole web page. However, it is difficult to identify the noise in the content block and the content in the noise block. The text block density feature can identify the high density content block well, but the robustness is insufficient. This paper presents a Web information extraction model which can effectively combine tag path features and text block density features, and combines the advantages of the two features. A label path feature weighted by text block density is designed, and a Web news extraction algorithm named CEDP-NLTD.CEDP-NLTD is designed based on this feature. The online Web news content extraction algorithm, which is general-purpose and untrained, is suitable for multiple sources and styles in the Web big data environment. The experiment results on Clean Eval and other test datasets show that CEDP-NLTD is superior to CET / CETD. The method of on-line extraction is superior to the algorithm CEDP-TD, which is based on the three block density features designed by using the CETD method directly based on the CEDP model. CEDP-CTD.CEDP-DSum.
【作者單位】: 合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院;
【基金】:國家重點(diǎn)研發(fā)計(jì)劃(批準(zhǔn)號(hào):2016YFB1000901) 教育部創(chuàng)新團(tuán)隊(duì)發(fā)展計(jì)劃(批準(zhǔn)號(hào):IRT13059) 國家自然科學(xué)基金(批準(zhǔn)號(hào):612-73297,61673152) 國家留學(xué)基金(批準(zhǔn)號(hào):201506695019)資助項(xiàng)目
【分類號(hào)】:TP391.1;TP393.09
【正文快照】: 1引言Web新聞是一種重要的互聯(lián)網(wǎng)大數(shù)據(jù)源.根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)2016年7月發(fā)布的第38次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[1],3大基礎(chǔ)互聯(lián)網(wǎng)應(yīng)用(即時(shí)通信、搜索引擎、網(wǎng)絡(luò)新聞)的用戶規(guī)模保持穩(wěn)健增長;在2015.12~2016.6期間,網(wǎng)絡(luò)新聞在中國網(wǎng)民各類互聯(lián)網(wǎng)應(yīng)用中
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李廣洲,丁金芳,鄧海山;基于Web的化學(xué)計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)系統(tǒng)的實(shí)現(xiàn)[J];計(jì)算機(jī)與應(yīng)用化學(xué);2002年05期
2 趙松林;基于Web服務(wù)的企業(yè)應(yīng)用集成[J];微型機(jī)與應(yīng)用;2003年08期
3 宋平;;基于Web服務(wù)的企業(yè)應(yīng)用集成[J];福建電腦;2007年10期
4 彭玉華;;基于Web的學(xué)生信息管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];民營科技;2010年09期
5 ;借會(huì)獻(xiàn)技——國際軟件博覽會(huì)中心議題web計(jì)算及應(yīng)用[J];每周電腦報(bào);1997年43期
6 向劍鋒;;基于Web的企業(yè)信息管理系統(tǒng)安全方案[J];信息與電腦(理論版);2013年11期
7 張彩虹;;分布式虛擬現(xiàn)實(shí)系統(tǒng)Web服務(wù)器的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2014年05期
8 黃建德;黃其標(biāo);;基于WEB的學(xué)生信息管理系統(tǒng)的研究與構(gòu)建[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2014年02期
9 黃廷輝,朱英;一種基于WEB的車輛調(diào)度管理系統(tǒng)[J];桂林電子工業(yè)學(xué)院學(xué)報(bào);2000年03期
10 李陶深,劉波,楊柳,嚴(yán)毅;基于Web的多媒體檔案管理信息系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];廣西科學(xué)院學(xué)報(bào);2000年S1期
相關(guān)會(huì)議論文 前10條
1 王衛(wèi);;基于Web的數(shù)據(jù)庫應(yīng)用[A];第十八屆中國(天津)’2004IT、網(wǎng)絡(luò)、信息技術(shù)、電子、儀器儀表創(chuàng)新學(xué)術(shù)會(huì)議論文集[C];2004年
2 張默;廖湖聲;杜金蓮;;基于Web服務(wù)的開放式地理信息系統(tǒng)的研究[A];2006年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(三)[C];2006年
3 鄭菊艷;續(xù)愛民;;基于WEB模式的科研項(xiàng)目管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];第十四屆中國科協(xié)年會(huì)第5分會(huì)場(chǎng):綠色船舶與海洋裝備創(chuàng)新發(fā)展及產(chǎn)業(yè)化論壇論文集[C];2012年
4 鄭菊艷;續(xù)愛民;;基于WEB模式的科研項(xiàng)目管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2012年MIS/S&A學(xué)術(shù)交流會(huì)議論文集[C];2012年
5 于莉莉;張毅;;基于Web的人力資源管理系統(tǒng)研究與設(shè)計(jì)[A];2008全國制造業(yè)信息化標(biāo)準(zhǔn)化論壇論文集[C];2008年
6 劉穎;;基于Web的學(xué)生信息管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2008年計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)論文集[C];2008年
7 粟智;;基于Web技術(shù)下的分析實(shí)驗(yàn)室計(jì)算機(jī)網(wǎng)絡(luò)管理系統(tǒng)的開發(fā)與設(shè)計(jì)[A];2003年藥物分析論壇“熱分析在藥物分析中的應(yīng)用”專題學(xué)術(shù)研討會(huì)論文集[C];2003年
8 胡新平;董建成;;基于Web的遠(yuǎn)程醫(yī)療會(huì)診系統(tǒng)[A];中華醫(yī)學(xué)會(huì)第十次全國醫(yī)學(xué)信息學(xué)術(shù)會(huì)議論文匯編[C];2004年
9 徐建新;錢建彬;;Web在線編輯在建設(shè)用地管理中的應(yīng)用[A];江蘇省測(cè)繪學(xué)會(huì)2007年學(xué)術(shù)年會(huì)論文集[C];2008年
10 唐權(quán);吳勤書;;基于web用戶基礎(chǔ)地理數(shù)據(jù)庫更新技術(shù)研究[A];江蘇省測(cè)繪學(xué)會(huì)2011年學(xué)術(shù)年會(huì)論文集[C];2011年
相關(guān)重要報(bào)紙文章 前10條
1 王雅麗;博客社區(qū)齊上陣 銀行借Web 2.0拉攏未來客戶[N];中國計(jì)算機(jī)報(bào);2008年
2 本報(bào)記者 黃智軍;Web應(yīng)用呼喚新型安全系統(tǒng)[N];計(jì)算機(jī)世界;2009年
3 本報(bào)記者 徐恒;手機(jī)瀏覽器:競(jìng)爭(zhēng)不斷加劇 Web大勢(shì)所趨[N];中國電子報(bào);2009年
4 訊源;企業(yè)引入Web 2.0的5項(xiàng)忠告[N];計(jì)算機(jī)世界;2007年
5 迅源;企業(yè)為何害怕Web 2.0?[N];計(jì)算機(jī)世界;2007年
6 河南省文物考古研究所 北京大學(xué)考古文博學(xué)院 張�!》窖嗝�;以WEB和3S技術(shù)為支持的南水北調(diào)禹州段考古區(qū)域系統(tǒng)調(diào)查取得初步成果[N];中國文物報(bào);2012年
7 王磊;如何通過Web 2.0贏取客戶[N];中國計(jì)算機(jī)報(bào);2008年
8 于翔;Web應(yīng)用安全任重道遠(yuǎn)[N];網(wǎng)絡(luò)世界;2008年
9 趙海軍;Web服務(wù) 電子商務(wù)新起點(diǎn)[N];中國計(jì)算機(jī)報(bào);2002年
10 三木邋編譯;檢測(cè)Web應(yīng)用漏洞需新工具[N];計(jì)算機(jī)世界;2008年
相關(guān)博士學(xué)位論文 前8條
1 黃治虎;基于網(wǎng)頁信息和圖像特征的Web圖像檢索研究[D];重慶大學(xué);2015年
2 張璞;Web評(píng)論文本情感分類方法研究[D];重慶大學(xué);2015年
3 劉維東;Web短文本知識(shí)關(guān)聯(lián)模型及其語義連貫計(jì)算方法[D];上海大學(xué);2016年
4 孫慧峰;基于協(xié)同過濾的個(gè)性化Web推薦[D];北京郵電大學(xué);2012年
5 何儒漢;Web圖像的多模融合檢索研究[D];華中科技大學(xué);2007年
6 孫濤;面向市場(chǎng)情報(bào)分析的Web實(shí)體事件融合問題研究[D];山東大學(xué);2014年
7 許洪波;大規(guī)模信息過濾技術(shù)研究及其在Web問答系統(tǒng)中的應(yīng)用[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2003年
8 韓志剛;地理超媒體數(shù)據(jù)模型及Web服務(wù)研究[D];河南大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 張銳;基于Web技術(shù)下的出差管理系統(tǒng)[D];西安工業(yè)大學(xué);2015年
2 游維;基于Rest的Web業(yè)務(wù)系統(tǒng)日志采集與分析系統(tǒng)的研究與開發(fā)[D];山東大學(xué);2015年
3 陶瑩昌;基于Web的校園二手圖書拍賣平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];西華師范大學(xué);2015年
4 周贏;基于WEB的績效管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2015年
5 吳朝云;基于eyeOS的Web操作系統(tǒng)云存儲(chǔ)研究[D];電子科技大學(xué);2014年
6 林嵐;基于WEB的單位工資管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
7 武志國;基于Web的人力資源管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
8 王雁;基于WEB的三維動(dòng)畫素材管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2013年
9 張靈鈺;基于web平臺(tái)的高校學(xué)生工作管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2013年
10 馮庚;基于WEB的智能油庫信息管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
,本文編號(hào):1479607
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1479607.html