基于標(biāo)簽路徑特征融合的在線Web新聞內(nèi)容抽取
本文關(guān)鍵詞:基于標(biāo)簽路徑特征融合的在線Web新聞內(nèi)容抽取 出處:《軟件學(xué)報(bào)》2016年03期 論文類型:期刊論文
更多相關(guān)文章: 內(nèi)容抽取 Web新聞 標(biāo)簽路徑特征 組合特征選擇 特征融合
【摘要】:精準(zhǔn)地抽取新聞網(wǎng)頁的內(nèi)容,是提高Web新聞分析等應(yīng)用系統(tǒng)工作質(zhì)量的關(guān)鍵技術(shù)之一.由于缺少Web新聞出版的標(biāo)準(zhǔn),存在大量不同的出版格式,并且Web本身是一種具有高度異構(gòu)性的大數(shù)據(jù)載體,導(dǎo)致Web新聞內(nèi)容抽取成為一個(gè)開放性問題.經(jīng)大量實(shí)例分析發(fā)現(xiàn),新聞網(wǎng)頁內(nèi)容與其上的標(biāo)簽路徑存在潛在的關(guān)聯(lián)性.因此,設(shè)計(jì)了標(biāo)簽路徑特征系,以從不同視角區(qū)分網(wǎng)頁內(nèi)容和噪音.在特征相似性分析的基礎(chǔ)上,提出了一種基于組合特征選擇的特征融合策略,并設(shè)計(jì)了基于融合特征的Web新聞內(nèi)容抽取方法 CEPF.CEPF是一種快速的通用、無需訓(xùn)練的在線Web新聞內(nèi)容抽取算法,可抽取多種來源、多種風(fēng)格、多種語言的Web新聞網(wǎng)頁.在Clean Eval等測試數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,CEPF方法優(yōu)于CETR等抽取方法.
[Abstract]:Precisely extracting the content of news pages is one of the key technologies to improve the quality of Web news analysis and other application systems. Due to the lack of Web publication standards, there are a large number of different publishing formats. And Web itself is a highly heterogeneous big data carrier, leading to Web news content extraction into an open problem. There is a potential correlation between the content of the news page and the tagging path on it. Therefore, a label path feature system is designed to distinguish the content and noise from different perspectives. Based on the similarity analysis of features. This paper proposes a feature fusion strategy based on combined feature selection, and designs a Web news content extraction method, CEPF.CEPF, which is a fast and universal method. The online Web news content extraction algorithm without training can extract a variety of sources and styles. The experimental results on the test data set of Clean Eval show that the proposed method is superior to the CETR extraction method.
【作者單位】: 合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院;Department
【基金】:國家自然科學(xué)基金(61273297,61229301,61273292) 教育部創(chuàng)新團(tuán)隊(duì)發(fā)展計(jì)劃(IRT13059) 國家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(973)(2013CB329604) 國家高技術(shù)研究發(fā)展計(jì)劃(863)(2012AA011005)~~
【分類號(hào)】:TP391.1
【正文快照】: 互聯(lián)網(wǎng)是大數(shù)據(jù)的一個(gè)重要載體.《2013互聯(lián)網(wǎng)趨勢報(bào)告》(2013 Internet trends)(http://www.kpcb.com/insights/2013-internet-trends)指出,互聯(lián)網(wǎng)用戶數(shù)量激增,2012年,全球互聯(lián)網(wǎng)用戶達(dá)24億,同比增長8%.《2014互聯(lián)網(wǎng)趨勢報(bào)告》(2014 Internet trends)(http://www.kpcb.com/in
【共引文獻(xiàn)】
相關(guān)期刊論文 前2條
1 王軍;;Web信息抽取技術(shù)簡述[J];河南科技;2013年19期
2 章武媚;;基于RESTful Web技術(shù)的資源管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用與軟件;2014年05期
相關(guān)博士學(xué)位論文 前2條
1 程文娟;基于文本挖掘的定向性信息分析研究[D];合肥工業(yè)大學(xué);2012年
2 吳共慶;基于標(biāo)簽路徑特征的Web新聞內(nèi)容抽取研究[D];合肥工業(yè)大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 周林云;Web信息采集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];西南交通大學(xué);2013年
2 王楠;基于標(biāo)點(diǎn)符號(hào)統(tǒng)計(jì)特征的中文類型網(wǎng)頁正文抽取[D];湘潭大學(xué);2012年
3 黃錦捷;基于Solr的企業(yè)級(jí)檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華南理工大學(xué);2013年
4 杜寶瑞;基于Hadoop的OA期刊論文資源發(fā)現(xiàn)及采集方法[D];燕山大學(xué);2013年
5 王超;基于本體的旱區(qū)農(nóng)業(yè)垂直搜索引擎研究[D];西北農(nóng)林科技大學(xué);2013年
6 肖紅;農(nóng)業(yè)科技信息服務(wù)個(gè)性化推送模型與系統(tǒng)[D];西北農(nóng)林科技大學(xué);2013年
7 丁喬毅;Web信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2012年
8 鄭邦習(xí);基于XML的Web信息抽取技術(shù)研究[D];大連交通大學(xué);2013年
9 楊帆;基于樹自動(dòng)機(jī)的Web信息抽取[D];華東交通大學(xué);2013年
10 李文圃;Web信息抽取算法研究及其農(nóng)業(yè)應(yīng)用[D];湖南農(nóng)業(yè)大學(xué);2013年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 周斌;林喜榮;賈惠波;周永冠;;量化層多生物特征融合的最佳權(quán)值[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年02期
2 丁寶亮;;基于局部特征融合的人臉識(shí)別研究[J];中國新技術(shù)新產(chǎn)品;2012年14期
3 劉增榮;余雪麗;李志;;基于特征融合的圖像情感語義識(shí)別研究[J];太原理工大學(xué)學(xué)報(bào);2012年05期
4 黃雙萍;俞龍;衛(wèi)曉欣;;一種異質(zhì)特征融合分類算法[J];電子技術(shù)與軟件工程;2013年02期
5 劉冰;羅熊;劉華平;孫富春;;光學(xué)與深度特征融合在機(jī)器人場景定位中的應(yīng)用[J];東南大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年S1期
6 卞志國;金立左;費(fèi)樹岷;;特征融合與視覺目標(biāo)跟蹤[J];計(jì)算機(jī)應(yīng)用研究;2010年04期
7 韓萍;徐建龍;吳仁彪;;一種新的目標(biāo)跟蹤特征融合方法[J];中國民航大學(xué)學(xué)報(bào);2010年04期
8 何賢江;何維維;左航;;一種句詞五特征融合模型的復(fù)述研究[J];四川大學(xué)學(xué)報(bào)(工程科學(xué)版);2012年06期
9 劉冬梅;;基于特征融合的人臉識(shí)別[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2013年12期
10 李建科;張輝;趙保軍;張長水;;彩色分量流形特征融合的人臉識(shí)別[J];北京理工大學(xué)學(xué)報(bào);2014年05期
相關(guān)會(huì)議論文 前7條
1 劉冰;羅熊;劉華平;孫富春;;光學(xué)與深度特征融合在機(jī)器人場景定位中的應(yīng)用[A];2013年中國智能自動(dòng)化學(xué)術(shù)會(huì)議論文集(第三分冊)[C];2013年
2 翟懿奎;甘俊英;曾軍英;;基于特征融合與支持向量機(jī)的偽裝人臉識(shí)別[A];第六屆全國信號(hào)和智能信息處理與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2012年
3 卞志國;金立左;費(fèi)樹岷;;基于增量判別分析的特征融合與視覺目標(biāo)跟蹤[A];2009年中國智能自動(dòng)化會(huì)議論文集(第三分冊)[C];2009年
4 韓文靜;李海峰;韓紀(jì)慶;;基于長短時(shí)特征融合的語音情感識(shí)別方法研究[A];第九屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];2007年
5 羅昕煒;方世良;;寬帶調(diào)制信號(hào)特征融合方法[A];中國聲學(xué)學(xué)會(huì)水聲學(xué)分會(huì)2013年全國水聲學(xué)學(xué)術(shù)會(huì)議論文集[C];2013年
6 金挺;周付根;白相志;;一種簡單有效的特征融合粒子濾波跟蹤算法[A];2007年光電探測與制導(dǎo)技術(shù)的發(fā)展與應(yīng)用研討會(huì)論文集[C];2007年
7 孟凡潔;孔祥維;尤新剛;;基于特征融合的相機(jī)來源認(rèn)證方法[A];全國第一屆信號(hào)處理學(xué)術(shù)會(huì)議暨中國高科技產(chǎn)業(yè)化研究會(huì)信號(hào)處理分會(huì)籌備工作委員會(huì)第三次工作會(huì)議?痆C];2007年
相關(guān)博士學(xué)位論文 前10條
1 周斌;多生物特征融合理論的研究與實(shí)驗(yàn)[D];清華大學(xué);2007年
2 彭偉民;特征數(shù)據(jù)的量子表示與融合方法[D];華南理工大學(xué);2013年
3 陳倩;多生物特征融合身份識(shí)別研究[D];浙江大學(xué);2007年
4 蒲曉蓉;多模態(tài)生物特征融合的神經(jīng)網(wǎng)絡(luò)方法[D];電子科技大學(xué);2007年
5 王志芳;基于感知信息的多模態(tài)生物特征融合技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年
6 王楠;基于多視覺特征融合的后方車輛檢測技術(shù)研究[D];東北大學(xué) ;2009年
7 徐穎;基于特征融合與仿生模式的生物特征識(shí)別研究[D];華南理工大學(xué);2013年
8 樊國梁;基于多類特征融合的蛋白質(zhì)亞線粒體定位預(yù)測研究[D];內(nèi)蒙古大學(xué);2013年
9 劉金梅;多源遙感影像融合及其應(yīng)用研究[D];中國海洋大學(xué);2014年
10 張艷;基于柔性陣列 傳感器的足跡特征分析與應(yīng)用研究[D];安徽大學(xué);2015年
相關(guān)碩士學(xué)位論文 前10條
1 付艷紅;基于特征融合的人臉識(shí)別算法研究與實(shí)現(xiàn)[D];天津理工大學(xué);2015年
2 許超;基于特征融合與壓縮感知的實(shí)木地板缺陷檢測方法研究[D];東北林業(yè)大學(xué);2015年
3 楊文婷;基于微博的情感分析算法研究與實(shí)現(xiàn)[D];西南交通大學(xué);2015年
4 梅尚健;基于特征融合的圖像檢索研究與實(shí)現(xiàn)[D];西南交通大學(xué);2015年
5 王鵬飛;基于多慢特征融合的人體行為識(shí)別研究[D];西南大學(xué);2015年
6 丁倩;基于語音信息的多特征情緒識(shí)別算法研究[D];山東大學(xué);2015年
7 薛冰霞;基于多模特征融合的人體跌倒檢測算法研究[D];山東大學(xué);2015年
8 何樂樂;醫(yī)學(xué)圖像分類中的特征融合與特征學(xué)習(xí)研究[D];電子科技大學(xué);2015年
9 戴博;基于結(jié)構(gòu)復(fù)雜度特征融合的視覺注意模型研究及其應(yīng)用[D];復(fù)旦大學(xué);2014年
10 王寧;基于特征融合的人臉識(shí)別算法[D];東北大學(xué);2013年
,本文編號(hào):1395715
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1395715.html