級(jí)聯(lián)式低消耗大規(guī)模網(wǎng)頁分類在線獲取方法
本文選題:大規(guī)模網(wǎng)頁數(shù)據(jù)獲取 + 網(wǎng)頁分類 ; 參考:《計(jì)算機(jī)應(yīng)用》2017年04期
【摘要】:針對(duì)海量網(wǎng)頁在線自動(dòng)高效獲取網(wǎng)頁分類系統(tǒng)設(shè)計(jì)中如何更有效地平衡準(zhǔn)確度與資源開銷之間的矛盾問題,提出一種基于級(jí)聯(lián)式分類器的網(wǎng)頁分類方法。該方法利用級(jí)聯(lián)策略,將在線與離線網(wǎng)頁分類方法結(jié)合,各取所長(zhǎng)。級(jí)聯(lián)分類系統(tǒng)的一級(jí)分類采用在線分類方法,僅利用錨文本中網(wǎng)頁標(biāo)題包含的特征預(yù)測(cè)其分類,同時(shí)計(jì)算分類結(jié)果的置信度,分類結(jié)果的置信度由分類后驗(yàn)概率分布的信息熵度量。若置信度高于閾值(該閾值采用多目標(biāo)粒子群優(yōu)化算法預(yù)先計(jì)算取得),則觸發(fā)二級(jí)分類器。二級(jí)分類器從下載的網(wǎng)頁正文中提取特征,利用預(yù)先基于網(wǎng)頁正文特征訓(xùn)練的分類器進(jìn)行離線分類。結(jié)果表明,相對(duì)于單獨(dú)的在線法和離線法,級(jí)聯(lián)分類系統(tǒng)的F1值分別提升了10.85%和4.57%,并且級(jí)聯(lián)分類系統(tǒng)的效率比在線法未降低很多(30%左右),而比離線法的效率提升了約70%。級(jí)聯(lián)式分類系統(tǒng)不僅具有更高的分類能力,而且顯著地減少了分類的計(jì)算開銷與帶寬消耗。
[Abstract]:Aiming at the problem of how to balance the contradiction between accuracy and resource cost more effectively in the design of online automatic and efficient web page classification system for massive web pages, a web page classification method based on cascade classifier is proposed. This method combines online and offline web page classification methods with concatenation strategy. The first level classification of cascaded classification system adopts online classification method. Only the features contained in the page title in anchor text are used to predict the classification, and the confidence degree of the classification result is calculated at the same time. The confidence of classification results is measured by the information entropy of the posteriori probability distribution. If the confidence level is higher than the threshold (the threshold is obtained by multi-objective particle swarm optimization algorithm in advance), the two-level classifier is triggered. The second level classifier extracts features from the downloaded text of a web page and uses a classifier based on the training of page text features to carry out offline classification. The results show that the F _ 1 value of the cascade classification system increases by 10.85% and 4.57% respectively compared with the single on-line method and offline method, and the efficiency of the cascade classification system is less than that of the on-line method by about 30%, and the efficiency of the cascade classification system is increased by about 70% compared with the offline method. The cascade classification system not only has a higher classification capability but also significantly reduces the computational overhead and bandwidth consumption of the classification.
【作者單位】: 成都信息工程大學(xué)軟件工程學(xué)院;廣東省氣象臺(tái);
【基金】:國(guó)家自然科學(xué)基金資助項(xiàng)目(61501063,61501064) 四川省科技計(jì)劃項(xiàng)目(2016JY0240) 四川省教育廳科研基金資助項(xiàng)目(15ZB0177)~~
【分類號(hào)】:TP393.092
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 高波,張忠能,查志琴;基于文字鏈接比的網(wǎng)頁分類的研究[J];計(jì)算機(jī)工程與應(yīng)用;2004年27期
2 魯明羽;沈抖;郭崇慧;陸玉昌;;面向網(wǎng)頁分類的網(wǎng)頁摘要方法[J];電子學(xué)報(bào);2006年08期
3 張茂元;鄒春燕;盧正鼎;;一種基于變調(diào)整學(xué)習(xí)規(guī)則的模糊網(wǎng)頁分類方法研究[J];計(jì)算機(jī)研究與發(fā)展;2007年01期
4 劉蓉;周建中;;一種網(wǎng)頁分類中基于圖的半指導(dǎo)學(xué)習(xí)算法[J];計(jì)算機(jī)應(yīng)用研究;2008年03期
5 肖靖;唐寧九;;網(wǎng)絡(luò)監(jiān)控系統(tǒng)中的實(shí)用網(wǎng)頁分類技術(shù)[J];軟件導(dǎo)刊;2009年01期
6 劉思含;賈美娟;;樹匹配算法在網(wǎng)頁分類中的應(yīng)用[J];電腦學(xué)習(xí);2010年04期
7 薛永大;;網(wǎng)頁分類技術(shù)研究綜述[J];電腦知識(shí)與技術(shù);2012年25期
8 黃科,馬少平;基于統(tǒng)計(jì)分詞的中文網(wǎng)頁分類[J];中文信息學(xué)報(bào);2002年06期
9 孫建濤,沈抖,陸玉昌,石純一;網(wǎng)頁分類技術(shù)[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年01期
10 程傳鵬;;中文網(wǎng)頁分類的研究與實(shí)現(xiàn)[J];中原工學(xué)院學(xué)報(bào);2007年01期
相關(guān)會(huì)議論文 前7條
1 李立宇;唐世渭;楊冬青;葉恒強(qiáng);王騰蛟;;COMMIX-Classifier—自動(dòng)網(wǎng)頁分類系統(tǒng)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
2 萬中英;王明文;廖海波;左家莉;;維數(shù)約簡(jiǎn)在網(wǎng)頁分類中的應(yīng)用[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
3 彭濤;左萬利;赫楓齡;張長(zhǎng)利;;基于粒子群優(yōu)化算法的網(wǎng)頁分類技術(shù)[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2006年
4 劉艷民;;中文網(wǎng)頁分類方法的研究[A];2009年全國(guó)開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2009年
5 張迪;鄭德權(quán);趙鐵軍;于浩;;Blog網(wǎng)頁分類與識(shí)別技術(shù)研究[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(上冊(cè))[C];2007年
6 張東娜;彭宏;吳鐵峰;;一種基于粗集與貝葉斯分類器的中文網(wǎng)頁分類方法[A];第一屆全國(guó)Web信息系統(tǒng)及其應(yīng)用會(huì)議(WISA2004)論文集[C];2004年
7 米曉芳;秦洋;王立宏;宋宜斌;;基于潛在語義差異的醫(yī)學(xué)網(wǎng)頁分類[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)會(huì)議論文集(上冊(cè))[C];2008年
相關(guān)碩士學(xué)位論文 前10條
1 周軍;中文網(wǎng)頁自動(dòng)分類系統(tǒng)及關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2013年
2 王綿綿;基于MIMLRBF神經(jīng)網(wǎng)絡(luò)的網(wǎng)頁分類方法[D];中國(guó)石油大學(xué)(華東);2014年
3 王晶;面向通信管理的電子政務(wù)系統(tǒng)及其網(wǎng)頁分類的研究與實(shí)現(xiàn)[D];上海交通大學(xué);2009年
4 韓培培;網(wǎng)頁分類及存儲(chǔ)查詢系統(tǒng)的設(shè)計(jì)及實(shí)現(xiàn)[D];燕山大學(xué);2010年
5 張祥;一個(gè)網(wǎng)頁分類系統(tǒng)的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2013年
6 伍菲;面向主題型的網(wǎng)頁分類技術(shù)的研究與實(shí)現(xiàn)[D];華中科技大學(xué);2011年
7 段昕;基于視覺特征中文網(wǎng)頁分類方法的研究[D];山東大學(xué);2007年
8 汪雷;基于文本挖掘的網(wǎng)頁分類系統(tǒng)研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2013年
9 許世明;中文網(wǎng)頁分類技術(shù)研究及預(yù)分類算法實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年
10 劉康煒;基于支持向量機(jī)的網(wǎng)頁分類技術(shù)研究[D];中國(guó)石油大學(xué);2009年
,本文編號(hào):1998745
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1998745.html