天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

級聯(lián)式低消耗大規(guī)模網(wǎng)頁分類在線獲取方法

發(fā)布時間:2018-06-09 03:47

  本文選題:大規(guī)模網(wǎng)頁數(shù)據(jù)獲取 + 網(wǎng)頁分類 ; 參考:《計算機應(yīng)用》2017年04期


【摘要】:針對海量網(wǎng)頁在線自動高效獲取網(wǎng)頁分類系統(tǒng)設(shè)計中如何更有效地平衡準(zhǔn)確度與資源開銷之間的矛盾問題,提出一種基于級聯(lián)式分類器的網(wǎng)頁分類方法。該方法利用級聯(lián)策略,將在線與離線網(wǎng)頁分類方法結(jié)合,各取所長。級聯(lián)分類系統(tǒng)的一級分類采用在線分類方法,僅利用錨文本中網(wǎng)頁標(biāo)題包含的特征預(yù)測其分類,同時計算分類結(jié)果的置信度,分類結(jié)果的置信度由分類后驗概率分布的信息熵度量。若置信度高于閾值(該閾值采用多目標(biāo)粒子群優(yōu)化算法預(yù)先計算取得),則觸發(fā)二級分類器。二級分類器從下載的網(wǎng)頁正文中提取特征,利用預(yù)先基于網(wǎng)頁正文特征訓(xùn)練的分類器進(jìn)行離線分類。結(jié)果表明,相對于單獨的在線法和離線法,級聯(lián)分類系統(tǒng)的F1值分別提升了10.85%和4.57%,并且級聯(lián)分類系統(tǒng)的效率比在線法未降低很多(30%左右),而比離線法的效率提升了約70%。級聯(lián)式分類系統(tǒng)不僅具有更高的分類能力,而且顯著地減少了分類的計算開銷與帶寬消耗。
[Abstract]:Aiming at the problem of how to balance the contradiction between accuracy and resource cost more effectively in the design of online automatic and efficient web page classification system for massive web pages, a web page classification method based on cascade classifier is proposed. This method combines online and offline web page classification methods with concatenation strategy. The first level classification of cascaded classification system adopts online classification method. Only the features contained in the page title in anchor text are used to predict the classification, and the confidence degree of the classification result is calculated at the same time. The confidence of classification results is measured by the information entropy of the posteriori probability distribution. If the confidence level is higher than the threshold (the threshold is obtained by multi-objective particle swarm optimization algorithm in advance), the two-level classifier is triggered. The second level classifier extracts features from the downloaded text of a web page and uses a classifier based on the training of page text features to carry out offline classification. The results show that the F _ 1 value of the cascade classification system increases by 10.85% and 4.57% respectively compared with the single on-line method and offline method, and the efficiency of the cascade classification system is less than that of the on-line method by about 30%, and the efficiency of the cascade classification system is increased by about 70% compared with the offline method. The cascade classification system not only has a higher classification capability but also significantly reduces the computational overhead and bandwidth consumption of the classification.
【作者單位】: 成都信息工程大學(xué)軟件工程學(xué)院;廣東省氣象臺;
【基金】:國家自然科學(xué)基金資助項目(61501063,61501064) 四川省科技計劃項目(2016JY0240) 四川省教育廳科研基金資助項目(15ZB0177)~~
【分類號】:TP393.092

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 高波,張忠能,查志琴;基于文字鏈接比的網(wǎng)頁分類的研究[J];計算機工程與應(yīng)用;2004年27期

2 魯明羽;沈抖;郭崇慧;陸玉昌;;面向網(wǎng)頁分類的網(wǎng)頁摘要方法[J];電子學(xué)報;2006年08期

3 張茂元;鄒春燕;盧正鼎;;一種基于變調(diào)整學(xué)習(xí)規(guī)則的模糊網(wǎng)頁分類方法研究[J];計算機研究與發(fā)展;2007年01期

4 劉蓉;周建中;;一種網(wǎng)頁分類中基于圖的半指導(dǎo)學(xué)習(xí)算法[J];計算機應(yīng)用研究;2008年03期

5 肖靖;唐寧九;;網(wǎng)絡(luò)監(jiān)控系統(tǒng)中的實用網(wǎng)頁分類技術(shù)[J];軟件導(dǎo)刊;2009年01期

6 劉思含;賈美娟;;樹匹配算法在網(wǎng)頁分類中的應(yīng)用[J];電腦學(xué)習(xí);2010年04期

7 薛永大;;網(wǎng)頁分類技術(shù)研究綜述[J];電腦知識與技術(shù);2012年25期

8 黃科,馬少平;基于統(tǒng)計分詞的中文網(wǎng)頁分類[J];中文信息學(xué)報;2002年06期

9 孫建濤,沈抖,陸玉昌,石純一;網(wǎng)頁分類技術(shù)[J];清華大學(xué)學(xué)報(自然科學(xué)版);2004年01期

10 程傳鵬;;中文網(wǎng)頁分類的研究與實現(xiàn)[J];中原工學(xué)院學(xué)報;2007年01期

相關(guān)會議論文 前7條

1 李立宇;唐世渭;楊冬青;葉恒強;王騰蛟;;COMMIX-Classifier—自動網(wǎng)頁分類系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2002年

2 萬中英;王明文;廖海波;左家莉;;維數(shù)約簡在網(wǎng)頁分類中的應(yīng)用[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年

3 彭濤;左萬利;赫楓齡;張長利;;基于粒子群優(yōu)化算法的網(wǎng)頁分類技術(shù)[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2006年

4 劉艷民;;中文網(wǎng)頁分類方法的研究[A];2009年全國開放式分布與并行計算機學(xué)術(shù)會議論文集(下冊)[C];2009年

5 張迪;鄭德權(quán);趙鐵軍;于浩;;Blog網(wǎng)頁分類與識別技術(shù)研究[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年

6 張東娜;彭宏;吳鐵峰;;一種基于粗集與貝葉斯分類器的中文網(wǎng)頁分類方法[A];第一屆全國Web信息系統(tǒng)及其應(yīng)用會議(WISA2004)論文集[C];2004年

7 米曉芳;秦洋;王立宏;宋宜斌;;基于潛在語義差異的醫(yī)學(xué)網(wǎng)頁分類[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會通信與信息技術(shù)會議論文集(上冊)[C];2008年

相關(guān)碩士學(xué)位論文 前10條

1 周軍;中文網(wǎng)頁自動分類系統(tǒng)及關(guān)鍵技術(shù)研究與實現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2013年

2 王綿綿;基于MIMLRBF神經(jīng)網(wǎng)絡(luò)的網(wǎng)頁分類方法[D];中國石油大學(xué)(華東);2014年

3 王晶;面向通信管理的電子政務(wù)系統(tǒng)及其網(wǎng)頁分類的研究與實現(xiàn)[D];上海交通大學(xué);2009年

4 韓培培;網(wǎng)頁分類及存儲查詢系統(tǒng)的設(shè)計及實現(xiàn)[D];燕山大學(xué);2010年

5 張祥;一個網(wǎng)頁分類系統(tǒng)的研究與實現(xiàn)[D];北京郵電大學(xué);2013年

6 伍菲;面向主題型的網(wǎng)頁分類技術(shù)的研究與實現(xiàn)[D];華中科技大學(xué);2011年

7 段昕;基于視覺特征中文網(wǎng)頁分類方法的研究[D];山東大學(xué);2007年

8 汪雷;基于文本挖掘的網(wǎng)頁分類系統(tǒng)研究與實現(xiàn)[D];武漢理工大學(xué);2013年

9 許世明;中文網(wǎng)頁分類技術(shù)研究及預(yù)分類算法實現(xiàn)[D];西安電子科技大學(xué);2009年

10 劉康煒;基于支持向量機的網(wǎng)頁分類技術(shù)研究[D];中國石油大學(xué);2009年

,

本文編號:1998745

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1998745.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶982cd***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com