三種用于垃圾網(wǎng)頁檢測的隨機欠采樣集成分類器
本文選題:垃圾網(wǎng)頁檢測 + 不平衡分類; 參考:《計算機應(yīng)用》2017年02期
【摘要】:針對垃圾網(wǎng)頁檢測過程中輕微的不平衡分類問題,提出三種隨機欠采樣集成分類器算法,分別為一次不放回隨機欠采樣(RUS-once)、多次不放回隨機欠采樣(RUS-multiple)和有放回隨機欠采樣(RUS-replacement)算法。首先使用其中一種隨機欠采樣技術(shù)將訓(xùn)練樣本集轉(zhuǎn)換成平衡樣本集,然后對每個平衡樣本集使用分類回歸樹(CART)分類器算法進(jìn)行分類,最后采用簡單投票法構(gòu)建集成分類器對測試樣本進(jìn)行分類。實驗表明,三種隨機欠采樣集成分類器均取得了良好的分類效果,其中RUS-multiple和RUS-replacement比RUS-once的分類效果更好。與CART及其Bagging和Adaboost集成分類器相比,在WEBSPAM UK-2006數(shù)據(jù)集上,RUS-multiple和RUS-replacement方法的AUC指標(biāo)值提高了10%左右,在WEBSPAM UK-2007數(shù)據(jù)集上,提高了25%左右;與其他最優(yōu)研究結(jié)果相比,RUS-multiple和RUS-replacement方法在AUC指標(biāo)上能達(dá)到最優(yōu)分類結(jié)果。
[Abstract]:In order to solve the problem of slight unbalance classification in the process of garbage page detection, three kinds of random under-sampling ensemble classifier algorithms are proposed, which are single unretractable random under-sampling (RUS-onceg), multiple unretractable random under-sampling (RUS-multiple) and random under-sampling (RUS-replacementation) algorithm. Firstly, one of the random under-sampling techniques is used to transform the training sample set into a balanced sample set, and then each balanced sample set is classified by using the classifying regression tree / cart classifier algorithm. Finally, a simple voting method is used to construct an integrated classifier to classify test samples. The experimental results show that all of the three random under-sampling ensemble classifiers have good classification effect, and RUS-multiple and RUS-replacement have better classification effect than RUS-once. Compared with CART and its Bagging and Adaboost integrated classifiers, the AUC index value of RUS-multiple and RUS-replacement methods on WEBSPAM UK-2006 data sets is increased by about 10%, and on WEBSPAM UK-2007 data sets by about 25%. Compared with other optimal results, the RUS-multiple and RUS-replacement methods can achieve the optimal classification results on the AUC index.
【作者單位】: 南昌大學(xué)信息工程學(xué)院;南昌大學(xué)軟件學(xué)院;
【基金】:江西省科技支撐計劃項目(20131102040039)~~
【分類號】:TP393.092
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 盧曉勇;陳木生;吳政隆;張百棧;;基于免疫克隆特征選擇和欠采樣集成的垃圾網(wǎng)頁檢測[J];計算機應(yīng)用;2016年07期
2 盧曉勇;陳木生;;基于隨機森林和欠采樣集成的垃圾網(wǎng)頁檢測[J];計算機應(yīng)用;2016年03期
【共引文獻(xiàn)】
相關(guān)期刊論文 前3條
1 陳木生;盧曉勇;;三種用于垃圾網(wǎng)頁檢測的隨機欠采樣集成分類器[J];計算機應(yīng)用;2017年02期
2 張莉;孫麗娜;郭峰;;在線社會網(wǎng)絡(luò)中近似網(wǎng)頁識別方法研究[J];微電子學(xué)與計算機;2017年02期
3 盧曉勇;陳木生;吳政隆;張百棧;;基于免疫克隆特征選擇和欠采樣集成的垃圾網(wǎng)頁檢測[J];計算機應(yīng)用;2016年07期
【二級參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 盧曉勇;陳木生;;基于隨機森林和欠采樣集成的垃圾網(wǎng)頁檢測[J];計算機應(yīng)用;2016年03期
2 王莉麗;朱焱;馬永強;;基于樸素貝葉斯的偽裝型垃圾網(wǎng)頁檢測[J];計算機應(yīng)用;2013年S1期
3 房曉南;張化祥;高爽;;基于SMOTE和隨機森林的Web spam檢測[J];山東大學(xué)學(xué)報(工學(xué)版);2013年01期
4 林舒楊;李翠華;江弋;林琛;鄒權(quán);;不平衡數(shù)據(jù)的降采樣方法研究[J];計算機研究與發(fā)展;2011年S3期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 呂岳,施鵬飛,趙宇明;多分類器組合的投票表決規(guī)則[J];上海交通大學(xué)學(xué)報;2000年05期
2 韓宏;楊靜宇;;多分類器組合及其應(yīng)用[J];計算機科學(xué);2000年01期
3 陳剛,戚飛虎;多分類器結(jié)合的人臉識別[J];上海交通大學(xué)學(xué)報;2001年02期
4 韓宏,楊靜宇,婁震;基于層次的分類器組合[J];南京理工大學(xué)學(xué)報(自然科學(xué)版);2002年01期
5 趙誼虹,程國華,史習(xí)智;多分類器融合中一種新的加權(quán)算法[J];上海交通大學(xué)學(xué)報;2002年06期
6 王正群,葉暉,孫興華,楊靜宇;模糊多分類器組合[J];小型微型計算機系統(tǒng);2003年01期
7 楊利英,覃征,王向華;多分類器融合實現(xiàn)機型識別[J];計算機工程與應(yīng)用;2004年15期
8 楊利英,覃征,王衛(wèi)紅;多分類器融合系統(tǒng)設(shè)計與應(yīng)用[J];計算機工程;2005年05期
9 陳湘;;1-范數(shù)軟間隔分類器的風(fēng)險[J];湖北大學(xué)學(xué)報(自然科學(xué)版);2006年02期
10 秦鋒;楊波;程澤凱;;分類器性能評價標(biāo)準(zhǔn)研究[J];計算機技術(shù)與發(fā)展;2006年10期
相關(guān)會議論文 前10條
1 王占一;徐蔚然;劉東鑫;郭軍;;一種基于兩級分類器的垃圾短信過濾方法[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年
2 翟靜;李海宏;唐常杰;陳敏敏;李智;;可驗證對象集分類器的再訓(xùn)練演進(jìn)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2002年
3 陳繼航;劉家鋒;趙巍;唐降龍;;聯(lián)機手寫識別筆段特征分類器的學(xué)習(xí)方法[A];黑龍江省計算機學(xué)會2009年學(xué)術(shù)交流年會論文集[C];2010年
4 穆明生;;基于特征集的多種分類器模型的在線筆跡認(rèn)證[A];第十屆全國信號處理學(xué)術(shù)年會(CCSP-2001)論文集[C];2001年
5 彭濤;左萬利;赫楓齡;;基于鏈接上下文的分類器主題爬行技術(shù)(英文)[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2006年
6 王嵐;陳珂;遲惠生;;基于多特征組合多分類器的方法用于“與文本無關(guān)”的說話人辨認(rèn)[A];第四屆全國人機語音通訊學(xué)術(shù)會議論文集[C];1996年
7 謝秋玲;;應(yīng)用于心電圖分類的KNN-SVM分類器研究[A];2006中國控制與決策學(xué)術(shù)年會論文集[C];2006年
8 胡瓊;汪榮貴;胡韋偉;孫見青;;基于級聯(lián)分類器的快速人臉檢測方法[A];計算機技術(shù)與應(yīng)用進(jìn)展·2007——全國第18屆計算機技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會議論文集[C];2007年
9 李蘭春;王雙成;杜瑞杰;;認(rèn)知結(jié)構(gòu)評估的動態(tài)貝葉斯網(wǎng)絡(luò)分類器方法[A];2011年中國智能自動化學(xué)術(shù)會議論文集(第一分冊)[C];2011年
10 邵小健;段華;賀國平;;一種改進(jìn)的最少核分類器[A];中國運籌學(xué)會第七屆學(xué)術(shù)交流會論文集(上卷)[C];2004年
相關(guān)重要報紙文章 前1條
1 黃明;精子分類器決定生男生女[N];廣東科技報;2000年
相關(guān)博士學(xué)位論文 前10條
1 張非;對抗逃避攻擊的防守策略研究[D];華南理工大學(xué);2015年
2 張文博;多類別智能分類器方法研究[D];西安電子科技大學(xué);2014年
3 許勁松;智能交通中目標(biāo)檢測與分類關(guān)鍵技術(shù)研究[D];南京理工大學(xué);2014年
4 余家林;普通場景視頻人臉檢測與識別的關(guān)鍵技術(shù)研究[D];浙江大學(xué);2016年
5 趙作林;基于圖像分析的北京地區(qū)楊樹種類識別研究[D];北京林業(yè)大學(xué);2015年
6 任亞峰;基于標(biāo)注和未標(biāo)注數(shù)椐的虛假評論識別研究[D];武漢大學(xué);2015年
7 曹鵬;不均衡數(shù)據(jù)分類方法的研究[D];東北大學(xué);2014年
8 劉明;分類器組合技術(shù)研究及其在人機交互系統(tǒng)中的應(yīng)用[D];北京交通大學(xué);2008年
9 嚴(yán)志永;在劃分?jǐn)?shù)據(jù)空間的視角下基于決策邊界的分類器研究[D];浙江大學(xué);2011年
10 王U,
本文編號:1967502
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1967502.html