基于Bagging-SVM集成分類器的網(wǎng)頁作弊檢測
本文選題:網(wǎng)頁作弊 + 集成分類器 ; 參考:《計算機科學》2015年01期
【摘要】:網(wǎng)頁作弊不僅造成信息檢索質(zhì)量下降,而且給互聯(lián)網(wǎng)的安全也帶來了極大的挑戰(zhàn)。提出了一種基于Bagging-SVM集成分類器的網(wǎng)頁作弊檢測方法。在預處理階段,首先采用K-means方法解決數(shù)據(jù)集的不平衡問題,然后采用CFS特征選擇方法篩選出最優(yōu)特征子集,最后對特征子集進行信息熵離散化處理。在分類器訓練階段,通過Bagging方法構(gòu)建多個訓練集并分別對每個訓練集進行SVM學習來產(chǎn)生弱分類器。在檢測階段,通過多個弱分類器投票決定測試樣本所屬類別。在數(shù)據(jù)集WEBSPAM-UK2006上的實驗結(jié)果表明,在使用特征數(shù)量較少的情況下,本檢測方法可以獲得非常好的檢測效果。
[Abstract]:Web cheating not only leads to the deterioration of information retrieval quality, but also brings great challenges to the security of the Internet. This paper presents a method of web page cheating detection based on Bagging-SVM integrated classifier. In the preprocessing stage, K-means method is used to solve the unbalance problem of the data set, and then the CFS feature selection method is used to select the optimal feature subset. Finally, the information entropy discretization of the feature subset is carried out. In the stage of classifier training, several training sets are constructed by bagging method and each training set is trained by SVM to generate weak classifier. In the detection phase, multiple weak classifiers vote to determine the category of the test sample. The experimental results on the data set WEBSPAM-UK2006 show that this method can achieve a very good detection effect under the condition that the number of features is small.
【作者單位】: 西南交通大學信息科學與技術(shù)學院;
【基金】:四川省學術(shù)和技術(shù)帶頭人后備人選培養(yǎng)基金(X800912371309)資助
【分類號】:TP393.092
【相似文獻】
相關(guān)期刊論文 前10條
1 駱玉霞,陳煥偉;角度分類器與距離分類器比較研究——以鹽漬土分類為例[J];國土資源遙感;2002年02期
2 孫加慶;具有自學習功能的分類器的自動生成[J];計算機時代;2002年12期
3 潘翔,姚明海,陳國華;多分類器的一種動態(tài)聯(lián)合方法[J];計算機工程與應用;2002年12期
4 馬耀華,何瑗;Augmented Bayes分類器的一種學習方法[J];計算機工程與應用;2002年17期
5 王正群,孫興華,楊靜宇;多分類器組合研究[J];計算機工程與應用;2002年20期
6 馮彥杰,王浣塵;學習分類器在績效尋優(yōu)中的應用及其組織決策意義[J];控制理論與應用;2003年03期
7 唐春生,金以慧;基于全信息矩陣的多分類器集成方法[J];軟件學報;2003年06期
8 唐春生;金以慧;;權(quán)重自適應調(diào)整的多分類器集成判決及其在文本分類中的應用[J];計算機科學;2003年01期
9 劉寧鐘;楊靜宇;;基于遺傳算法的組合式分類器選擇[J];模式識別與人工智能;2003年03期
10 柏延臣,王勁峰;結(jié)合多分類器的遙感數(shù)據(jù)專題分類方法研究[J];遙感學報;2005年05期
相關(guān)會議論文 前10條
1 王占一;徐蔚然;劉東鑫;郭軍;;一種基于兩級分類器的垃圾短信過濾方法[A];第五屆全國信息檢索學術(shù)會議論文集[C];2009年
2 陳繼航;劉家鋒;趙巍;唐降龍;;聯(lián)機手寫識別筆段特征分類器的學習方法[A];黑龍江省計算機學會2009年學術(shù)交流年會論文集[C];2010年
3 翟靜;李海宏;唐常杰;陳敏敏;李智;;可驗證對象集分類器的再訓練演進[A];第十九屆全國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2002年
4 穆明生;;基于特征集的多種分類器模型的在線筆跡認證[A];第十屆全國信號處理學術(shù)年會(CCSP-2001)論文集[C];2001年
5 彭濤;左萬利;赫楓齡;;基于鏈接上下文的分類器主題爬行技術(shù)(英文)[A];第二十三屆中國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2006年
6 王嵐;陳珂;遲惠生;;基于多特征組合多分類器的方法用于“與文本無關(guān)”的說話人辨認[A];第四屆全國人機語音通訊學術(shù)會議論文集[C];1996年
7 謝秋玲;;應用于心電圖分類的KNN-SVM分類器研究[A];2006中國控制與決策學術(shù)年會論文集[C];2006年
8 胡瓊;汪榮貴;胡韋偉;孫見青;;基于級聯(lián)分類器的快速人臉檢測方法[A];計算機技術(shù)與應用進展·2007——全國第18屆計算機技術(shù)與應用(CACIS)學術(shù)會議論文集[C];2007年
9 李蘭春;王雙成;杜瑞杰;;認知結(jié)構(gòu)評估的動態(tài)貝葉斯網(wǎng)絡(luò)分類器方法[A];2011年中國智能自動化學術(shù)會議論文集(第一分冊)[C];2011年
10 邵小健;段華;賀國平;;一種改進的最少核分類器[A];中國運籌學會第七屆學術(shù)交流會論文集(上卷)[C];2004年
相關(guān)重要報紙文章 前1條
1 黃明;精子分類器決定生男生女[N];廣東科技報;2000年
相關(guān)博士學位論文 前10條
1 劉明;分類器組合技術(shù)研究及其在人機交互系統(tǒng)中的應用[D];北京交通大學;2008年
2 嚴志永;在劃分數(shù)據(jù)空間的視角下基于決策邊界的分類器研究[D];浙江大學;2011年
3 王U,
本文編號:2073009
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2073009.html