基于遺傳規(guī)劃集成學(xué)習(xí)的網(wǎng)絡(luò)作弊檢測
本文選題:網(wǎng)絡(luò)作弊 + 集成學(xué)習(xí) ; 參考:《中文信息學(xué)報》2012年05期
【摘要】:網(wǎng)絡(luò)作弊檢測是搜索引擎的重要挑戰(zhàn)之一,該文提出基于遺傳規(guī)劃的集成學(xué)習(xí)方法 (簡記為GPENL)來檢測網(wǎng)絡(luò)作弊。該方法首先通過欠抽樣技術(shù)從原訓(xùn)練集中抽樣得到t個不同的訓(xùn)練集;然后使用c個不同的分類算法對t個訓(xùn)練集進(jìn)行訓(xùn)練得到t*c個基分類器;最后利用遺傳規(guī)劃得到t*c個基分類器的集成方式。新方法不僅將欠抽樣技術(shù)和集成學(xué)習(xí)融合起來提高非平衡數(shù)據(jù)集的分類性能,還能方便地集成不同類型的基分類器。在WEBSPAM-UK2006數(shù)據(jù)集上所做的實驗表明無論是同態(tài)集成還是異態(tài)集成,GPENL均能提高分類的性能,且異態(tài)集成比同態(tài)集成更加有效;GPENL比AdaBoost、Bagging、RandomForest、多數(shù)投票集成、EDKC算法和基于Prediction Spamicity的方法取得更高的F-度量值。
[Abstract]:Online cheating detection is one of the most important challenges in search engines. This paper proposes an integrated learning method (GPENL) based on genetic programming to detect online cheating.In this method, firstly, t different training sets are sampled from the original training set by under-sampling technique, and then t / c basic classifiers are obtained by training t training sets with c different classification algorithms.Finally, genetic programming is used to get the ensemble method of TOC basis classifiers.The new method not only combines under-sampling and ensemble learning to improve the classification performance of unbalanced datasets, but also integrates different types of base-classifiers conveniently.Experiments on WEBSPAM-UK2006 datasets show that both homomorphism and heteromorphism can improve the classification performance.The heteromorphic ensemble is more effective than homomorphic integration than Ada boost Baggingling / RandomForest.Most vote integration / EDKC algorithm and the method based on Prediction Spamicity obtain higher F- metric value.
【作者單位】: 山東大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院;山東建筑大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院;清華大學(xué)計算機(jī)科學(xué)與技術(shù)系;
【基金】:國家自然科學(xué)基金資助項目(60970047,61103151,61173068) 山東省自然科學(xué)基金資助項目(Y2008G19) 山東省高等學(xué)校優(yōu)秀青年教師國內(nèi)訪問學(xué)者資助項目
【分類號】:TP18;TP391.3
【參考文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前1條
1 孫麗娜;集成異種分類器分類稀有類[D];鄭州大學(xué);2007年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 秦姣龍;王蔚;;Bagging組合的不平衡數(shù)據(jù)分類方法[J];計算機(jī)工程;2011年14期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相關(guān)會議論文 前1條
1 余慧佳;劉奕群;張敏;馬少平;茹立云;;基于目的分析的作弊頁面分類[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
相關(guān)博士學(xué)位論文 前1條
1 王林泓;熱釋電紅外信號特征分析及人體識別方法研究[D];重慶大學(xué);2010年
相關(guān)碩士學(xué)位論文 前2條
1 解曉敏;最小最大模塊化支持向量機(jī)數(shù)據(jù)劃分及其應(yīng)用研究[D];南京郵電大學(xué);2012年
2 寧延彬;集成學(xué)習(xí)方法在指紋識別中的應(yīng)用研究[D];山東大學(xué);2012年
,本文編號:1753716
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1753716.html