基于聚類欠采樣的集成不均衡數(shù)據(jù)分類算法
本文選題:不均衡數(shù)據(jù) 切入點:欠采樣 出處:《工程科學學報》2017年08期
【摘要】:傳統(tǒng)的分類算法大多假設(shè)數(shù)據(jù)集是均衡的,追求整體的分類精度.而實際數(shù)據(jù)集經(jīng)常是不均衡的,因此傳統(tǒng)的分類算法在處理實際數(shù)據(jù)集時容易導致少數(shù)類樣本有較高的分類錯誤率.現(xiàn)有針對不均衡數(shù)據(jù)集改進的分類方法主要有兩類:一類是進行數(shù)據(jù)層面的改進,用過采樣或欠采樣的方法增加少數(shù)類數(shù)據(jù)或減少多數(shù)類數(shù)據(jù);另一個是進行算法層面的改進.本文在原有的基于聚類的欠采樣方法和集成學習方法的基礎(chǔ)上,采用兩種方法相結(jié)合的思想,對不均衡數(shù)據(jù)進行分類.即先在數(shù)據(jù)處理階段采用基于聚類的欠采樣方法形成均衡數(shù)據(jù)集,然后用AdaBoost集成算法對新的數(shù)據(jù)集進行分類訓練,并在算法集成過程中引用權(quán)重來區(qū)分少數(shù)類數(shù)據(jù)和多數(shù)類數(shù)據(jù)對計算集成學習錯誤率的貢獻,進而使算法更關(guān)注少數(shù)數(shù)據(jù)類,提高少數(shù)類數(shù)據(jù)的分類精度.
[Abstract]:Most of the traditional classification algorithms assume that the data set is balanced and pursue the overall classification accuracy, but the actual data set is often unbalanced. Therefore, the traditional classification algorithm is easy to cause a high classification error rate of a few kinds of samples when dealing with actual data sets. There are two kinds of improved classification methods for unbalanced data sets: one is to improve the data level. The method of over-sampling or under-sampling is used to increase or reduce the number of classes of data, the other is to improve the algorithm level. Using the idea of combining two methods, the unbalanced data is classified, that is, in the stage of data processing, the method of under-sampling based on clustering is used to form the balanced data set, and then the new data set is classified and trained by AdaBoost integration algorithm. In the process of algorithm integration, the weight is used to distinguish the contribution of a few class data from the majority class data to calculate the learning error rate of integration, which makes the algorithm pay more attention to a few data classes and improve the classification accuracy of a few class data.
【作者單位】: 北京科技大學東凌經(jīng)濟管理學院;
【基金】:國家自然科學基金資助項目(71271027) 高等學校博士學科點專項科研基金資助項目(20120006110037)
【分類號】:TP311.13
【相似文獻】
相關(guān)期刊論文 前10條
1 方丁;王剛;;基于集成學習理論的文本情感分類[J];計算機系統(tǒng)應(yīng)用;2012年07期
2 陳華;魏連;鄭志嫻;許榕生;;基于集成學習的網(wǎng)絡(luò)取證模型[J];福建電腦;2007年10期
3 時雷;虎曉紅;席磊;段其國;;集成學習技術(shù)在農(nóng)業(yè)中的應(yīng)用[J];安徽農(nóng)業(yè)科學;2008年26期
4 周緒川;鐘勇;;集成學習分布式異常檢測方法[J];計算機工程與應(yīng)用;2011年18期
5 牛小飛;馬軍;馬少平;張冬梅;;基于遺傳規(guī)劃集成學習的網(wǎng)絡(luò)作弊檢測[J];中文信息學報;2012年05期
6 文益民;李健;杜飛明;陳方;;集成學習算法在不平衡分類中的應(yīng)用研究[J];計算技術(shù)與自動化;2009年02期
7 游生福;汪榮貴;戴經(jīng)成;張冬梅;;自適應(yīng)嵌套級聯(lián)的在線集成學習方法研究[J];計算機工程與應(yīng)用;2014年05期
8 孫建文;楊宗凱;劉三(女牙);王佩;;基于集成學習與遺傳算法的網(wǎng)絡(luò)書寫紋識別研究[J];計算機科學;2011年06期
9 孔英會;景美麗;;基于混淆矩陣和集成學習的分類方法研究[J];計算機工程與科學;2012年06期
10 文益民;王耀南;;基于訓練集平行分割的集成學習算法研究[J];小型微型計算機系統(tǒng);2009年05期
相關(guān)會議論文 前2條
1 劉伍穎;王挺;;一種多過濾器集成學習垃圾郵件過濾方法[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年
2 葉紅云;倪志偉;陳恩紅;;一種混合型集成學習演化決策樹算法[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年
相關(guān)博士學位論文 前4條
1 尹華;面向高維和不平衡數(shù)據(jù)分類的集成學習研究[D];武漢大學;2012年
2 方育柯;集成學習理論研究及其在個性化推薦中的應(yīng)用[D];電子科技大學;2011年
3 孫永宣;集成學習下的圖像分析關(guān)鍵問題研究[D];合肥工業(yè)大學;2013年
4 劉增榮;視聽覺情感語義相干及應(yīng)用研究[D];太原理工大學;2012年
相關(guān)碩士學位論文 前10條
1 高偉;基于半監(jiān)督集成學習的情感分類方法研究[D];蘇州大學;2015年
2 湯瑩;遷移與集成學習在文本分類中的應(yīng)用研究[D];江蘇科技大學;2015年
3 劉政;基于知識元和集成學習的中文微博情感分析[D];大連理工大學;2015年
4 丘橋云;結(jié)合文本傾向性分析的股評可信度計算研究[D];哈爾濱工業(yè)大學;2014年
5 李想;基于多示例的集成學習理論與應(yīng)用研究[D];合肥工業(yè)大學;2014年
6 李震宇;基于集成學習的數(shù)字圖像隱寫定量分析[D];解放軍信息工程大學;2014年
7 陳范曙;基于信息整合的藥物相關(guān)信息挖掘方法研究[D];華東師范大學;2016年
8 游攀利;基于集成SVM的文本分類方法研究[D];華中科技大學;2014年
9 陶杰;基于集成學習的短文本主客觀分類研究[D];安徽工業(yè)大學;2016年
10 徐燕會;基于神經(jīng)影像的進展型輕度認知功能障礙識別研究[D];安徽工業(yè)大學;2016年
,本文編號:1662030
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1662030.html