基于SMOTEBoosting和多種分類算法的不平衡數(shù)據(jù)分類問題改進情況的對照分析
發(fā)布時間:2020-06-29 07:54
【摘要】:伴隨著數(shù)據(jù)收集技術(shù)和互聯(lián)網(wǎng)科技的不斷進步,欺詐交易檢測、網(wǎng)絡(luò)入侵檢測、web挖掘、直接營銷和醫(yī)學診斷等領(lǐng)域顯現(xiàn)出越來越多的不平衡數(shù)據(jù)分類問題亟待解決。在本文中,我們著重關(guān)注不同分類算法對不平衡數(shù)據(jù)分類問題的改進情況。針對不平衡數(shù)據(jù),在總結(jié)以往給訓(xùn)練樣本分配不同權(quán)重和對原始數(shù)據(jù)重復(fù)采樣的兩種傳統(tǒng)方法的基礎(chǔ)上,引入2002年Chawla等人提出的模擬少數(shù)樣本過抽樣算法(SMOTE)及2009年Shengguo Hu等人針對SMOTE提出的改進形式(MSMOTE),以此來對數(shù)據(jù)類別的平衡性進行預(yù)處理;其次選取代表性的分類算法引入Boosting循環(huán),通過增加錯分樣本再次被抽取的權(quán)重的方式來提高少數(shù)類樣本分類的準確度,并將SMOTEBoosting模型應(yīng)用于財務(wù)預(yù)警領(lǐng)域。文中涉及的分類算法從經(jīng)典的Logistic回歸、線性判別分析等傳統(tǒng)統(tǒng)計模型延伸到機器學習領(lǐng)域的決策樹、K近鄰以及近些年新興的并且備受各界關(guān)注的支持向量機和神經(jīng)網(wǎng)絡(luò)等算法模型。在模型的對比和評價方面,由于不平衡數(shù)據(jù)集中多數(shù)類數(shù)據(jù)的數(shù)量明顯高于少數(shù)類,即使分類器把全部樣本都標記為多數(shù)類也會實現(xiàn)很高的精度,因而使用通常的預(yù)測精度這一評價指標并不合適。本文引入針對少數(shù)類分類的評價指標:精確率、召回率、F得分以及ROC曲線和AUC數(shù)值,對不同分類模型針對不同數(shù)據(jù)集的分類表現(xiàn)情況進行多角度的對照分析。
【學位授予單位】:廈門大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:O212.1;TP181
【圖文】:
es2:Pinla教據(jù)荃于線性判別分析的翎OTE和公洲OTE實驗結(jié)果
邐基于SMOTEBoosting和多種分類算法的不平衡數(shù)據(jù)分類問題改進情況的對照分析邐逡逑圖4-2-7:邋pima數(shù)據(jù)基于線性判別分析的SMOTEBoosting和MSMOTEBoosting實驗結(jié)果逡逑LDA-SMOTEBoosting邋of邋pima邐LDA-MSMOTEBoosting邋of邋pima逡逑
本文編號:2733622
【學位授予單位】:廈門大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:O212.1;TP181
【圖文】:
es2:Pinla教據(jù)荃于線性判別分析的翎OTE和公洲OTE實驗結(jié)果
邐基于SMOTEBoosting和多種分類算法的不平衡數(shù)據(jù)分類問題改進情況的對照分析邐逡逑圖4-2-7:邋pima數(shù)據(jù)基于線性判別分析的SMOTEBoosting和MSMOTEBoosting實驗結(jié)果逡逑LDA-SMOTEBoosting邋of邋pima邐LDA-MSMOTEBoosting邋of邋pima逡逑
【參考文獻】
相關(guān)期刊論文 前2條
1 鄭淑娟;劉遵雄;黃志強;;最小最大概率分類的財務(wù)預(yù)警模型[J];統(tǒng)計與決策;2013年06期
2 董樂紅;耿國華;高原;;Boosting算法綜述[J];計算機應(yīng)用與軟件;2006年08期
本文編號:2733622
本文鏈接:http://sikaile.net/kejilunwen/yysx/2733622.html
最近更新
教材專著