基于混合采樣的非平衡數(shù)據(jù)分類算法研究
發(fā)布時間:2025-03-30 00:01
在機器學習和數(shù)據(jù)挖掘領(lǐng)域中,分類是重要的研究內(nèi)容之一,其目的是構(gòu)造一個分類模型,將數(shù)據(jù)集中的數(shù)據(jù)劃分到給定類別中的某一個。由于傳統(tǒng)的分類算法沒有考慮數(shù)據(jù)的非平衡性,使得其在處理非平衡數(shù)據(jù)分類問題上面臨著巨大的挑戰(zhàn)。例如在醫(yī)療診斷、欺詐電話檢測等問題中,關(guān)注的事件在所有數(shù)據(jù)記錄中占比都極小,但是將其錯誤分類卻會帶來無法估量的代價。在非平衡數(shù)據(jù)中對少數(shù)類的正確分類往往比多數(shù)類更重要,如何對非平衡數(shù)據(jù)集進行正確分類,提高少數(shù)類的分類準確率成為分類問題中研究的重點。目前,非平衡數(shù)據(jù)分類問題在理論和實踐上都受到高度重視。很多針對非平衡數(shù)據(jù)的分類算法從不同的處理角度被提出。非平衡數(shù)據(jù)集分類問題的研究方法主要包括算法改進和數(shù)據(jù)集重構(gòu)兩類。數(shù)據(jù)層面通常使用的方法有過采樣和欠采樣方法,但使用單一的采樣算法可能造成少數(shù)類樣本過擬合或者丟失含有重要信息的樣本。因此,本文針對基于混合采樣的非平衡數(shù)據(jù)分類算法進行了深入的研究,主要內(nèi)容包括以下兩個方面:(1)提出了一種基于分類超平面的混合采樣算法。該算法旨在克服SVM算法在處理非平衡數(shù)據(jù)時分類超平面容易偏向少數(shù)類樣本的問題。首先利用SVM算法得到分類超平面;然后迭...
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【部分圖文】:
本文編號:4037864
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【部分圖文】:
圖3.1平衡數(shù)據(jù)集的分類超平面
:01iiiy,Ci0,i1,2,,l。Lagrange乘子。設(,)ijkxx為核函數(shù),那么SVM訓練出來的liiiihykb1(x)(x,x)SVM算法進行分類時,訓練樣本集的正負類樣本數(shù)量是大不平衡時,分類超平....
圖3.2非平衡數(shù)據(jù)集的分類超平面
圖3.2非平衡數(shù)據(jù)集的分類超平面TE算法E算法[10]基本思想是:處于距離較近的兩個少數(shù)類樣本中間的過線性插值的方法合成新的少數(shù)類樣本,增加少數(shù)類樣本的.1所示。表3.1SMOTE算法少數(shù)類樣本集合P,過采樣率,樣本近鄰個數(shù)k過采樣生成的少數(shù)類樣本集合Dif....
圖3.3準確率變化曲線圖
橫坐標為四種算法策略,縱坐標為實驗取值范圍。通過圖3.3到圖3.5可以明顯的看到,SVM<sub>H</sub>S算法比其它同類算法在少數(shù)類的數(shù)量有明顯劣勢的情況下實驗效果有較大提高。圖3.3準確率變化曲線圖圖3.4F-value變化曲線圖
圖3.4F-value變化曲線圖
5可以明顯的看到,SVM<sub>H</sub>S算法比其它同類算法在少數(shù)類的下實驗效果有較大提高。圖3.3準確率變化曲線圖
本文編號:4037864
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/4037864.html
最近更新
教材專著