天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

基于混合采樣的非平衡數(shù)據(jù)分類算法研究

發(fā)布時間:2025-03-30 00:01
  在機器學習和數(shù)據(jù)挖掘領(lǐng)域中,分類是重要的研究內(nèi)容之一,其目的是構(gòu)造一個分類模型,將數(shù)據(jù)集中的數(shù)據(jù)劃分到給定類別中的某一個。由于傳統(tǒng)的分類算法沒有考慮數(shù)據(jù)的非平衡性,使得其在處理非平衡數(shù)據(jù)分類問題上面臨著巨大的挑戰(zhàn)。例如在醫(yī)療診斷、欺詐電話檢測等問題中,關(guān)注的事件在所有數(shù)據(jù)記錄中占比都極小,但是將其錯誤分類卻會帶來無法估量的代價。在非平衡數(shù)據(jù)中對少數(shù)類的正確分類往往比多數(shù)類更重要,如何對非平衡數(shù)據(jù)集進行正確分類,提高少數(shù)類的分類準確率成為分類問題中研究的重點。目前,非平衡數(shù)據(jù)分類問題在理論和實踐上都受到高度重視。很多針對非平衡數(shù)據(jù)的分類算法從不同的處理角度被提出。非平衡數(shù)據(jù)集分類問題的研究方法主要包括算法改進和數(shù)據(jù)集重構(gòu)兩類。數(shù)據(jù)層面通常使用的方法有過采樣和欠采樣方法,但使用單一的采樣算法可能造成少數(shù)類樣本過擬合或者丟失含有重要信息的樣本。因此,本文針對基于混合采樣的非平衡數(shù)據(jù)分類算法進行了深入的研究,主要內(nèi)容包括以下兩個方面:(1)提出了一種基于分類超平面的混合采樣算法。該算法旨在克服SVM算法在處理非平衡數(shù)據(jù)時分類超平面容易偏向少數(shù)類樣本的問題。首先利用SVM算法得到分類超平面;然后迭...

【文章頁數(shù)】:57 頁

【學位級別】:碩士

【部分圖文】:

圖3.1平衡數(shù)據(jù)集的分類超平面

圖3.1平衡數(shù)據(jù)集的分類超平面

:01iiiy,Ci0,i1,2,,l。Lagrange乘子。設(,)ijkxx為核函數(shù),那么SVM訓練出來的liiiihykb1(x)(x,x)SVM算法進行分類時,訓練樣本集的正負類樣本數(shù)量是大不平衡時,分類超平....


圖3.2非平衡數(shù)據(jù)集的分類超平面

圖3.2非平衡數(shù)據(jù)集的分類超平面

圖3.2非平衡數(shù)據(jù)集的分類超平面TE算法E算法[10]基本思想是:處于距離較近的兩個少數(shù)類樣本中間的過線性插值的方法合成新的少數(shù)類樣本,增加少數(shù)類樣本的.1所示。表3.1SMOTE算法少數(shù)類樣本集合P,過采樣率,樣本近鄰個數(shù)k過采樣生成的少數(shù)類樣本集合Dif....


圖3.3準確率變化曲線圖

圖3.3準確率變化曲線圖

橫坐標為四種算法策略,縱坐標為實驗取值范圍。通過圖3.3到圖3.5可以明顯的看到,SVM<sub>H</sub>S算法比其它同類算法在少數(shù)類的數(shù)量有明顯劣勢的情況下實驗效果有較大提高。圖3.3準確率變化曲線圖圖3.4F-value變化曲線圖


圖3.4F-value變化曲線圖

圖3.4F-value變化曲線圖

5可以明顯的看到,SVM<sub>H</sub>S算法比其它同類算法在少數(shù)類的下實驗效果有較大提高。圖3.3準確率變化曲線圖



本文編號:4037864

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/4037864.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e109c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com