基于過采樣技術的不平衡數據分類研究
發(fā)布時間:2022-01-25 21:49
隨著計算機技術的快速發(fā)展尤其是計算機硬件設備的進步,海量數據集存儲和處理技術已經融入各行各業(yè),其中數據挖掘是行業(yè)中常用的數據處理技術,其通過數據處理和模型構建為決策者提供更多的決策信息。在使用數據挖掘處理數據和構建模型的過程中,經常會遇到不平衡分類問題,即在分類問題中某些類的樣本數量多于其它類的樣本數量。然而傳統(tǒng)的分類算法假設數據分布是大致平衡的,因此在處理不平衡數據集時難以有良好的效果。本文針對不平衡數據的分類問題,對數據層面的改進方法做了深入研究。本文的主要工作如下:(1)對目前經典的過采樣算法做了詳細的介紹和分析。介紹了SMOTE,Boderline-SMOTE和ADASYN這三種經典過采樣算法的原理,針對每個算法的特點分析了其各自的優(yōu)缺點。通過在多個數據集上的實驗結果驗證了以上分析。(2)為了增強分類邊界同時減少噪聲的生成,提出基于Lévy分布的過采樣算法LOTE。該算法將Lévy分布融合到采樣算法中,根據少數類樣本所處的位置,利用Lévy分布設置新樣本的密度分布。處于邊界的樣本對應Lévy分布的最高點,使得在邊界合成的新樣本密度最大,有利于增強分類邊界?拷鄶殿惖臉颖緦狶...
【文章來源】:江南大學江蘇省 211工程院校 教育部直屬院校
【文章頁數】:63 頁
【學位級別】:碩士
【部分圖文】:
ROC-AUC示意圖
≥ = = KKT 條件(Karush-Kuhn-Tucker 條件)[62]:{ ≥ ( ) ≥ ( ( ) ) = ( ) = ,當 時,一定有 ( ) = ,即 時,樣本 不出現在公式(2-26)中,即不對決策結樣本影響最終的決策結果,這些樣本就成為支持向硬間隔(hard margin)的支持向量機,即要求所有樣本應用中,經常會存在一些偏離了的樣本(outliers), 2-2 中由于 outliers 的存在,學習到的分割超平面最優(yōu)的分割超平面。為了解決該問題,將硬間隔的VM。通過引入松弛變量 ≥ ,允許某些偏離過大變?yōu)?( ) ≥ =
新樣本個數越多。其中學習一個樣本的困難程度用即其 近鄰中的多數類樣本越多,學習該樣本就越每個少數類樣本 ,計算其基于歐氏距離的 = = 近鄰中屬于多數類的樣本個數,因此 。對: = ,使得 = , 即為每個少數例。此時假設需要合成的總樣本數為 ,那么每個 × 。之后利用公式(3-1)對每個樣本進行采樣。樣算法考慮了樣本的分布,新樣本的數量隨著樣本上增強了決策邊界。但樣本學習難度越大,表明該圍合成的樣本太多會放大數據集中的噪聲。如圖 3,其周圍 近鄰中的多數類樣本最多,ADASYN 在本的增多導致分類器性能的降低。
【參考文獻】:
期刊論文
[1]基于Lévy分布的柔軟自適應演化采樣算法[J]. 張海鵬,張揚帆,孫俊. 計算機應用研究. 2019(07)
[2]基于代價敏感的隨機森林不平衡數據分類算法[J]. 楊杰明,高聰,曲朝陽,闞中鋒,高冶,常成. 科學技術與工程. 2018(06)
[3]基于三支決策的不平衡數據過采樣方法[J]. 胡峰,王蕾,周耀. 電子學報. 2018(01)
[4]基于改進單類支持向量機的工業(yè)控制網絡入侵檢測方法[J]. 劉萬軍,秦濟韜,曲海成. 計算機應用. 2018(05)
[5]基于不平衡數據樣本特性的新型過采樣SVM分類算法[J]. 黃海松,魏建安,康佩棟. 控制與決策. 2018(09)
[6]基于聚類欠采樣的集成不均衡數據分類算法[J]. 武森,劉露,盧丹. 工程科學學報. 2017(08)
[7]基于主動學習不平衡多分類AdaBoost算法的心臟病分類[J]. 王莉莉,付忠良,陶攀,胡鑫. 計算機應用. 2017(07)
[8]采用多類代價指數損失函數的代價敏感AdaBoost算法[J]. 翟夕陽,王曉丹,李睿,賈琪. 西安交通大學學報. 2017(08)
[9]基于改進核主元分析的故障檢測方法研究[J]. 張珂,宋文麗,石懷濤,周乾. 控制工程. 2017(02)
[10]面向不均衡數據集中少數類細分的過采樣算法[J]. 古平,楊煬. 計算機工程. 2017(02)
本文編號:3609264
【文章來源】:江南大學江蘇省 211工程院校 教育部直屬院校
【文章頁數】:63 頁
【學位級別】:碩士
【部分圖文】:
ROC-AUC示意圖
≥ = = KKT 條件(Karush-Kuhn-Tucker 條件)[62]:{ ≥ ( ) ≥ ( ( ) ) = ( ) = ,當 時,一定有 ( ) = ,即 時,樣本 不出現在公式(2-26)中,即不對決策結樣本影響最終的決策結果,這些樣本就成為支持向硬間隔(hard margin)的支持向量機,即要求所有樣本應用中,經常會存在一些偏離了的樣本(outliers), 2-2 中由于 outliers 的存在,學習到的分割超平面最優(yōu)的分割超平面。為了解決該問題,將硬間隔的VM。通過引入松弛變量 ≥ ,允許某些偏離過大變?yōu)?( ) ≥ =
新樣本個數越多。其中學習一個樣本的困難程度用即其 近鄰中的多數類樣本越多,學習該樣本就越每個少數類樣本 ,計算其基于歐氏距離的 = = 近鄰中屬于多數類的樣本個數,因此 。對: = ,使得 = , 即為每個少數例。此時假設需要合成的總樣本數為 ,那么每個 × 。之后利用公式(3-1)對每個樣本進行采樣。樣算法考慮了樣本的分布,新樣本的數量隨著樣本上增強了決策邊界。但樣本學習難度越大,表明該圍合成的樣本太多會放大數據集中的噪聲。如圖 3,其周圍 近鄰中的多數類樣本最多,ADASYN 在本的增多導致分類器性能的降低。
【參考文獻】:
期刊論文
[1]基于Lévy分布的柔軟自適應演化采樣算法[J]. 張海鵬,張揚帆,孫俊. 計算機應用研究. 2019(07)
[2]基于代價敏感的隨機森林不平衡數據分類算法[J]. 楊杰明,高聰,曲朝陽,闞中鋒,高冶,常成. 科學技術與工程. 2018(06)
[3]基于三支決策的不平衡數據過采樣方法[J]. 胡峰,王蕾,周耀. 電子學報. 2018(01)
[4]基于改進單類支持向量機的工業(yè)控制網絡入侵檢測方法[J]. 劉萬軍,秦濟韜,曲海成. 計算機應用. 2018(05)
[5]基于不平衡數據樣本特性的新型過采樣SVM分類算法[J]. 黃海松,魏建安,康佩棟. 控制與決策. 2018(09)
[6]基于聚類欠采樣的集成不均衡數據分類算法[J]. 武森,劉露,盧丹. 工程科學學報. 2017(08)
[7]基于主動學習不平衡多分類AdaBoost算法的心臟病分類[J]. 王莉莉,付忠良,陶攀,胡鑫. 計算機應用. 2017(07)
[8]采用多類代價指數損失函數的代價敏感AdaBoost算法[J]. 翟夕陽,王曉丹,李睿,賈琪. 西安交通大學學報. 2017(08)
[9]基于改進核主元分析的故障檢測方法研究[J]. 張珂,宋文麗,石懷濤,周乾. 控制工程. 2017(02)
[10]面向不均衡數據集中少數類細分的過采樣算法[J]. 古平,楊煬. 計算機工程. 2017(02)
本文編號:3609264
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3609264.html