面向分布不平衡數(shù)據(jù)的分類算法研究
發(fā)布時(shí)間:2021-06-18 18:35
在實(shí)際應(yīng)用中,數(shù)據(jù)標(biāo)簽的分布往往是不平衡的,并且少數(shù)類樣本是我們關(guān)注的重點(diǎn)。因此,研究不平衡數(shù)據(jù)的分類方法很有必要。針對(duì)不平衡數(shù)據(jù)的分類問題,主要從數(shù)據(jù)采樣和算法改進(jìn)兩個(gè)方面進(jìn)行研究;當(dāng)數(shù)據(jù)分布極端不平衡時(shí),也可以從異常檢測的角度進(jìn)行研究。本文主要有以下三點(diǎn)工作:(1)從數(shù)據(jù)采樣的角度來說,在分類前對(duì)數(shù)據(jù)集進(jìn)行重采樣往往可以提升分類性能。針對(duì) SMOTE(Synthetic minority oversampling technique,SMOTE)算法不考慮新生成的少數(shù)類樣本位置的問題,本文引入改進(jìn)的Safe-Level-SMOTE算法,并提出一種基于臨時(shí)標(biāo)記的TempC-SSMOTE過采樣方法。這樣既可以使新生成的少數(shù)類樣本更靠近少數(shù)類樣本集中的地方,又能減小過采樣規(guī)模,改善過采樣算法容易生成噪聲樣本的問題。實(shí)驗(yàn)結(jié)果表明,從F1值、Recall值和G-mean值角度評(píng)估,基于臨時(shí)標(biāo)記的TempC-SSMOTE過采樣方法優(yōu)于其他常見采樣方法,驗(yàn)證了所提方法的優(yōu)越性和可行性。(2)從分類算法的角度來說,集成學(xué)習(xí)方法是處理不平衡數(shù)據(jù)集分類任務(wù)的一種重要方法。本章將 CMAES(Covar...
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:64 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
本文主要工作概要圖
南京郵電大學(xué)碩士研究生學(xué)位論文第三章基于臨時(shí)標(biāo)記的TempC-SSMOTE過采樣方法14第三章基于臨時(shí)標(biāo)記的TempC-SSMOTE過采樣方法重采樣方法是解決不平衡數(shù)據(jù)集分類任務(wù)的一種典型方法。SMOTE方法是一種最經(jīng)典的過采樣方法,但其在生成新樣本時(shí),隨機(jī)性過大導(dǎo)致無法控制新樣本的生成位置,極易引入噪聲樣本,增加分類難度。Safe-Level-SMOTE方法對(duì)此問題進(jìn)行了改進(jìn),但仍然無法避免過采樣方法本身就易引入噪聲樣本的問題。TempC方法通過臨時(shí)標(biāo)記的思想平衡樣本類別,不會(huì)生成合成樣本。因此,本章將Safe-Level-SMOTE方法與TempC方法進(jìn)行結(jié)合,提出一種基于臨時(shí)標(biāo)記的TempC-SSMOTE過采樣方法,用Safe-Level-SMOTE方法對(duì)臨時(shí)標(biāo)記的C類中的少數(shù)類樣本進(jìn)行過采樣操作。這樣既減輕了過采樣方法易生成噪聲樣本的問題,又改善了不平衡程度,從而提升分類性能。相關(guān)工作3.1.1SMOTE方法SMOTE方法[6]主要是通過對(duì)少數(shù)類樣本和其任一k近鄰樣本之間做線性插值,生成新的少數(shù)類樣本,從而減輕數(shù)據(jù)集的不平衡程度。SMOTE方法的插值示例如圖3.1所示,樣本合成過程如算法3.1所示。圖3.1SMOTE方法線性插值示意圖SMOTE方法在合成新的少數(shù)類樣本時(shí),沒有考慮到最近鄰少數(shù)類樣本很可能位于多數(shù)類樣本包圍中,這樣新生成的少數(shù)類樣本也很可能被多數(shù)類樣本包圍,甚至于多數(shù)類樣本重疊,從而增加分類難度。
南京郵電大學(xué)碩士研究生學(xué)位論文第三章基于臨時(shí)標(biāo)記的TempC-SSMOTE過采樣方法17圖3.2TempC方法示意圖具體過程如算法3.3所示。測試時(shí),用分類器!和&同時(shí)對(duì)測試樣本進(jìn)行分類,若分類器!將某樣本分類為C類,分類器&將該樣本分類為少數(shù)類,則該樣本最終被分類為少數(shù)類,否則為多數(shù)類。算法3.3TempC方法輸入:訓(xùn)練集輸出:兩個(gè)分類器初始化:新的臨時(shí)類別7=1:將劃分為多數(shù)類樣本集-./,少數(shù)類樣本集-0#2:forin-0#:3:從-./中計(jì)算的k近鄰樣本,將和其k近鄰樣本加入74:將和其k近鄰樣本臨時(shí)標(biāo)記為C類5:endfor6:用7∪-./訓(xùn)練一個(gè)分類器!,區(qū)分C類和多數(shù)類7:用7訓(xùn)練一個(gè)分類器&,區(qū)分少數(shù)類和多數(shù)類8:return!,&與許多其他數(shù)據(jù)級(jí)的采樣方法不同,TempC方法僅僅對(duì)一些樣本做了類的臨時(shí)重新標(biāo)記,既不會(huì)合成新的少數(shù)類樣本,也不會(huì)剔除多數(shù)類樣本。因此TempC方法既不會(huì)帶來新的噪聲樣本,也不會(huì)由于刪除多數(shù)類樣本而造成信息丟失。但其臨時(shí)標(biāo)記的做法確實(shí)減輕了數(shù)據(jù)集的不平衡程度,且標(biāo)記出了分類困難區(qū)域。
【參考文獻(xiàn)】:
期刊論文
[1]基于類重疊度欠采樣的不平衡模糊多類支持向量機(jī)[J]. 吳園園,申立勇. 中國科學(xué)院大學(xué)學(xué)報(bào). 2018(04)
[2]類不平衡稀疏重構(gòu)度量學(xué)習(xí)軟件缺陷預(yù)測[J]. 史作婷,吳迪,荊曉遠(yuǎn),吳飛. 計(jì)算機(jī)技術(shù)與發(fā)展. 2018(06)
[3]基于不平衡數(shù)據(jù)樣本特性的新型過采樣SVM分類算法[J]. 黃海松,魏建安,康佩棟. 控制與決策. 2018(09)
[4]基于多次隨機(jī)欠采樣和POSS方法的軟件缺陷檢測[J]. 方昊,李云. 山東大學(xué)學(xué)報(bào)(工學(xué)版). 2017(01)
[5]數(shù)據(jù)集不均衡下的設(shè)備故障程度識(shí)別方法研究[J]. 段禮祥,郭晗,王金江. 振動(dòng)與沖擊. 2016(20)
[6]iLOF*:一種改進(jìn)的局部異常檢測算法[J]. 王飛. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2015(12)
[7]基于ODR和BSMOTE結(jié)合的不均衡數(shù)據(jù)SVM分類算法[J]. 陶新民,童智靖,劉玉,付丹丹. 控制與決策. 2011(10)
[8]局部離群點(diǎn)挖掘算法研究[J]. 薛安榮,鞠時(shí)光,何偉華,陳偉鶴. 計(jì)算機(jī)學(xué)報(bào). 2007(08)
本文編號(hào):3237177
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:64 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
本文主要工作概要圖
南京郵電大學(xué)碩士研究生學(xué)位論文第三章基于臨時(shí)標(biāo)記的TempC-SSMOTE過采樣方法14第三章基于臨時(shí)標(biāo)記的TempC-SSMOTE過采樣方法重采樣方法是解決不平衡數(shù)據(jù)集分類任務(wù)的一種典型方法。SMOTE方法是一種最經(jīng)典的過采樣方法,但其在生成新樣本時(shí),隨機(jī)性過大導(dǎo)致無法控制新樣本的生成位置,極易引入噪聲樣本,增加分類難度。Safe-Level-SMOTE方法對(duì)此問題進(jìn)行了改進(jìn),但仍然無法避免過采樣方法本身就易引入噪聲樣本的問題。TempC方法通過臨時(shí)標(biāo)記的思想平衡樣本類別,不會(huì)生成合成樣本。因此,本章將Safe-Level-SMOTE方法與TempC方法進(jìn)行結(jié)合,提出一種基于臨時(shí)標(biāo)記的TempC-SSMOTE過采樣方法,用Safe-Level-SMOTE方法對(duì)臨時(shí)標(biāo)記的C類中的少數(shù)類樣本進(jìn)行過采樣操作。這樣既減輕了過采樣方法易生成噪聲樣本的問題,又改善了不平衡程度,從而提升分類性能。相關(guān)工作3.1.1SMOTE方法SMOTE方法[6]主要是通過對(duì)少數(shù)類樣本和其任一k近鄰樣本之間做線性插值,生成新的少數(shù)類樣本,從而減輕數(shù)據(jù)集的不平衡程度。SMOTE方法的插值示例如圖3.1所示,樣本合成過程如算法3.1所示。圖3.1SMOTE方法線性插值示意圖SMOTE方法在合成新的少數(shù)類樣本時(shí),沒有考慮到最近鄰少數(shù)類樣本很可能位于多數(shù)類樣本包圍中,這樣新生成的少數(shù)類樣本也很可能被多數(shù)類樣本包圍,甚至于多數(shù)類樣本重疊,從而增加分類難度。
南京郵電大學(xué)碩士研究生學(xué)位論文第三章基于臨時(shí)標(biāo)記的TempC-SSMOTE過采樣方法17圖3.2TempC方法示意圖具體過程如算法3.3所示。測試時(shí),用分類器!和&同時(shí)對(duì)測試樣本進(jìn)行分類,若分類器!將某樣本分類為C類,分類器&將該樣本分類為少數(shù)類,則該樣本最終被分類為少數(shù)類,否則為多數(shù)類。算法3.3TempC方法輸入:訓(xùn)練集輸出:兩個(gè)分類器初始化:新的臨時(shí)類別7=1:將劃分為多數(shù)類樣本集-./,少數(shù)類樣本集-0#2:forin-0#:3:從-./中計(jì)算的k近鄰樣本,將和其k近鄰樣本加入74:將和其k近鄰樣本臨時(shí)標(biāo)記為C類5:endfor6:用7∪-./訓(xùn)練一個(gè)分類器!,區(qū)分C類和多數(shù)類7:用7訓(xùn)練一個(gè)分類器&,區(qū)分少數(shù)類和多數(shù)類8:return!,&與許多其他數(shù)據(jù)級(jí)的采樣方法不同,TempC方法僅僅對(duì)一些樣本做了類的臨時(shí)重新標(biāo)記,既不會(huì)合成新的少數(shù)類樣本,也不會(huì)剔除多數(shù)類樣本。因此TempC方法既不會(huì)帶來新的噪聲樣本,也不會(huì)由于刪除多數(shù)類樣本而造成信息丟失。但其臨時(shí)標(biāo)記的做法確實(shí)減輕了數(shù)據(jù)集的不平衡程度,且標(biāo)記出了分類困難區(qū)域。
【參考文獻(xiàn)】:
期刊論文
[1]基于類重疊度欠采樣的不平衡模糊多類支持向量機(jī)[J]. 吳園園,申立勇. 中國科學(xué)院大學(xué)學(xué)報(bào). 2018(04)
[2]類不平衡稀疏重構(gòu)度量學(xué)習(xí)軟件缺陷預(yù)測[J]. 史作婷,吳迪,荊曉遠(yuǎn),吳飛. 計(jì)算機(jī)技術(shù)與發(fā)展. 2018(06)
[3]基于不平衡數(shù)據(jù)樣本特性的新型過采樣SVM分類算法[J]. 黃海松,魏建安,康佩棟. 控制與決策. 2018(09)
[4]基于多次隨機(jī)欠采樣和POSS方法的軟件缺陷檢測[J]. 方昊,李云. 山東大學(xué)學(xué)報(bào)(工學(xué)版). 2017(01)
[5]數(shù)據(jù)集不均衡下的設(shè)備故障程度識(shí)別方法研究[J]. 段禮祥,郭晗,王金江. 振動(dòng)與沖擊. 2016(20)
[6]iLOF*:一種改進(jìn)的局部異常檢測算法[J]. 王飛. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2015(12)
[7]基于ODR和BSMOTE結(jié)合的不均衡數(shù)據(jù)SVM分類算法[J]. 陶新民,童智靖,劉玉,付丹丹. 控制與決策. 2011(10)
[8]局部離群點(diǎn)挖掘算法研究[J]. 薛安榮,鞠時(shí)光,何偉華,陳偉鶴. 計(jì)算機(jī)學(xué)報(bào). 2007(08)
本文編號(hào):3237177
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3237177.html
最近更新
教材專著