改進(jìn)的類別不平衡學(xué)習(xí)算法及其分布式研究
發(fā)布時(shí)間:2021-02-19 22:26
不平衡數(shù)據(jù)是指在樣本集中各類樣本的數(shù)量差異懸殊的數(shù)據(jù)集,類別不平衡學(xué)習(xí)算法的目的是提高傳統(tǒng)分類器在不平衡數(shù)據(jù)上的分類性能。而且,在單臺(tái)機(jī)器上難以有效地處理大規(guī)模的不平衡數(shù)據(jù)。本文對(duì)類別不平衡學(xué)習(xí)算法和不平衡大數(shù)據(jù)分類問題進(jìn)行了深入研究和改進(jìn):(1)針對(duì)傳統(tǒng)分類器在不平衡數(shù)據(jù)集上性能降低的問題,提出了 FCMUSIC(Fuzzy C-means clustering Based Under Sampling In Clusters)算法。先使用層次聚類算法確定多數(shù)類樣本合適的聚類簇?cái)?shù),然后使用模糊C-均值聚類算法將多數(shù)類樣本劃分成若干簇,在每個(gè)簇內(nèi)以類別不平衡比率(imbalanced ratio,IR)的倒數(shù)作為采樣率,同時(shí)也考慮到類內(nèi)不平衡現(xiàn)象,通過聚類找出多數(shù)類的小析取項(xiàng)樣本,并抽樣加入到新樣本中,保證樣本的多樣性和代表性。將得到的平衡樣本集分別結(jié)合KNN和Random Forest分類器進(jìn)行分類。實(shí)驗(yàn)結(jié)果顯示FCMUSIC算法具有比對(duì)比組算法更好的分類表現(xiàn),驗(yàn)證了 FCMUSIC算法的有效性,FCMUSIC算法與不同的分類器結(jié)合都提高了分類器的分類性能,表明該算法具有良好的獨(dú)立性...
【文章來源】:南昌大學(xué)江西省 211工程院校
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.2大重疊區(qū)域??(3)噪聲樣本??噪聲樣本是指不符合同類樣本分布的樣本,在屬性空間上通常以離群點(diǎn)??的形式存在
?第2章相關(guān)理論???完全鏈接:合并之前計(jì)算群集之間的最大距離。在完全鏈接層次聚類中,兩??個(gè)簇之間的距離定義為每個(gè)族中兩個(gè)樣本之間的最大距離,即對(duì)于兩個(gè)族a和??b,在這兩個(gè)簇中各取一個(gè)樣本a;和by,貝ijdishbOzmaxCdisCady))。??平均鏈接:合并之前計(jì)算群集之間的平均距離,平均距離是指一個(gè)簇中每個(gè)??點(diǎn)到另一個(gè)簇中每個(gè)點(diǎn)之間的平均距離。例如,群集“r”和“s”之間左側(cè)的距離等??于將一個(gè)群集的點(diǎn)連接到另一個(gè)群集的點(diǎn)之間的每個(gè)箭頭的平均長(zhǎng)度。平均距??離。??圖2.3展示了層次聚類的最短距離和最大距離的選擇方式。??籲一最瓶巨離'—春j??vv?W??簇a?簇b??圖2.3層次聚類的簇間距離度量??2.?5?隨機(jī)森林(Random?Forest,?RF)??隨機(jī)森林[65]?(Random?Forest,?RF)是一種以決策樹為基分類器的集成學(xué)習(xí)??模型。要詳細(xì)地了解隨機(jī)森林,首先需要了解決策樹。??決策樹算法(decision?tree)是機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法之一,它可以用來處理回??歸和分類問題,目前己有大量關(guān)于決策樹算法的研宄[66_68]。此處介紹用于分類問??題的決策樹。決策樹呈樹形結(jié)構(gòu),表示基于特征對(duì)樣本進(jìn)行分類的過程,具有可??讀性好,分類速度快的優(yōu)點(diǎn)。??17??
?第2章相關(guān)理論???決策樹由內(nèi)部節(jié)點(diǎn)、葉節(jié)點(diǎn)和有向邊組成,內(nèi)部節(jié)點(diǎn)表示樣本的一個(gè)特征,??葉節(jié)點(diǎn)表示一個(gè)類。圖2.4展示了一個(gè)簡(jiǎn)單的決策樹模型,圖中一個(gè)三角形代表??一個(gè)不同的特征,實(shí)心圓點(diǎn)代表樣本所對(duì)應(yīng)的類屬。決策樹的訓(xùn)練過程通常有三??個(gè)步驟:特征選擇、決策樹生成和決策樹修剪。??x5?<?0.23154A<5>=?0.23154??f?x27?<?0.999^A^27?>=?0.99921??x16?<?-0.90517^(16?>=?-0.90517?x1?<?0.5^x1?>=?0.5????J???x7?<?0.789095j^c7?>=?0.789095??b?g??圖2.4決策樹模型??(1)特征選擇??特征選擇的目的是選擇對(duì)訓(xùn)練數(shù)據(jù)具有分類能力的特征。如果利用某個(gè)特??征進(jìn)行分類的結(jié)果與隨機(jī)分類沒有很大差別,那么這個(gè)特征是沒有分類能力的。??特征的選擇需要通過某種度量來描述該特征的分類能力。常用的度量有信息增??益、信息增益率和Gini指數(shù),這三種屬性選擇度量分別是ID3[69]、C4.5[7Q_??CARTtM算法采用的屬性選擇度量。由于隨機(jī)森林以CART樹作為基學(xué)習(xí)器,本??章對(duì)?CART?樹和?Ginni?指數(shù)進(jìn)行介紹。CART?(classification?and?regression?tree)??是分類與回歸樹,CART算法由Breiman等人提出,ID3和C4.5算法都只能處??理分類問題,CART算法既能處理分類問題,也能處理回歸問題。CART分類樹??算法使用基尼指數(shù)作為特征選擇的依據(jù),基尼指數(shù)代表了模型的不純度,基尼指??數(shù)越小,樣本的不確定性越低,特征越好
【參考文獻(xiàn)】:
期刊論文
[1]改進(jìn)決策樹的無人機(jī)空戰(zhàn)態(tài)勢(shì)估計(jì)[J]. 趙克新,黃長(zhǎng)強(qiáng),魏政磊,王樂. 哈爾濱工業(yè)大學(xué)學(xué)報(bào). 2019(04)
[2]面向不平衡數(shù)據(jù)集的一種基于聚類的欠采樣方法[J]. 李春雪,謝林森,盧誠(chéng)波. 數(shù)學(xué)的實(shí)踐與認(rèn)識(shí). 2019(01)
[3]基于Lévy分布的不平衡數(shù)據(jù)過采樣方法[J]. 張揚(yáng)帆,張海鵬,孫俊. 計(jì)算機(jī)工程與應(yīng)用. 2019(16)
[4]基于改進(jìn)貝葉斯的書目自動(dòng)分類算法[J]. 楊曉花,高海云. 計(jì)算機(jī)科學(xué). 2018(08)
[5]基于AHP的SMOTEBagging改進(jìn)模型[J]. 李輝,李光旭. 電子科技大學(xué)學(xué)報(bào)(社科版). 2018(04)
[6]基于三支決策的不平衡數(shù)據(jù)過采樣方法[J]. 胡峰,王蕾,周耀. 電子學(xué)報(bào). 2018(01)
[7]一種基于密度的SMOTE方法研究[J]. 王俊紅,段冰倩. 智能系統(tǒng)學(xué)報(bào). 2017(06)
[8]基于邊界混合采樣的非均衡數(shù)據(jù)處理算法[J]. 馮宏偉,姚博,高原,王惠亞,馮筠. 控制與決策. 2017(10)
[9]一種新的多分類代價(jià)敏感算法[J]. 鄧少軍,馮少榮,林子雨. 廈門大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(02)
[10]面向大數(shù)據(jù)分析的決策樹算法[J]. 張棪,曹健. 計(jì)算機(jī)科學(xué). 2016(S1)
碩士論文
[1]基于Spark平臺(tái)的惡意流量監(jiān)測(cè)分析系統(tǒng)[D]. 郭成林.北京交通大學(xué) 2016
[2]基于SVM算法的癌癥基因數(shù)據(jù)分類研究[D]. 黃燕紅.蘇州大學(xué) 2015
本文編號(hào):3041779
【文章來源】:南昌大學(xué)江西省 211工程院校
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.2大重疊區(qū)域??(3)噪聲樣本??噪聲樣本是指不符合同類樣本分布的樣本,在屬性空間上通常以離群點(diǎn)??的形式存在
?第2章相關(guān)理論???完全鏈接:合并之前計(jì)算群集之間的最大距離。在完全鏈接層次聚類中,兩??個(gè)簇之間的距離定義為每個(gè)族中兩個(gè)樣本之間的最大距離,即對(duì)于兩個(gè)族a和??b,在這兩個(gè)簇中各取一個(gè)樣本a;和by,貝ijdishbOzmaxCdisCady))。??平均鏈接:合并之前計(jì)算群集之間的平均距離,平均距離是指一個(gè)簇中每個(gè)??點(diǎn)到另一個(gè)簇中每個(gè)點(diǎn)之間的平均距離。例如,群集“r”和“s”之間左側(cè)的距離等??于將一個(gè)群集的點(diǎn)連接到另一個(gè)群集的點(diǎn)之間的每個(gè)箭頭的平均長(zhǎng)度。平均距??離。??圖2.3展示了層次聚類的最短距離和最大距離的選擇方式。??籲一最瓶巨離'—春j??vv?W??簇a?簇b??圖2.3層次聚類的簇間距離度量??2.?5?隨機(jī)森林(Random?Forest,?RF)??隨機(jī)森林[65]?(Random?Forest,?RF)是一種以決策樹為基分類器的集成學(xué)習(xí)??模型。要詳細(xì)地了解隨機(jī)森林,首先需要了解決策樹。??決策樹算法(decision?tree)是機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法之一,它可以用來處理回??歸和分類問題,目前己有大量關(guān)于決策樹算法的研宄[66_68]。此處介紹用于分類問??題的決策樹。決策樹呈樹形結(jié)構(gòu),表示基于特征對(duì)樣本進(jìn)行分類的過程,具有可??讀性好,分類速度快的優(yōu)點(diǎn)。??17??
?第2章相關(guān)理論???決策樹由內(nèi)部節(jié)點(diǎn)、葉節(jié)點(diǎn)和有向邊組成,內(nèi)部節(jié)點(diǎn)表示樣本的一個(gè)特征,??葉節(jié)點(diǎn)表示一個(gè)類。圖2.4展示了一個(gè)簡(jiǎn)單的決策樹模型,圖中一個(gè)三角形代表??一個(gè)不同的特征,實(shí)心圓點(diǎn)代表樣本所對(duì)應(yīng)的類屬。決策樹的訓(xùn)練過程通常有三??個(gè)步驟:特征選擇、決策樹生成和決策樹修剪。??x5?<?0.23154A<5>=?0.23154??f?x27?<?0.999^A^27?>=?0.99921??x16?<?-0.90517^(16?>=?-0.90517?x1?<?0.5^x1?>=?0.5????J???x7?<?0.789095j^c7?>=?0.789095??b?g??圖2.4決策樹模型??(1)特征選擇??特征選擇的目的是選擇對(duì)訓(xùn)練數(shù)據(jù)具有分類能力的特征。如果利用某個(gè)特??征進(jìn)行分類的結(jié)果與隨機(jī)分類沒有很大差別,那么這個(gè)特征是沒有分類能力的。??特征的選擇需要通過某種度量來描述該特征的分類能力。常用的度量有信息增??益、信息增益率和Gini指數(shù),這三種屬性選擇度量分別是ID3[69]、C4.5[7Q_??CARTtM算法采用的屬性選擇度量。由于隨機(jī)森林以CART樹作為基學(xué)習(xí)器,本??章對(duì)?CART?樹和?Ginni?指數(shù)進(jìn)行介紹。CART?(classification?and?regression?tree)??是分類與回歸樹,CART算法由Breiman等人提出,ID3和C4.5算法都只能處??理分類問題,CART算法既能處理分類問題,也能處理回歸問題。CART分類樹??算法使用基尼指數(shù)作為特征選擇的依據(jù),基尼指數(shù)代表了模型的不純度,基尼指??數(shù)越小,樣本的不確定性越低,特征越好
【參考文獻(xiàn)】:
期刊論文
[1]改進(jìn)決策樹的無人機(jī)空戰(zhàn)態(tài)勢(shì)估計(jì)[J]. 趙克新,黃長(zhǎng)強(qiáng),魏政磊,王樂. 哈爾濱工業(yè)大學(xué)學(xué)報(bào). 2019(04)
[2]面向不平衡數(shù)據(jù)集的一種基于聚類的欠采樣方法[J]. 李春雪,謝林森,盧誠(chéng)波. 數(shù)學(xué)的實(shí)踐與認(rèn)識(shí). 2019(01)
[3]基于Lévy分布的不平衡數(shù)據(jù)過采樣方法[J]. 張揚(yáng)帆,張海鵬,孫俊. 計(jì)算機(jī)工程與應(yīng)用. 2019(16)
[4]基于改進(jìn)貝葉斯的書目自動(dòng)分類算法[J]. 楊曉花,高海云. 計(jì)算機(jī)科學(xué). 2018(08)
[5]基于AHP的SMOTEBagging改進(jìn)模型[J]. 李輝,李光旭. 電子科技大學(xué)學(xué)報(bào)(社科版). 2018(04)
[6]基于三支決策的不平衡數(shù)據(jù)過采樣方法[J]. 胡峰,王蕾,周耀. 電子學(xué)報(bào). 2018(01)
[7]一種基于密度的SMOTE方法研究[J]. 王俊紅,段冰倩. 智能系統(tǒng)學(xué)報(bào). 2017(06)
[8]基于邊界混合采樣的非均衡數(shù)據(jù)處理算法[J]. 馮宏偉,姚博,高原,王惠亞,馮筠. 控制與決策. 2017(10)
[9]一種新的多分類代價(jià)敏感算法[J]. 鄧少軍,馮少榮,林子雨. 廈門大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(02)
[10]面向大數(shù)據(jù)分析的決策樹算法[J]. 張棪,曹健. 計(jì)算機(jī)科學(xué). 2016(S1)
碩士論文
[1]基于Spark平臺(tái)的惡意流量監(jiān)測(cè)分析系統(tǒng)[D]. 郭成林.北京交通大學(xué) 2016
[2]基于SVM算法的癌癥基因數(shù)據(jù)分類研究[D]. 黃燕紅.蘇州大學(xué) 2015
本文編號(hào):3041779
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3041779.html
最近更新
教材專著