融合混合采樣技術(shù)與Adaboost思想的不平衡數(shù)據(jù)分類(lèi)學(xué)習(xí)算法的研究
發(fā)布時(shí)間:2024-02-24 01:25
不平衡數(shù)據(jù)集指的是數(shù)據(jù)集中某一類(lèi)(下稱(chēng)多數(shù)類(lèi))的樣本數(shù)量相對(duì)其他類(lèi)(少數(shù)類(lèi))多得多。傳統(tǒng)的分類(lèi)算法默認(rèn)訓(xùn)練集中各樣本類(lèi)別的樣本數(shù)量基本均衡,然而實(shí)際的數(shù)據(jù)集中樣本可能不平衡,不平衡數(shù)據(jù)集的分類(lèi)問(wèn)題中,傳統(tǒng)的分類(lèi)算法更關(guān)注整體的分類(lèi)精度,實(shí)際應(yīng)用中有時(shí)候更關(guān)注少數(shù)類(lèi)的正確分類(lèi)。本研究從樣本分布特點(diǎn)和樣本特征兩方面對(duì)不平衡數(shù)據(jù)集進(jìn)行分析研究,提出聚類(lèi)思想的欠采樣方法和特征對(duì)類(lèi)別影響的過(guò)采樣方法,最后將兩種方法與Adaboost算法融合,提出一個(gè)針對(duì)不平衡數(shù)據(jù)集的集成學(xué)習(xí)分類(lèi)算法。首先,本研究根據(jù)樣本分布特點(diǎn),提出一個(gè)基于聚類(lèi)的樣本欠采樣方法。該方法通過(guò)對(duì)不平衡數(shù)據(jù)集中多數(shù)類(lèi)樣本進(jìn)行聚類(lèi),通過(guò)聚類(lèi)的簇的大小判別簇中樣本所攜帶的信息量,對(duì)攜帶不同信息量的簇采用不同的采樣策略,去掉多數(shù)類(lèi)中的離群點(diǎn)和邊緣樣本,減少多數(shù)類(lèi)中的難分樣本,同時(shí)降低數(shù)據(jù)集的不平衡性。其次,本研究針對(duì)不平衡數(shù)據(jù)集的基于特征影響提出過(guò)采樣方法。在數(shù)據(jù)集中,樣本特征對(duì)各個(gè)類(lèi)別的影響是不一樣的,因此樣本的每個(gè)特征對(duì)每個(gè)類(lèi)別存在不同的重要程度。由此可將樣本特征進(jìn)行分類(lèi),然后根據(jù)特征分類(lèi)結(jié)果對(duì)少數(shù)類(lèi)進(jìn)行過(guò)采樣,實(shí)現(xiàn)數(shù)據(jù)的平衡。經(jīng)實(shí)驗(yàn)...
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 分類(lèi)中數(shù)據(jù)不平衡的研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 數(shù)據(jù)層面的方法
1.2.2 算法層面的方法
1.3 本文研究?jī)?nèi)容
1.4 本文結(jié)構(gòu)安排
第2章 不平衡數(shù)據(jù)集研究概述
2.1 不平衡數(shù)據(jù)集概述
2.2 不平衡數(shù)據(jù)集分類(lèi)學(xué)習(xí)的難點(diǎn)
2.2.1 少數(shù)類(lèi)樣本稀缺
2.2.2 樣本邊界分布問(wèn)題
2.2.3 數(shù)據(jù)碎片
2.2.4 噪聲樣本
2.3 不平衡數(shù)據(jù)的評(píng)價(jià)準(zhǔn)則
2.3.1 F-measure準(zhǔn)則
2.3.2 G-mean準(zhǔn)則
2.3.3 ROC曲線以及AUC
2.4 相關(guān)理論知識(shí)點(diǎn)
2.4.1 k-means聚類(lèi)算法
2.4.2 SMOTE算法
2.4.3 遺傳算法
2.4.4 Adaboost算法
2.5 本章小結(jié)
第3章 基于樣本分布特點(diǎn)的聚類(lèi)欠采樣方法
3.1 基于樣本分布特點(diǎn)的聚類(lèi)欠采樣方法
3.1.1 SDC-US算法的思想
3.1.2 SDC-US算法的描述
3.2 實(shí)驗(yàn)分析
3.2.1 實(shí)驗(yàn)數(shù)據(jù)集
3.2.2 實(shí)驗(yàn)過(guò)程及結(jié)果分析
3.3 本章小結(jié)
第4章 基于特征對(duì)類(lèi)別影響的過(guò)采樣方法
4.1 基于特征對(duì)類(lèi)別影響的過(guò)采樣方法
4.1.1 FI-OS算法思想
4.1.2 FI-OS算法描述
4.2 實(shí)驗(yàn)分析
4.2.1 實(shí)驗(yàn)結(jié)果及分析
4.3 本章小結(jié)
第5章 融合混合采樣與Adaboost算法的分類(lèi)學(xué)習(xí)算法
5.1 融合混合采樣與Adaboost算法的分類(lèi)學(xué)習(xí)算法
5.1.1 MSAdaBoost算法描述
5.1.2 MSAdaBoost算法步驟
5.2 實(shí)驗(yàn)分析
5.2.1 實(shí)驗(yàn)結(jié)果及分析
5.3 本章小結(jié)
總結(jié)與展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文
本文編號(hào):3908297
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 分類(lèi)中數(shù)據(jù)不平衡的研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 數(shù)據(jù)層面的方法
1.2.2 算法層面的方法
1.3 本文研究?jī)?nèi)容
1.4 本文結(jié)構(gòu)安排
第2章 不平衡數(shù)據(jù)集研究概述
2.1 不平衡數(shù)據(jù)集概述
2.2 不平衡數(shù)據(jù)集分類(lèi)學(xué)習(xí)的難點(diǎn)
2.2.1 少數(shù)類(lèi)樣本稀缺
2.2.2 樣本邊界分布問(wèn)題
2.2.3 數(shù)據(jù)碎片
2.2.4 噪聲樣本
2.3 不平衡數(shù)據(jù)的評(píng)價(jià)準(zhǔn)則
2.3.1 F-measure準(zhǔn)則
2.3.2 G-mean準(zhǔn)則
2.3.3 ROC曲線以及AUC
2.4 相關(guān)理論知識(shí)點(diǎn)
2.4.1 k-means聚類(lèi)算法
2.4.2 SMOTE算法
2.4.3 遺傳算法
2.4.4 Adaboost算法
2.5 本章小結(jié)
第3章 基于樣本分布特點(diǎn)的聚類(lèi)欠采樣方法
3.1 基于樣本分布特點(diǎn)的聚類(lèi)欠采樣方法
3.1.1 SDC-US算法的思想
3.1.2 SDC-US算法的描述
3.2 實(shí)驗(yàn)分析
3.2.1 實(shí)驗(yàn)數(shù)據(jù)集
3.2.2 實(shí)驗(yàn)過(guò)程及結(jié)果分析
3.3 本章小結(jié)
第4章 基于特征對(duì)類(lèi)別影響的過(guò)采樣方法
4.1 基于特征對(duì)類(lèi)別影響的過(guò)采樣方法
4.1.1 FI-OS算法思想
4.1.2 FI-OS算法描述
4.2 實(shí)驗(yàn)分析
4.2.1 實(shí)驗(yàn)結(jié)果及分析
4.3 本章小結(jié)
第5章 融合混合采樣與Adaboost算法的分類(lèi)學(xué)習(xí)算法
5.1 融合混合采樣與Adaboost算法的分類(lèi)學(xué)習(xí)算法
5.1.1 MSAdaBoost算法描述
5.1.2 MSAdaBoost算法步驟
5.2 實(shí)驗(yàn)分析
5.2.1 實(shí)驗(yàn)結(jié)果及分析
5.3 本章小結(jié)
總結(jié)與展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文
本文編號(hào):3908297
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3908297.html
最近更新
教材專(zhuān)著