基于試驗(yàn)設(shè)計(jì)的不平衡數(shù)據(jù)欠抽樣算法研究
發(fā)布時間:2021-05-21 08:14
隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的極速發(fā)展,數(shù)據(jù)信息的重要性愈發(fā)明顯,源于二分類任務(wù)里數(shù)據(jù)偏態(tài)問題的不平衡數(shù)據(jù),滲透到了生活的多個領(lǐng)域之中。近年來,對于不平衡數(shù)據(jù)的研究既是一個熱點(diǎn)也是一個難點(diǎn)問題。通過不平衡數(shù)據(jù)能反映出更具有價(jià)值的信息,因此研究提高不平衡數(shù)據(jù)分類中的少數(shù)類樣本的準(zhǔn)確率,挖掘出不平衡數(shù)據(jù)背后的價(jià)值具有重大的意義。現(xiàn)階段對不平衡數(shù)據(jù)集的處理主要集中在兩個層面上:一是在算法層面上,通過編寫新算法或者改進(jìn)舊算法的方法,令不平衡數(shù)據(jù)的分類有效;另一個是在數(shù)據(jù)層面上,在具體分析前,對數(shù)據(jù)進(jìn)行預(yù)處理,對數(shù)目多的樣本做欠抽樣處理或?qū)?shù)目少的樣本進(jìn)行過抽樣,令其相對平衡。主要在數(shù)據(jù)層面對不平衡數(shù)據(jù)集進(jìn)行研究。首先,將試驗(yàn)設(shè)計(jì)聚類分析相結(jié)合,利用正交試驗(yàn)設(shè)計(jì)選取部分具有代表性方案代替全面試驗(yàn),通過方差分析法對結(jié)果進(jìn)行分析,剔除不平衡數(shù)據(jù)中占多數(shù)數(shù)據(jù)繁冗部分,提取最具代表性理想組合樣本作為聚類中心。其次,通過研究分析選取處理速度快、占用內(nèi)存小且適合大樣本分析的K-Means聚類分析的方法對不平衡數(shù)據(jù)進(jìn)行欠抽樣,利用Logistic回歸模型對欠抽樣結(jié)果進(jìn)行回代檢測。接著,通過數(shù)據(jù)集進(jìn)行了實(shí)證分析,結(jié)果表...
【文章來源】:華北理工大學(xué)河北省
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
引言
第1章 緒論
1.1 選題背景
1.2 研究現(xiàn)狀
1.2.1 不平衡數(shù)據(jù)算法層面研究
1.2.2 不平衡數(shù)據(jù)數(shù)據(jù)層面研究
1.2.3 處理不平衡數(shù)據(jù)集分類問題的研究難點(diǎn)
1.3 研究方案與內(nèi)容
1.3.1 研究內(nèi)容
1.3.2 研究框架圖
第2章 基于試驗(yàn)設(shè)計(jì)的聚類中心選取
2.1 試驗(yàn)設(shè)計(jì)方法簡介
2.2 正交設(shè)計(jì)理論
2.2.1 等水平正交表
2.2.2 混合水平正交表
2.3 正交試驗(yàn)設(shè)計(jì)的優(yōu)點(diǎn)
2.4 正交試驗(yàn)設(shè)計(jì)的步驟
2.5 正交試驗(yàn)設(shè)計(jì)的結(jié)果分析
2.5.1 極差(直觀)分析法
2.5.2 方差分析法
2.6 正交分析得到聚類中心
2.7 本章小結(jié)
第3章 聚類分析方法選取
3.1 聚類分析
3.1.1 樣品間距離
3.1.2 類與類之間的距離
3.2 K-Means聚類法
3.3 試驗(yàn)設(shè)計(jì)與聚類的結(jié)合
3.4 章節(jié)小結(jié)
第4章 Logistic回歸模型檢驗(yàn)
4.1 回歸分析
4.2 Logistic回歸模型
4.2.1 二分類Logistic回歸模型
4.2.2 多類別Logistic回歸模型
4.2.3 Logistic回歸模型的參數(shù)估計(jì)
4.3 本章小結(jié)
第5章 基于試驗(yàn)設(shè)計(jì)的不平衡數(shù)據(jù)欠抽樣算法及實(shí)證研究
5.1 基于試驗(yàn)設(shè)計(jì)的不平衡數(shù)據(jù)欠抽樣算法
5.2 算法的實(shí)證研究
5.2.1 類比為5:1的不平衡數(shù)據(jù)集
5.2.2 類比為25:1的不平衡數(shù)據(jù)集
5.3 不同類別比的不平衡結(jié)果對比
5.4 章節(jié)小結(jié)
結(jié)論
參考文獻(xiàn)
致謝
導(dǎo)師簡介
作者簡介
學(xué)位論文數(shù)據(jù)集
【參考文獻(xiàn)】:
期刊論文
[1]面向非平衡數(shù)據(jù)集分類的改進(jìn)模糊支持向量機(jī)[J]. 魏鑫,張雪英,李鳳蓮,胡風(fēng)云,賈文輝,王超. 計(jì)算機(jī)工程與設(shè)計(jì). 2019(11)
[2]面向不平衡數(shù)據(jù)集的一種改進(jìn)的加權(quán)超限學(xué)習(xí)機(jī)分類算法[J]. 梅穎,盧誠波. 數(shù)學(xué)的實(shí)踐與認(rèn)識. 2019(19)
[3]基于局部密度改進(jìn)的SVM不平衡數(shù)據(jù)集分類算法[J]. 劉悅婷,張燕,孫偉剛. 寧夏大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(03)
[4]面向非平衡多分類問題的二次合成QSMOTE方法[J]. 韓明鳴,郭虎升,王文劍. 南京大學(xué)學(xué)報(bào)(自然科學(xué)). 2019(01)
[5]不平衡數(shù)據(jù)分類方法綜述[J]. 李艷霞,柴毅,胡友強(qiáng),尹宏鵬. 控制與決策. 2019(04)
[6]基于CPD-SMOTE的類不平衡數(shù)據(jù)分類算法研究[J]. 彭如香,楊濤,孔華鋒,姜國慶,凡友榮. 計(jì)算機(jī)應(yīng)用與軟件. 2018(12)
[7]不平衡數(shù)據(jù)分類研究綜述[J]. 趙楠,張小芳,張利軍. 計(jì)算機(jī)科學(xué). 2018(S1)
[8]基于不平衡數(shù)據(jù)樣本特性的新型過采樣SVM分類算法[J]. 黃海松,魏建安,康佩棟. 控制與決策. 2018(09)
[9]一種去冗余抽樣的非平衡數(shù)據(jù)分類方法[J]. 史穎,亓慧. 山西大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(02)
[10]面向不平衡數(shù)據(jù)分類的復(fù)合SVM算法研究[J]. 劉東啟,陳志堅(jiān),徐銀,李飛騰. 計(jì)算機(jī)應(yīng)用研究. 2018(04)
碩士論文
[1]基于支持向量機(jī)的不平衡數(shù)據(jù)分類算法研究[D]. 劉東啟.浙江大學(xué) 2017
[2]基于過欠重抽樣的類別非平衡SVM財(cái)務(wù)困境預(yù)測研究[D]. 吳鳳娟.浙江師范大學(xué) 2016
[3]SMOTE不平衡數(shù)據(jù)過采樣算法的改進(jìn)與應(yīng)用[D]. 陳斌.廣西大學(xué) 2015
[4]基于非平衡視角的企業(yè)財(cái)務(wù)困境智能預(yù)警研究[D]. 商志明.浙江師范大學(xué) 2013
[5]基于聚類的不平衡數(shù)據(jù)分類研究[D]. 陳興穌.東北師范大學(xué) 2013
[6]一種改進(jìn)的非平衡數(shù)據(jù)集支持向量機(jī)分類算法[D]. 姚冰.吉林大學(xué) 2010
本文編號:3199374
【文章來源】:華北理工大學(xué)河北省
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
引言
第1章 緒論
1.1 選題背景
1.2 研究現(xiàn)狀
1.2.1 不平衡數(shù)據(jù)算法層面研究
1.2.2 不平衡數(shù)據(jù)數(shù)據(jù)層面研究
1.2.3 處理不平衡數(shù)據(jù)集分類問題的研究難點(diǎn)
1.3 研究方案與內(nèi)容
1.3.1 研究內(nèi)容
1.3.2 研究框架圖
第2章 基于試驗(yàn)設(shè)計(jì)的聚類中心選取
2.1 試驗(yàn)設(shè)計(jì)方法簡介
2.2 正交設(shè)計(jì)理論
2.2.1 等水平正交表
2.2.2 混合水平正交表
2.3 正交試驗(yàn)設(shè)計(jì)的優(yōu)點(diǎn)
2.4 正交試驗(yàn)設(shè)計(jì)的步驟
2.5 正交試驗(yàn)設(shè)計(jì)的結(jié)果分析
2.5.1 極差(直觀)分析法
2.5.2 方差分析法
2.6 正交分析得到聚類中心
2.7 本章小結(jié)
第3章 聚類分析方法選取
3.1 聚類分析
3.1.1 樣品間距離
3.1.2 類與類之間的距離
3.2 K-Means聚類法
3.3 試驗(yàn)設(shè)計(jì)與聚類的結(jié)合
3.4 章節(jié)小結(jié)
第4章 Logistic回歸模型檢驗(yàn)
4.1 回歸分析
4.2 Logistic回歸模型
4.2.1 二分類Logistic回歸模型
4.2.2 多類別Logistic回歸模型
4.2.3 Logistic回歸模型的參數(shù)估計(jì)
4.3 本章小結(jié)
第5章 基于試驗(yàn)設(shè)計(jì)的不平衡數(shù)據(jù)欠抽樣算法及實(shí)證研究
5.1 基于試驗(yàn)設(shè)計(jì)的不平衡數(shù)據(jù)欠抽樣算法
5.2 算法的實(shí)證研究
5.2.1 類比為5:1的不平衡數(shù)據(jù)集
5.2.2 類比為25:1的不平衡數(shù)據(jù)集
5.3 不同類別比的不平衡結(jié)果對比
5.4 章節(jié)小結(jié)
結(jié)論
參考文獻(xiàn)
致謝
導(dǎo)師簡介
作者簡介
學(xué)位論文數(shù)據(jù)集
【參考文獻(xiàn)】:
期刊論文
[1]面向非平衡數(shù)據(jù)集分類的改進(jìn)模糊支持向量機(jī)[J]. 魏鑫,張雪英,李鳳蓮,胡風(fēng)云,賈文輝,王超. 計(jì)算機(jī)工程與設(shè)計(jì). 2019(11)
[2]面向不平衡數(shù)據(jù)集的一種改進(jìn)的加權(quán)超限學(xué)習(xí)機(jī)分類算法[J]. 梅穎,盧誠波. 數(shù)學(xué)的實(shí)踐與認(rèn)識. 2019(19)
[3]基于局部密度改進(jìn)的SVM不平衡數(shù)據(jù)集分類算法[J]. 劉悅婷,張燕,孫偉剛. 寧夏大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(03)
[4]面向非平衡多分類問題的二次合成QSMOTE方法[J]. 韓明鳴,郭虎升,王文劍. 南京大學(xué)學(xué)報(bào)(自然科學(xué)). 2019(01)
[5]不平衡數(shù)據(jù)分類方法綜述[J]. 李艷霞,柴毅,胡友強(qiáng),尹宏鵬. 控制與決策. 2019(04)
[6]基于CPD-SMOTE的類不平衡數(shù)據(jù)分類算法研究[J]. 彭如香,楊濤,孔華鋒,姜國慶,凡友榮. 計(jì)算機(jī)應(yīng)用與軟件. 2018(12)
[7]不平衡數(shù)據(jù)分類研究綜述[J]. 趙楠,張小芳,張利軍. 計(jì)算機(jī)科學(xué). 2018(S1)
[8]基于不平衡數(shù)據(jù)樣本特性的新型過采樣SVM分類算法[J]. 黃海松,魏建安,康佩棟. 控制與決策. 2018(09)
[9]一種去冗余抽樣的非平衡數(shù)據(jù)分類方法[J]. 史穎,亓慧. 山西大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(02)
[10]面向不平衡數(shù)據(jù)分類的復(fù)合SVM算法研究[J]. 劉東啟,陳志堅(jiān),徐銀,李飛騰. 計(jì)算機(jī)應(yīng)用研究. 2018(04)
碩士論文
[1]基于支持向量機(jī)的不平衡數(shù)據(jù)分類算法研究[D]. 劉東啟.浙江大學(xué) 2017
[2]基于過欠重抽樣的類別非平衡SVM財(cái)務(wù)困境預(yù)測研究[D]. 吳鳳娟.浙江師范大學(xué) 2016
[3]SMOTE不平衡數(shù)據(jù)過采樣算法的改進(jìn)與應(yīng)用[D]. 陳斌.廣西大學(xué) 2015
[4]基于非平衡視角的企業(yè)財(cái)務(wù)困境智能預(yù)警研究[D]. 商志明.浙江師范大學(xué) 2013
[5]基于聚類的不平衡數(shù)據(jù)分類研究[D]. 陳興穌.東北師范大學(xué) 2013
[6]一種改進(jìn)的非平衡數(shù)據(jù)集支持向量機(jī)分類算法[D]. 姚冰.吉林大學(xué) 2010
本文編號:3199374
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3199374.html
最近更新
教材專著