基于CFS-HDRF的不平衡數(shù)據(jù)集分類算法研究與應(yīng)用
發(fā)布時(shí)間:2023-04-30 05:03
不平衡數(shù)據(jù)集是數(shù)據(jù)挖掘研究領(lǐng)域的一類重要數(shù)據(jù)類型,在客戶流失、信用評(píng)價(jià)和異常檢測等應(yīng)用領(lǐng)域得到廣泛關(guān)注。隨機(jī)森林是一種集成學(xué)習(xí)分類方法,在解決不平衡數(shù)據(jù)集分類問題上有著優(yōu)良的性能。但隨機(jī)森林采用基尼系數(shù)作為基分類器決策樹的特征選擇與結(jié)點(diǎn)分裂算法,該算法對(duì)不平衡數(shù)據(jù)具有類別分布偏斜敏感性,影響了數(shù)據(jù)的分類效果。針對(duì)此問題,論文的研究內(nèi)容主要包括:(1)結(jié)合海林格距離與海林格決策樹算法,論述與驗(yàn)證該算法對(duì)類不平衡不敏感的特點(diǎn),通過實(shí)驗(yàn)驗(yàn)證海林格隨機(jī)森林算法的效果與評(píng)價(jià)指標(biāo)。針對(duì)基尼系數(shù)偏斜敏感問題,由于海林格距離對(duì)類不平衡性不敏感,所以本文采用海林格距離作為決策樹的特征選擇與結(jié)點(diǎn)分裂標(biāo)準(zhǔn),探究海林格隨機(jī)森林使用正確率、Kappa分析在不平衡數(shù)據(jù)集分類上的效果。通過實(shí)驗(yàn)發(fā)現(xiàn)海林格隨機(jī)森林在不平衡數(shù)據(jù)集分類上的良好效果,但是該實(shí)驗(yàn)存在缺少特征不平衡與特征冗余的處理,評(píng)價(jià)指標(biāo)不合理的問題。(2)構(gòu)建基于關(guān)聯(lián)規(guī)則特征選擇的海林格隨機(jī)森林算法。類別不平衡衍生少數(shù)樣本類的特征失衡問題,導(dǎo)致多數(shù)樣本類的過擬合問題,針對(duì)海林格隨機(jī)森林缺少特征不平衡處理與實(shí)驗(yàn)中評(píng)價(jià)指標(biāo)不合理問題,采用關(guān)聯(lián)規(guī)則特征選擇進(jìn)行特...
【文章頁數(shù)】:57 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 選題緣起與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 不平衡數(shù)據(jù)集分類問題的研究現(xiàn)狀
1.2.2 隨機(jī)森林算法在不平衡數(shù)據(jù)集分類問題上的研究現(xiàn)狀
1.2.3 不平衡數(shù)據(jù)集分類問題特征選擇方法研究現(xiàn)狀
1.3 主要研究內(nèi)容與論文安排
1.3.1 主要研究內(nèi)容
1.3.2 本文組織結(jié)構(gòu)
1.4 本章小結(jié)
第2章 相關(guān)理論
2.1 隨機(jī)森林相關(guān)算法概述
2.1.1 相關(guān)決策樹算法
2.1.2 隨機(jī)森林算法
2.2 海林格距離與海林格決策樹
2.2.1 海林格距離介紹
2.2.2 海林格決策樹
2.3 關(guān)聯(lián)規(guī)則特征選擇理論
2.3.1 關(guān)聯(lián)規(guī)則特征選擇理論介紹
2.3.2 關(guān)聯(lián)規(guī)則特征選擇理論在不平衡數(shù)據(jù)集分類中的作用
2.4 不平衡數(shù)據(jù)集分類的評(píng)價(jià)標(biāo)準(zhǔn)
2.5 本章小結(jié)
第3章 CFS-HDRF算法的構(gòu)建與實(shí)驗(yàn)分析
3.1 HDRF模型
3.1.1 HDRF模型流程圖
3.1.2 HDRF算法過程
3.1.3 HDRF模型實(shí)驗(yàn)
3.2 CFS-HDRF算法
3.2.1 問題分析
3.2.2 改進(jìn)思路
3.2.3 算法流程圖
3.2.4 算法實(shí)現(xiàn)過程
3.3 實(shí)驗(yàn)設(shè)計(jì)與分析
3.3.1 實(shí)驗(yàn)準(zhǔn)備
3.3.2 實(shí)驗(yàn)設(shè)計(jì)
3.3.3 實(shí)驗(yàn)結(jié)果分析
3.3.4 訓(xùn)練樣本量分析與改進(jìn)
3.3.5 參數(shù)優(yōu)化
3.4 本章小結(jié)
第4章 基于CFS-HDRF算法的軟件工程學(xué)習(xí)型團(tuán)隊(duì)績效評(píng)估原型系統(tǒng)設(shè)計(jì)
4.1 引言
4.2 數(shù)據(jù)處理
4.2.1 數(shù)據(jù)集說明
4.2.2 數(shù)據(jù)預(yù)處理
4.3 系統(tǒng)需求分析與架構(gòu)
4.3.1 系統(tǒng)需求分析
4.3.2 系統(tǒng)架構(gòu)
4.4 系統(tǒng)設(shè)計(jì)
4.5 系統(tǒng)主要界面
4.6 系統(tǒng)效果分析
4.7 本章小結(jié)
總結(jié)與展望
參考文獻(xiàn)
致謝
個(gè)人簡歷、在學(xué)期間發(fā)表的學(xué)術(shù)論文及研究成果
本文編號(hào):3806478
【文章頁數(shù)】:57 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 選題緣起與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 不平衡數(shù)據(jù)集分類問題的研究現(xiàn)狀
1.2.2 隨機(jī)森林算法在不平衡數(shù)據(jù)集分類問題上的研究現(xiàn)狀
1.2.3 不平衡數(shù)據(jù)集分類問題特征選擇方法研究現(xiàn)狀
1.3 主要研究內(nèi)容與論文安排
1.3.1 主要研究內(nèi)容
1.3.2 本文組織結(jié)構(gòu)
1.4 本章小結(jié)
第2章 相關(guān)理論
2.1 隨機(jī)森林相關(guān)算法概述
2.1.1 相關(guān)決策樹算法
2.1.2 隨機(jī)森林算法
2.2 海林格距離與海林格決策樹
2.2.1 海林格距離介紹
2.2.2 海林格決策樹
2.3 關(guān)聯(lián)規(guī)則特征選擇理論
2.3.1 關(guān)聯(lián)規(guī)則特征選擇理論介紹
2.3.2 關(guān)聯(lián)規(guī)則特征選擇理論在不平衡數(shù)據(jù)集分類中的作用
2.4 不平衡數(shù)據(jù)集分類的評(píng)價(jià)標(biāo)準(zhǔn)
2.5 本章小結(jié)
第3章 CFS-HDRF算法的構(gòu)建與實(shí)驗(yàn)分析
3.1 HDRF模型
3.1.1 HDRF模型流程圖
3.1.2 HDRF算法過程
3.1.3 HDRF模型實(shí)驗(yàn)
3.2 CFS-HDRF算法
3.2.1 問題分析
3.2.2 改進(jìn)思路
3.2.3 算法流程圖
3.2.4 算法實(shí)現(xiàn)過程
3.3 實(shí)驗(yàn)設(shè)計(jì)與分析
3.3.1 實(shí)驗(yàn)準(zhǔn)備
3.3.2 實(shí)驗(yàn)設(shè)計(jì)
3.3.3 實(shí)驗(yàn)結(jié)果分析
3.3.4 訓(xùn)練樣本量分析與改進(jìn)
3.3.5 參數(shù)優(yōu)化
3.4 本章小結(jié)
第4章 基于CFS-HDRF算法的軟件工程學(xué)習(xí)型團(tuán)隊(duì)績效評(píng)估原型系統(tǒng)設(shè)計(jì)
4.1 引言
4.2 數(shù)據(jù)處理
4.2.1 數(shù)據(jù)集說明
4.2.2 數(shù)據(jù)預(yù)處理
4.3 系統(tǒng)需求分析與架構(gòu)
4.3.1 系統(tǒng)需求分析
4.3.2 系統(tǒng)架構(gòu)
4.4 系統(tǒng)設(shè)計(jì)
4.5 系統(tǒng)主要界面
4.6 系統(tǒng)效果分析
4.7 本章小結(jié)
總結(jié)與展望
參考文獻(xiàn)
致謝
個(gè)人簡歷、在學(xué)期間發(fā)表的學(xué)術(shù)論文及研究成果
本文編號(hào):3806478
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3806478.html
最近更新
教材專著