基于CFS-HDRF的不平衡數(shù)據(jù)集分類算法研究與應用
發(fā)布時間:2023-04-30 05:03
不平衡數(shù)據(jù)集是數(shù)據(jù)挖掘研究領域的一類重要數(shù)據(jù)類型,在客戶流失、信用評價和異常檢測等應用領域得到廣泛關注。隨機森林是一種集成學習分類方法,在解決不平衡數(shù)據(jù)集分類問題上有著優(yōu)良的性能。但隨機森林采用基尼系數(shù)作為基分類器決策樹的特征選擇與結(jié)點分裂算法,該算法對不平衡數(shù)據(jù)具有類別分布偏斜敏感性,影響了數(shù)據(jù)的分類效果。針對此問題,論文的研究內(nèi)容主要包括:(1)結(jié)合海林格距離與海林格決策樹算法,論述與驗證該算法對類不平衡不敏感的特點,通過實驗驗證海林格隨機森林算法的效果與評價指標。針對基尼系數(shù)偏斜敏感問題,由于海林格距離對類不平衡性不敏感,所以本文采用海林格距離作為決策樹的特征選擇與結(jié)點分裂標準,探究海林格隨機森林使用正確率、Kappa分析在不平衡數(shù)據(jù)集分類上的效果。通過實驗發(fā)現(xiàn)海林格隨機森林在不平衡數(shù)據(jù)集分類上的良好效果,但是該實驗存在缺少特征不平衡與特征冗余的處理,評價指標不合理的問題。(2)構(gòu)建基于關聯(lián)規(guī)則特征選擇的海林格隨機森林算法。類別不平衡衍生少數(shù)樣本類的特征失衡問題,導致多數(shù)樣本類的過擬合問題,針對海林格隨機森林缺少特征不平衡處理與實驗中評價指標不合理問題,采用關聯(lián)規(guī)則特征選擇進行特...
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 選題緣起與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 不平衡數(shù)據(jù)集分類問題的研究現(xiàn)狀
1.2.2 隨機森林算法在不平衡數(shù)據(jù)集分類問題上的研究現(xiàn)狀
1.2.3 不平衡數(shù)據(jù)集分類問題特征選擇方法研究現(xiàn)狀
1.3 主要研究內(nèi)容與論文安排
1.3.1 主要研究內(nèi)容
1.3.2 本文組織結(jié)構(gòu)
1.4 本章小結(jié)
第2章 相關理論
2.1 隨機森林相關算法概述
2.1.1 相關決策樹算法
2.1.2 隨機森林算法
2.2 海林格距離與海林格決策樹
2.2.1 海林格距離介紹
2.2.2 海林格決策樹
2.3 關聯(lián)規(guī)則特征選擇理論
2.3.1 關聯(lián)規(guī)則特征選擇理論介紹
2.3.2 關聯(lián)規(guī)則特征選擇理論在不平衡數(shù)據(jù)集分類中的作用
2.4 不平衡數(shù)據(jù)集分類的評價標準
2.5 本章小結(jié)
第3章 CFS-HDRF算法的構(gòu)建與實驗分析
3.1 HDRF模型
3.1.1 HDRF模型流程圖
3.1.2 HDRF算法過程
3.1.3 HDRF模型實驗
3.2 CFS-HDRF算法
3.2.1 問題分析
3.2.2 改進思路
3.2.3 算法流程圖
3.2.4 算法實現(xiàn)過程
3.3 實驗設計與分析
3.3.1 實驗準備
3.3.2 實驗設計
3.3.3 實驗結(jié)果分析
3.3.4 訓練樣本量分析與改進
3.3.5 參數(shù)優(yōu)化
3.4 本章小結(jié)
第4章 基于CFS-HDRF算法的軟件工程學習型團隊績效評估原型系統(tǒng)設計
4.1 引言
4.2 數(shù)據(jù)處理
4.2.1 數(shù)據(jù)集說明
4.2.2 數(shù)據(jù)預處理
4.3 系統(tǒng)需求分析與架構(gòu)
4.3.1 系統(tǒng)需求分析
4.3.2 系統(tǒng)架構(gòu)
4.4 系統(tǒng)設計
4.5 系統(tǒng)主要界面
4.6 系統(tǒng)效果分析
4.7 本章小結(jié)
總結(jié)與展望
參考文獻
致謝
個人簡歷、在學期間發(fā)表的學術(shù)論文及研究成果
本文編號:3806478
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 選題緣起與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 不平衡數(shù)據(jù)集分類問題的研究現(xiàn)狀
1.2.2 隨機森林算法在不平衡數(shù)據(jù)集分類問題上的研究現(xiàn)狀
1.2.3 不平衡數(shù)據(jù)集分類問題特征選擇方法研究現(xiàn)狀
1.3 主要研究內(nèi)容與論文安排
1.3.1 主要研究內(nèi)容
1.3.2 本文組織結(jié)構(gòu)
1.4 本章小結(jié)
第2章 相關理論
2.1 隨機森林相關算法概述
2.1.1 相關決策樹算法
2.1.2 隨機森林算法
2.2 海林格距離與海林格決策樹
2.2.1 海林格距離介紹
2.2.2 海林格決策樹
2.3 關聯(lián)規(guī)則特征選擇理論
2.3.1 關聯(lián)規(guī)則特征選擇理論介紹
2.3.2 關聯(lián)規(guī)則特征選擇理論在不平衡數(shù)據(jù)集分類中的作用
2.4 不平衡數(shù)據(jù)集分類的評價標準
2.5 本章小結(jié)
第3章 CFS-HDRF算法的構(gòu)建與實驗分析
3.1 HDRF模型
3.1.1 HDRF模型流程圖
3.1.2 HDRF算法過程
3.1.3 HDRF模型實驗
3.2 CFS-HDRF算法
3.2.1 問題分析
3.2.2 改進思路
3.2.3 算法流程圖
3.2.4 算法實現(xiàn)過程
3.3 實驗設計與分析
3.3.1 實驗準備
3.3.2 實驗設計
3.3.3 實驗結(jié)果分析
3.3.4 訓練樣本量分析與改進
3.3.5 參數(shù)優(yōu)化
3.4 本章小結(jié)
第4章 基于CFS-HDRF算法的軟件工程學習型團隊績效評估原型系統(tǒng)設計
4.1 引言
4.2 數(shù)據(jù)處理
4.2.1 數(shù)據(jù)集說明
4.2.2 數(shù)據(jù)預處理
4.3 系統(tǒng)需求分析與架構(gòu)
4.3.1 系統(tǒng)需求分析
4.3.2 系統(tǒng)架構(gòu)
4.4 系統(tǒng)設計
4.5 系統(tǒng)主要界面
4.6 系統(tǒng)效果分析
4.7 本章小結(jié)
總結(jié)與展望
參考文獻
致謝
個人簡歷、在學期間發(fā)表的學術(shù)論文及研究成果
本文編號:3806478
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3806478.html
最近更新
教材專著