不平衡分類的數(shù)據(jù)采樣問題實證研究
發(fā)布時間:2021-12-22 10:18
獲取最為精確的分類效果從來都是機器學習方法所追求的研究目的,大多數(shù)的機器學習分類模型,一般都是根據(jù)平衡數(shù)據(jù)所設計的,模型只追求整體的分類性能。在做分類問題的數(shù)據(jù)挖掘領域,不平衡數(shù)據(jù)普遍存在,直接訓練不平衡的數(shù)據(jù)集會導致對數(shù)據(jù)集少數(shù)類的預測準確性降低,甚至當數(shù)據(jù)極度不平衡時,模型會把大部分的少數(shù)類都劃分為多數(shù)類,而不平衡數(shù)據(jù)中數(shù)據(jù)量較少的那一類往往是需要重點關(guān)注的對象,對少數(shù)類的誤分會造成不可預估的后果。針對數(shù)據(jù)的不平衡情況,本文敘述了常用的數(shù)據(jù)采樣方法,細分了欠采樣、過采樣方法以及混合采樣方法的優(yōu)劣,從數(shù)據(jù)層面進行分析。本文采用正負樣本的比例接近1:11的P2P借貸數(shù)據(jù),利用機器學習分類器進行建模。首先對貸款基本情況、用戶畫像和業(yè)務等方面進行可視化分析,發(fā)現(xiàn)違約相關(guān)性較高的特征屬性,給予投資人有效性的建議,謹慎投資,降低違約風險帶給客戶的損失;再對數(shù)據(jù)進行數(shù)據(jù)預處理,刪掉缺失比例較大、對整體模型無實際意義的特征,對特征進行有效地填充,刪除缺失比例較小的特征相關(guān)的樣本;通過特征的相關(guān)性分析,選擇與目標變量相關(guān)性較高的特征,提高模型性能上限。選擇分類模型,對比不進行處理和進行數(shù)據(jù)采樣方法之...
【文章來源】: 華中師范大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:45 頁
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究綜述
1.3 研究方法
第二章 不平衡采樣方法及評價指標
2.1 不平衡數(shù)據(jù)之數(shù)據(jù)采樣
2.1.1 欠采樣
2.1.2 過采樣
2.1.3 混合采樣
2.2 不平衡數(shù)據(jù)之評價指標
2.2.1 混淆矩陣
2.2.2 ROC曲線和ROC-AUC
第三章 分類學習理論
3.1 邏輯回歸
3.2 隨機森林
第四章 實證分析
4.1 數(shù)據(jù)來源
4.2 數(shù)據(jù)探索(EDA)
4.2.1 貸款質(zhì)量
4.2.2 用戶畫像
4.2.3 業(yè)務分析
4.3 數(shù)據(jù)預處理
4.3.1 缺失值處理
4.3.2 異常值處理
4.4 特征工程
4.4.1 特征編碼
4.4.2 特征選擇
4.5 模型訓練及對比分析
4.5.1 數(shù)據(jù)采樣對比分析
4.5.2 模型對比分析
4.6 結(jié)論
第五章 結(jié)論與展望
5.1 研究總結(jié)
5.2 展望
參考文獻
致謝
【參考文獻】:
期刊論文
[1]P2P網(wǎng)絡借貸平臺信用風險研究 [J]. 丁潔. 價值工程. 2019(31)
[2]從P2P網(wǎng)絡借貸平臺異常財務數(shù)據(jù)識別風險——以T公司為例 [J]. 歐陽鋆. 中國商論. 2019(17)
[3]基于混合采樣策略的改進隨機森林不平衡數(shù)據(jù)分類算法 [J]. 鄭建華,劉雙印,賀超波,符志強. 重慶理工大學學報(自然科學). 2019(07)
[4]改進SMOTE的不平衡數(shù)據(jù)集成分類算法 [J]. 王忠震,黃勃,方志軍,高永彬,張娟. 計算機應用. 2019(09)
[5]一種改進型的不平衡數(shù)據(jù)欠采樣算法 [J]. 魏力,張育平. 小型微型計算機系統(tǒng). 2019(05)
[6]基于隨機森林分類模型的P2P網(wǎng)絡借貸標的信用風險因子研究 [J]. 馬春文,趙慧,李琪. 吉林大學社會科學學報. 2019(03)
[7]基于邏輯回歸的商業(yè)銀行客戶信用評級研究 [J]. 郝婷婷,俞俊杰,陳燕. 科技資訊. 2019(03)
[8]面向不平衡數(shù)據(jù)集的一種基于聚類的欠采樣方法 [J]. 李春雪,謝林森,盧誠波. 數(shù)學的實踐與認識. 2019(01)
[9]一種改進過采樣的不平衡數(shù)據(jù)集成分類算法 [J]. 張菲菲,王黎明,柴玉梅. 小型微型計算機系統(tǒng). 2018(10)
[10]基于混合采樣的非平衡數(shù)據(jù)分類算法 [J]. 吳藝凡,梁吉業(yè),王俊紅. 計算機科學與探索. 2019(02)
碩士論文
[1]基于隨機森林的個人信用評價指標分析[D]. 王夢芹.安徽大學. 2018
本文編號:3546233
【文章來源】: 華中師范大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:45 頁
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究綜述
1.3 研究方法
第二章 不平衡采樣方法及評價指標
2.1 不平衡數(shù)據(jù)之數(shù)據(jù)采樣
2.1.1 欠采樣
2.1.2 過采樣
2.1.3 混合采樣
2.2 不平衡數(shù)據(jù)之評價指標
2.2.1 混淆矩陣
2.2.2 ROC曲線和ROC-AUC
第三章 分類學習理論
3.1 邏輯回歸
3.2 隨機森林
第四章 實證分析
4.1 數(shù)據(jù)來源
4.2 數(shù)據(jù)探索(EDA)
4.2.1 貸款質(zhì)量
4.2.2 用戶畫像
4.2.3 業(yè)務分析
4.3 數(shù)據(jù)預處理
4.3.1 缺失值處理
4.3.2 異常值處理
4.4 特征工程
4.4.1 特征編碼
4.4.2 特征選擇
4.5 模型訓練及對比分析
4.5.1 數(shù)據(jù)采樣對比分析
4.5.2 模型對比分析
4.6 結(jié)論
第五章 結(jié)論與展望
5.1 研究總結(jié)
5.2 展望
參考文獻
致謝
【參考文獻】:
期刊論文
[1]P2P網(wǎng)絡借貸平臺信用風險研究 [J]. 丁潔. 價值工程. 2019(31)
[2]從P2P網(wǎng)絡借貸平臺異常財務數(shù)據(jù)識別風險——以T公司為例 [J]. 歐陽鋆. 中國商論. 2019(17)
[3]基于混合采樣策略的改進隨機森林不平衡數(shù)據(jù)分類算法 [J]. 鄭建華,劉雙印,賀超波,符志強. 重慶理工大學學報(自然科學). 2019(07)
[4]改進SMOTE的不平衡數(shù)據(jù)集成分類算法 [J]. 王忠震,黃勃,方志軍,高永彬,張娟. 計算機應用. 2019(09)
[5]一種改進型的不平衡數(shù)據(jù)欠采樣算法 [J]. 魏力,張育平. 小型微型計算機系統(tǒng). 2019(05)
[6]基于隨機森林分類模型的P2P網(wǎng)絡借貸標的信用風險因子研究 [J]. 馬春文,趙慧,李琪. 吉林大學社會科學學報. 2019(03)
[7]基于邏輯回歸的商業(yè)銀行客戶信用評級研究 [J]. 郝婷婷,俞俊杰,陳燕. 科技資訊. 2019(03)
[8]面向不平衡數(shù)據(jù)集的一種基于聚類的欠采樣方法 [J]. 李春雪,謝林森,盧誠波. 數(shù)學的實踐與認識. 2019(01)
[9]一種改進過采樣的不平衡數(shù)據(jù)集成分類算法 [J]. 張菲菲,王黎明,柴玉梅. 小型微型計算機系統(tǒng). 2018(10)
[10]基于混合采樣的非平衡數(shù)據(jù)分類算法 [J]. 吳藝凡,梁吉業(yè),王俊紅. 計算機科學與探索. 2019(02)
碩士論文
[1]基于隨機森林的個人信用評價指標分析[D]. 王夢芹.安徽大學. 2018
本文編號:3546233
本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/3546233.html
最近更新
教材專著