天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

不平衡分類的數(shù)據(jù)采樣問題實證研究

發(fā)布時間:2021-12-22 10:18
  獲取最為精確的分類效果從來都是機器學習方法所追求的研究目的,大多數(shù)的機器學習分類模型,一般都是根據(jù)平衡數(shù)據(jù)所設計的,模型只追求整體的分類性能。在做分類問題的數(shù)據(jù)挖掘領域,不平衡數(shù)據(jù)普遍存在,直接訓練不平衡的數(shù)據(jù)集會導致對數(shù)據(jù)集少數(shù)類的預測準確性降低,甚至當數(shù)據(jù)極度不平衡時,模型會把大部分的少數(shù)類都劃分為多數(shù)類,而不平衡數(shù)據(jù)中數(shù)據(jù)量較少的那一類往往是需要重點關(guān)注的對象,對少數(shù)類的誤分會造成不可預估的后果。針對數(shù)據(jù)的不平衡情況,本文敘述了常用的數(shù)據(jù)采樣方法,細分了欠采樣、過采樣方法以及混合采樣方法的優(yōu)劣,從數(shù)據(jù)層面進行分析。本文采用正負樣本的比例接近1:11的P2P借貸數(shù)據(jù),利用機器學習分類器進行建模。首先對貸款基本情況、用戶畫像和業(yè)務等方面進行可視化分析,發(fā)現(xiàn)違約相關(guān)性較高的特征屬性,給予投資人有效性的建議,謹慎投資,降低違約風險帶給客戶的損失;再對數(shù)據(jù)進行數(shù)據(jù)預處理,刪掉缺失比例較大、對整體模型無實際意義的特征,對特征進行有效地填充,刪除缺失比例較小的特征相關(guān)的樣本;通過特征的相關(guān)性分析,選擇與目標變量相關(guān)性較高的特征,提高模型性能上限。選擇分類模型,對比不進行處理和進行數(shù)據(jù)采樣方法之...

【文章來源】: 華中師范大學湖北省 211工程院校 教育部直屬院校

【文章頁數(shù)】:45 頁

【文章目錄】:
摘要
Abstract
第一章 緒論
    1.1 研究背景與意義
    1.2 國內(nèi)外研究綜述
    1.3 研究方法
第二章 不平衡采樣方法及評價指標
    2.1 不平衡數(shù)據(jù)之數(shù)據(jù)采樣
        2.1.1 欠采樣
        2.1.2 過采樣
        2.1.3 混合采樣
    2.2 不平衡數(shù)據(jù)之評價指標
        2.2.1 混淆矩陣
        2.2.2 ROC曲線和ROC-AUC
第三章 分類學習理論
    3.1 邏輯回歸
    3.2 隨機森林
第四章 實證分析
    4.1 數(shù)據(jù)來源
    4.2 數(shù)據(jù)探索(EDA)
        4.2.1 貸款質(zhì)量
        4.2.2 用戶畫像
        4.2.3 業(yè)務分析
    4.3 數(shù)據(jù)預處理
        4.3.1 缺失值處理
        4.3.2 異常值處理
    4.4 特征工程
        4.4.1 特征編碼
        4.4.2 特征選擇
    4.5 模型訓練及對比分析
        4.5.1 數(shù)據(jù)采樣對比分析
        4.5.2 模型對比分析
    4.6 結(jié)論
第五章 結(jié)論與展望
    5.1 研究總結(jié)
    5.2 展望
參考文獻
致謝


【參考文獻】:
期刊論文
[1]P2P網(wǎng)絡借貸平臺信用風險研究 [J]. 丁潔.  價值工程. 2019(31)
[2]從P2P網(wǎng)絡借貸平臺異常財務數(shù)據(jù)識別風險——以T公司為例 [J]. 歐陽鋆.  中國商論. 2019(17)
[3]基于混合采樣策略的改進隨機森林不平衡數(shù)據(jù)分類算法 [J]. 鄭建華,劉雙印,賀超波,符志強.  重慶理工大學學報(自然科學). 2019(07)
[4]改進SMOTE的不平衡數(shù)據(jù)集成分類算法 [J]. 王忠震,黃勃,方志軍,高永彬,張娟.  計算機應用. 2019(09)
[5]一種改進型的不平衡數(shù)據(jù)欠采樣算法 [J]. 魏力,張育平.  小型微型計算機系統(tǒng). 2019(05)
[6]基于隨機森林分類模型的P2P網(wǎng)絡借貸標的信用風險因子研究 [J]. 馬春文,趙慧,李琪.  吉林大學社會科學學報. 2019(03)
[7]基于邏輯回歸的商業(yè)銀行客戶信用評級研究 [J]. 郝婷婷,俞俊杰,陳燕.  科技資訊. 2019(03)
[8]面向不平衡數(shù)據(jù)集的一種基于聚類的欠采樣方法 [J]. 李春雪,謝林森,盧誠波.  數(shù)學的實踐與認識. 2019(01)
[9]一種改進過采樣的不平衡數(shù)據(jù)集成分類算法 [J]. 張菲菲,王黎明,柴玉梅.  小型微型計算機系統(tǒng). 2018(10)
[10]基于混合采樣的非平衡數(shù)據(jù)分類算法 [J]. 吳藝凡,梁吉業(yè),王俊紅.  計算機科學與探索. 2019(02)

碩士論文
[1]基于隨機森林的個人信用評價指標分析[D]. 王夢芹.安徽大學. 2018



本文編號:3546233

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/3546233.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9dca8***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
欧美高潮喷吹一区二区| 亚洲中文字幕在线观看四区| 国产美女精品人人做人人爽| 噜噜中文字幕一区二区| 日韩人妻欧美一区二区久久| 国产一区欧美一区日韩一区| 风间中文字幕亚洲一区| 91插插插外国一区二区| 国产精品免费自拍视频| 久久精品国产亚洲熟女| 日韩欧美一区二区久久婷婷| 精品一区二区三区中文字幕| 午夜精品福利视频观看 | 亚洲欧美日产综合在线网| 日韩无套内射免费精品| 麻豆剧果冻传媒一二三区| 欧美一本在线免费观看| 91精品日本在线视频| 亚洲欧美国产网爆精品| 国产精品自拍杆香蕉视频| 黑鬼糟蹋少妇资源在线观看| 一区二区三区亚洲天堂| 亚洲国产另类久久精品| 一区二区三区人妻在线| 亚洲综合色在线视频香蕉视频| 亚洲欧洲一区二区综合精品| 欧美一级特黄特色大色大片| 亚洲一区二区久久观看| 国产又粗又猛又黄又爽视频免费| 日韩性生活片免费观看| 色一情一乱一区二区三区码| 亚洲中文字幕视频在线观看| 国产亚洲精品久久99| 欧美日韩国产另类一区二区| 亚洲精品中文字幕熟女| 日韩免费成人福利在线| 免费久久一级欧美特大黄孕妇 | 日韩中文无线码在线视频| 色无极东京热男人的天堂| 日韩国产中文在线视频| 国产精品内射视频免费|