天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于復(fù)合CatBoost模型的P2P網(wǎng)貸違約分類預(yù)測(cè)

發(fā)布時(shí)間:2020-07-15 07:42
【摘要】:P2P網(wǎng)貸作為互聯(lián)網(wǎng)金融領(lǐng)域的代表發(fā)展非常迅速,與此同時(shí),眾多風(fēng)險(xiǎn)也隨之暴露,其中最主要的是信用風(fēng)險(xiǎn)(借款方違約風(fēng)險(xiǎn))。因此,對(duì)借款方是否違約進(jìn)行分類預(yù)測(cè)以及研究影響借款方違約的因素具有一定現(xiàn)實(shí)意義。本文選擇我國(guó)上線較早且具有代表性的P2P網(wǎng)貸平臺(tái)-人人貸作為研究對(duì)象,選擇其2016年和2017年的有效歷史交易數(shù)據(jù)構(gòu)建二分類預(yù)測(cè)模型進(jìn)行實(shí)證研究。首先,本文基于五個(gè)方面構(gòu)建了19個(gè)特征,然后應(yīng)用隨機(jī)森林進(jìn)行特征選擇,依據(jù)每個(gè)特征的平均得分選擇了前15個(gè)較重要的特征參與建模;其次,將不同的非均衡數(shù)據(jù)集處理方法(欠采樣、過采樣、欠采樣過采樣組合)與機(jī)器學(xué)習(xí)算法(SVM、RF、AdaBoost、XGBoost、LightGBM、CatBoost)相結(jié)合建立網(wǎng)貸違約分類預(yù)測(cè)模型;最后,通過對(duì)AUC值等衡量分類模型性能的指標(biāo)進(jìn)行對(duì)比分析,結(jié)果顯示:復(fù)合CatBoost模型中的SMOTETomek-CatBoost模型相較于其它模型(SVM和復(fù)合SVM模型、RF和復(fù)合RF模型、AdaBoost和復(fù)合AdaBoost模型、XGBoost和復(fù)合XGBoost模型、LightGBM和復(fù)合LightGBM模型)具有更好的分類預(yù)測(cè)性能。通過對(duì)復(fù)合XGBoost、復(fù)合LightGBM和復(fù)合CatBoost模型的特征重要性評(píng)分結(jié)果分析,得到了7個(gè)影響借款方違約的主要因素。
【學(xué)位授予單位】:蘭州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:F832.4;F724.6
【圖文】:

示意圖,核函數(shù),示意圖,算法


本文選取 ENN 算法、RENN 算法、NCR 算法、Borrline2-SMOTE 算法、ADASYN 算法、SMOTE+TomN 算法對(duì)數(shù)據(jù)集進(jìn)行均衡處理。量機(jī)(SVM)機(jī)是由 Cortes 和 Vapnik[32]于 1995 年提出,不僅可問題的研究,SVM 作為經(jīng)典算法已被應(yīng)用在很多空氣質(zhì)量預(yù)測(cè)、電力預(yù)測(cè)等,其作為分類模型的主一個(gè)使得正反兩類樣本之間間隔最大的分類超平面魯棒的。若樣本在當(dāng)前特征空間中是線性可分的,分類超平面;若樣本屬于線性不可分情況,則引入射到其可以實(shí)現(xiàn)線性可分的高維空間(如圖 2-1 所以在低維進(jìn)行計(jì)算克服計(jì)算量大的難題,也可以使的效果。

示意圖,集成學(xué)習(xí),示意圖,學(xué)習(xí)器


學(xué)碩士學(xué)位論文 基于復(fù)合 CatBoost 模型的 P2P 網(wǎng)貸違約分類預(yù)moid 核: ( ,) tanh( )jTijik xxxx,tanh 是雙曲正切函數(shù), 0, 使用 SVM 進(jìn)行二分類預(yù)測(cè)時(shí),選擇的是比較常用的高斯核。森林(RF)森林原理法是通過學(xué)習(xí)多個(gè)基礎(chǔ)模型來完成學(xué)習(xí)任務(wù),每個(gè)經(jīng)過訓(xùn)練的基礎(chǔ)習(xí)器,然后將多個(gè)基學(xué)習(xí)器的結(jié)果整合后輸出,輸出的結(jié)果作為最(如圖 2-2 所示)。集成學(xué)習(xí)可以分為兩種類型:同質(zhì)集成和異質(zhì)成是每個(gè)基學(xué)習(xí)器使用的是同種學(xué)習(xí)算法,異質(zhì)集成是允許基學(xué)習(xí)學(xué)習(xí)算法,比如所有基礎(chǔ)模型中,有的學(xué)習(xí)算法是決策樹,有的是隨機(jī)森林是基于并行集成算法的典型代表-Bagging 的擴(kuò)展變體,是決策樹,是同質(zhì)集成類型。

曲線,查準(zhǔn)率,查全率,逃犯


圖 2-3 PR 曲線示意圖橫軸為查全率,縱軸為查準(zhǔn)率。如果一個(gè)模型個(gè)模型的 PR 曲線,則前者的性能要比后者好;,那么將無(wú)法直接判斷兩個(gè)模型的優(yōu)劣,因?yàn)?P此可依據(jù)具體的業(yè)務(wù)目標(biāo)計(jì)算 F , F 為查準(zhǔn)率域?qū)W習(xí)目標(biāo)不同,比如,電子商務(wù)平臺(tái)需要對(duì)他們就更看重查準(zhǔn)率;而對(duì)于抓捕逃犯來說,看重查全率。因此,我們?cè)趯?shí)際業(yè)務(wù)中需要根供了這樣的機(jī)會(huì),可以通過調(diào)節(jié) 值來實(shí)現(xiàn),,查全率有較大影響;當(dāng) 小于 1 時(shí),查準(zhǔn)率 AUCceiver Operating Characteristic)曲線被經(jīng)常應(yīng)常,()(1)22PRPRF

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 宋維康;徐冰;;煤與瓦斯突出分類預(yù)測(cè)方法分析[J];煤;2016年04期

2 李倩倩;姜景;李瑛;劉怡君;;我國(guó)政務(wù)微博轉(zhuǎn)發(fā)規(guī)模分類預(yù)測(cè)[J];情報(bào)雜志;2018年01期

3 路小娟;朱正平;;太陽(yáng)能光伏發(fā)電量分類預(yù)測(cè)研究[J];自動(dòng)化與儀器儀表;2016年01期

4 陸桂明;張?jiān)?周志敏;;基于機(jī)器學(xué)習(xí)的貧困生分類預(yù)測(cè)研究[J];計(jì)算機(jī)應(yīng)用與軟件;2019年01期

5 張學(xué)扶;曾攀;金敏;;相關(guān)性和相似度聯(lián)合的癌癥分類預(yù)測(cè)[J];計(jì)算機(jī)科學(xué);2019年07期

6 屈玉濤;鄧萬(wàn)宇;;基于matlab的svm分類預(yù)測(cè)實(shí)現(xiàn)[J];信息通信;2017年03期

7 王與;劉洋;;分類技術(shù)在高校教學(xué)管理中的應(yīng)用[J];滁州學(xué)院學(xué)報(bào);2011年05期

8 莫世華,俞敏;霍亂發(fā)病地區(qū)分類預(yù)測(cè)方法研究[J];浙江預(yù)防醫(yī)學(xué);1999年10期

9 馬寅午,周曉陽(yáng),尚金成,張勇傳,顧寧昌,劉丹雅,譚培倫;防洪系統(tǒng)洪水分類預(yù)測(cè)優(yōu)化調(diào)度方法[J];水利學(xué)報(bào);1997年04期

10 陳暉;胡澤根;李云鵬;葛麗珍;李彥來;;自組織神經(jīng)網(wǎng)絡(luò)技術(shù)在新油田快速評(píng)價(jià)中的應(yīng)用[J];重慶科技學(xué)院學(xué)報(bào)(自然科學(xué)版);2017年02期

相關(guān)會(huì)議論文 前3條

1 沈杰;李衛(wèi)華;唐峗;;一種基于化合物子結(jié)構(gòu)模式識(shí)別的分類預(yù)測(cè)方法[A];中國(guó)化學(xué)會(huì)第27屆學(xué)術(shù)年會(huì)第15分會(huì)場(chǎng)摘要集[C];2010年

2 孫蕾;羅建書;;基于分類預(yù)測(cè)的高光譜遙感圖像無(wú)損壓縮[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2005)論文集[C];2005年

3 羅三華;黃建華;邱建丁;;小波支持向量機(jī)在蛋白質(zhì)二級(jí)結(jié)構(gòu)分類預(yù)測(cè)中應(yīng)用[A];中國(guó)化學(xué)會(huì)第26屆學(xué)術(shù)年會(huì)化學(xué)信息學(xué)與化學(xué)計(jì)量學(xué)分會(huì)場(chǎng)論文集[C];2008年

相關(guān)博士學(xué)位論文 前4條

1 劉惠;蛋白質(zhì)序列數(shù)據(jù)的分類預(yù)測(cè)研究[D];上海交通大學(xué);2007年

2 王立鵬;特征提取及分類算法在膜蛋白分類預(yù)測(cè)問題中的應(yīng)用[D];蘭州理工大學(xué);2010年

3 廖志芳;大腸早癌輔助診斷數(shù)據(jù)挖掘方法研究[D];中南大學(xué);2008年

4 王彤;高維生物數(shù)據(jù)的分類與預(yù)測(cè)研究[D];上海交通大學(xué);2009年

相關(guān)碩士學(xué)位論文 前10條

1 邵亞潔;基于復(fù)合CatBoost模型的P2P網(wǎng)貸違約分類預(yù)測(cè)[D];蘭州大學(xué);2019年

2 王會(huì)娜;基于特征提取的肝癌患者乙肝病毒再激活的分類預(yù)測(cè)[D];齊魯工業(yè)大學(xué);2018年

3 王曉明;基于分類預(yù)測(cè)技術(shù)的軟件成本估算方法的研究與應(yīng)用[D];國(guó)防科學(xué)技術(shù)大學(xué);2010年

4 安俊峰;游戲評(píng)價(jià)數(shù)據(jù)的分類預(yù)測(cè)研究[D];東華大學(xué);2014年

5 張吉寬;蛋白質(zhì)熱穩(wěn)定性分類預(yù)測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];遼寧大學(xué);2016年

6 陶雨雨;決策樹及神經(jīng)網(wǎng)絡(luò)算法在股票分類預(yù)測(cè)中的應(yīng)用[D];杭州電子科技大學(xué);2014年

7 石雪娜;基于壓縮感知的蛋白質(zhì)功能分類預(yù)測(cè)[D];北京交通大學(xué);2014年

8 楊曉鵬;大數(shù)據(jù)環(huán)境下隱私保護(hù)的預(yù)測(cè)服務(wù)機(jī)制研究[D];西安電子科技大學(xué);2017年

9 肖芳;工業(yè)產(chǎn)品運(yùn)輸需求分類預(yù)測(cè)理論研究[D];長(zhǎng)安大學(xué);2011年

10 于成群;基于集成學(xué)習(xí)的數(shù)據(jù)庫(kù)營(yíng)銷研究[D];重慶大學(xué);2016年



本文編號(hào):2756195

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/2756195.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1f6a1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com