基于XGBoost的互聯(lián)網(wǎng)金融貸前逾期識(shí)別與模型表達(dá)
發(fā)布時(shí)間:2021-12-09 18:31
本文主要基于XGBoost(eXtreme Gradient Boosting極限梯度提升)模型,研究在互聯(lián)網(wǎng)金融場(chǎng)景中對(duì)有貸前逾期風(fēng)險(xiǎn)的用戶進(jìn)行識(shí)別的問題,并通過強(qiáng)大的SHAP(SHAPley夏普利)解釋框架對(duì)模型進(jìn)行可視化表達(dá)。為了研究這一問題,本文選取了融360企業(yè)提供的公開數(shù)據(jù)集,在萬級(jí)數(shù)據(jù)量以及匿名變量的場(chǎng)景中,實(shí)現(xiàn)對(duì)變量的清洗、模型的構(gòu)造、比較、可視化,以此說明XGBoost模型的高精度以及在貸前逾期場(chǎng)景中可解釋性。本文一方面綜合考慮各種變量的性質(zhì),對(duì)匿名變量的缺失值進(jìn)行有規(guī)律地插補(bǔ),以實(shí)現(xiàn)對(duì)變量的清洗,避免“垃圾進(jìn)、垃圾出”(Garbage In Garbage Out)的情況發(fā)生。另一方面,通過控制訓(xùn)練集和測(cè)試集的一致性,構(gòu)造了邏輯回歸(LR)、隨機(jī)森林(RF)、梯度提升決策樹(GBDT)三個(gè)模型,將這三個(gè)經(jīng)典模型作為基線模型,通過精度對(duì)比說明XGBoost模型的優(yōu)良性。為了讓模型評(píng)估指標(biāo)更貼合實(shí)際場(chǎng)景,本文選取了三大類七個(gè)指標(biāo)綜合地評(píng)判各個(gè)模型的識(shí)別效果。評(píng)價(jià)指標(biāo)中包括模型的排序能力、對(duì)正樣本的識(shí)別能力等,并構(gòu)造了預(yù)期收益這一指標(biāo)替代常規(guī)的準(zhǔn)確率指標(biāo)。進(jìn)一步地,為了提...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:70 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
本文研究方案
圖 2-1 隨機(jī)森林決策樹生成過程中選擇 Gini 系數(shù)最小作為分裂點(diǎn)示意圖在構(gòu)建每棵決策樹時(shí)訓(xùn)練集使用了不同的隨機(jī)且有放回的抽樣策略,所以對(duì)于每棵樹而言,大約有 1/3 的訓(xùn)練樣本沒有參與該樹的生成,這些樣本被稱為袋外估計(jì)樣本(oob 樣本)。該采樣特點(diǎn)為模型進(jìn)行 oob 估計(jì)提供了內(nèi)部便利:模型只要計(jì)算每個(gè)樣本在作為 oob 樣本時(shí)的分類情況,并以簡(jiǎn)單多數(shù)投票作為該樣本的分類結(jié)果,最后計(jì)算誤分個(gè)數(shù)占樣本總數(shù)的比率,即能得到隨機(jī)森林的 oob 誤分率。隨機(jī)森林模型的 oob 誤分率受到兩個(gè)因素的影響,即模型中任意兩棵樹的相關(guān)性和每棵樹的分類能力。任意兩棵樹的相關(guān)性越大則 oob 誤分率越大,每棵樹的分類能力越強(qiáng),整個(gè)模型的 oob 誤分率越低。一旦減小每次建模時(shí)的特征選擇個(gè)數(shù),就能降低樹之間的相關(guān)性并提升模型的分類能力。以往研究發(fā)現(xiàn),最佳參數(shù)建議為 = √變量個(gè)數(shù),以本文研究的這一場(chǎng)景而言,在 6369 維變量之中以每次√ ≈ 個(gè)變量。之后的建模過程中本文也會(huì)參考這一參數(shù)進(jìn)行隨機(jī)森林模型的建立。
.1 GBDT 模型的應(yīng)用模型一直以來都會(huì)極大依賴于業(yè)務(wù)人員對(duì)業(yè)務(wù)特征的理解和加工,而這一依賴于業(yè)務(wù)人員對(duì)該領(lǐng)域的先驗(yàn)知識(shí)沉淀、或者通過反復(fù)實(shí)驗(yàn)獲得的有與特征的組合,也就是線性模型中的交叉項(xiàng)。但這樣地探索性過程會(huì)耗費(fèi)力與時(shí)間成本,造成了人們熟知的機(jī)器學(xué)習(xí)項(xiàng)目中有多少人工的投入,就能的現(xiàn)象。而由于這一過程是探索性的,并不能保證所有的投入會(huì)獲得相,甚至耗費(fèi)了大量的時(shí)間也無法獲得相應(yīng)的產(chǎn)出,甚至不一定能夠提升模。于是學(xué)界希望將這一排列組合式的探索過程通過算法自動(dòng)化地去完成有效地尋找到由模型提升價(jià)值地特征組合。2014 年 Facebook 公司利用決叉方式來實(shí)現(xiàn)尋找有效的特征組合,并進(jìn)一步地將所有基模型的結(jié)果用的方式映射,最終以提升模型效果(見圖 2-3)。在這一過程中,GBDT 構(gòu)樹,各個(gè)子樹的結(jié)果通過邏輯回歸的方式分配權(quán)重,而不是簡(jiǎn)單的線性相兩層映射的方式,獲得更豐富的映射關(guān)系。
【參考文獻(xiàn)】:
期刊論文
[1]基于XGBoost算法的用戶評(píng)分預(yù)測(cè)模型及應(yīng)用[J]. 楊貴軍,徐雪,趙富強(qiáng). 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2019(01)
[2]基于聚類和XGboost算法的心臟病預(yù)測(cè)[J]. 劉宇,喬木. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2019(01)
[3]基于XGBoost的糖尿病風(fēng)險(xiǎn)預(yù)測(cè)[J]. 蘇天培. 科技視界. 2019(02)
[4]基于XGBoost方法的葡萄酒品質(zhì)預(yù)測(cè)[J]. 孫逸菲,袁德成,王建龍,白楊. 沈陽化工大學(xué)學(xué)報(bào). 2018(04)
[5]基于XGBoost特征選擇的幕課翹課指數(shù)建立及應(yīng)用[J]. 宋國(guó)琴,劉斌. 電子科技大學(xué)學(xué)報(bào). 2018(06)
[6]基于XGBoost算法的用戶行為預(yù)測(cè)與風(fēng)險(xiǎn)分析[J]. 邱耀,楊國(guó)為. 工業(yè)控制計(jì)算機(jī). 2018(09)
[7]基于二次組合的特征工程與XGBoost模型的用戶行為預(yù)測(cè)[J]. 楊立洪,白肇強(qiáng). 科學(xué)技術(shù)與工程. 2018(14)
[8]軟信息與小微企業(yè)信用風(fēng)險(xiǎn)識(shí)別[J]. 蘇靜. 征信. 2017(10)
[9]XGBoost算法在電子商務(wù)商品推薦中的應(yīng)用[J]. 張昊,紀(jì)宏超,張紅宇. 物聯(lián)網(wǎng)技術(shù). 2017(02)
[10]基于隨機(jī)森林的P2P網(wǎng)絡(luò)借貸成功率預(yù)測(cè)研究[J]. 周玉琴,張曉玫,羅璇. 東北農(nóng)業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版). 2016(06)
博士論文
[1]我國(guó)P2P網(wǎng)絡(luò)借貸個(gè)人信用風(fēng)險(xiǎn)管理研究[D]. 夏雨霏.中國(guó)礦業(yè)大學(xué) 2018
碩士論文
[1]基于Xgboost的互聯(lián)網(wǎng)消費(fèi)金融信用風(fēng)控策略研究[D]. 杜盼.湘潭大學(xué) 2018
[2]基于大數(shù)據(jù)的P2P金融風(fēng)險(xiǎn)控制系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 高昊陽.北京交通大學(xué) 2018
[3]基于XGBoost模型的短期股票預(yù)測(cè)[D]. 伯毅.哈爾濱工業(yè)大學(xué) 2018
[4]個(gè)人信用風(fēng)險(xiǎn)評(píng)估的一種基于XGBoost的集成學(xué)習(xí)方法[D]. 李曉剛.中國(guó)科學(xué)技術(shù)大學(xué) 2018
[5]基于LightGBM與XGBoost算法的P2P網(wǎng)絡(luò)借貸違約預(yù)測(cè)模型的比較研究[D]. 沙靖嵐.東北財(cái)經(jīng)大學(xué) 2017
[6]我國(guó)P2P網(wǎng)絡(luò)借貸逾期率影響因素實(shí)證研究[D]. 余鯤.廣西師范大學(xué) 2017
[7]基于P2P網(wǎng)貸平臺(tái)的借款成功率以及還款逾期率影響因素研究[D]. 成冰倩.上海師范大學(xué) 2017
[8]基于用戶行為數(shù)據(jù)的P2P網(wǎng)貸違約預(yù)測(cè)[D]. 王靜月.上海師范大學(xué) 2017
[9]基于優(yōu)化的xgboost模型的商業(yè)銀行電話營(yíng)銷效果分析[D]. 徐彬心.蘭州大學(xué) 2017
[10]基于Xgboost方法的實(shí)體零售業(yè)銷售額預(yù)測(cè)研究[D]. 葉倩怡.南昌大學(xué) 2016
本文編號(hào):3531107
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:70 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
本文研究方案
圖 2-1 隨機(jī)森林決策樹生成過程中選擇 Gini 系數(shù)最小作為分裂點(diǎn)示意圖在構(gòu)建每棵決策樹時(shí)訓(xùn)練集使用了不同的隨機(jī)且有放回的抽樣策略,所以對(duì)于每棵樹而言,大約有 1/3 的訓(xùn)練樣本沒有參與該樹的生成,這些樣本被稱為袋外估計(jì)樣本(oob 樣本)。該采樣特點(diǎn)為模型進(jìn)行 oob 估計(jì)提供了內(nèi)部便利:模型只要計(jì)算每個(gè)樣本在作為 oob 樣本時(shí)的分類情況,并以簡(jiǎn)單多數(shù)投票作為該樣本的分類結(jié)果,最后計(jì)算誤分個(gè)數(shù)占樣本總數(shù)的比率,即能得到隨機(jī)森林的 oob 誤分率。隨機(jī)森林模型的 oob 誤分率受到兩個(gè)因素的影響,即模型中任意兩棵樹的相關(guān)性和每棵樹的分類能力。任意兩棵樹的相關(guān)性越大則 oob 誤分率越大,每棵樹的分類能力越強(qiáng),整個(gè)模型的 oob 誤分率越低。一旦減小每次建模時(shí)的特征選擇個(gè)數(shù),就能降低樹之間的相關(guān)性并提升模型的分類能力。以往研究發(fā)現(xiàn),最佳參數(shù)建議為 = √變量個(gè)數(shù),以本文研究的這一場(chǎng)景而言,在 6369 維變量之中以每次√ ≈ 個(gè)變量。之后的建模過程中本文也會(huì)參考這一參數(shù)進(jìn)行隨機(jī)森林模型的建立。
.1 GBDT 模型的應(yīng)用模型一直以來都會(huì)極大依賴于業(yè)務(wù)人員對(duì)業(yè)務(wù)特征的理解和加工,而這一依賴于業(yè)務(wù)人員對(duì)該領(lǐng)域的先驗(yàn)知識(shí)沉淀、或者通過反復(fù)實(shí)驗(yàn)獲得的有與特征的組合,也就是線性模型中的交叉項(xiàng)。但這樣地探索性過程會(huì)耗費(fèi)力與時(shí)間成本,造成了人們熟知的機(jī)器學(xué)習(xí)項(xiàng)目中有多少人工的投入,就能的現(xiàn)象。而由于這一過程是探索性的,并不能保證所有的投入會(huì)獲得相,甚至耗費(fèi)了大量的時(shí)間也無法獲得相應(yīng)的產(chǎn)出,甚至不一定能夠提升模。于是學(xué)界希望將這一排列組合式的探索過程通過算法自動(dòng)化地去完成有效地尋找到由模型提升價(jià)值地特征組合。2014 年 Facebook 公司利用決叉方式來實(shí)現(xiàn)尋找有效的特征組合,并進(jìn)一步地將所有基模型的結(jié)果用的方式映射,最終以提升模型效果(見圖 2-3)。在這一過程中,GBDT 構(gòu)樹,各個(gè)子樹的結(jié)果通過邏輯回歸的方式分配權(quán)重,而不是簡(jiǎn)單的線性相兩層映射的方式,獲得更豐富的映射關(guān)系。
【參考文獻(xiàn)】:
期刊論文
[1]基于XGBoost算法的用戶評(píng)分預(yù)測(cè)模型及應(yīng)用[J]. 楊貴軍,徐雪,趙富強(qiáng). 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2019(01)
[2]基于聚類和XGboost算法的心臟病預(yù)測(cè)[J]. 劉宇,喬木. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2019(01)
[3]基于XGBoost的糖尿病風(fēng)險(xiǎn)預(yù)測(cè)[J]. 蘇天培. 科技視界. 2019(02)
[4]基于XGBoost方法的葡萄酒品質(zhì)預(yù)測(cè)[J]. 孫逸菲,袁德成,王建龍,白楊. 沈陽化工大學(xué)學(xué)報(bào). 2018(04)
[5]基于XGBoost特征選擇的幕課翹課指數(shù)建立及應(yīng)用[J]. 宋國(guó)琴,劉斌. 電子科技大學(xué)學(xué)報(bào). 2018(06)
[6]基于XGBoost算法的用戶行為預(yù)測(cè)與風(fēng)險(xiǎn)分析[J]. 邱耀,楊國(guó)為. 工業(yè)控制計(jì)算機(jī). 2018(09)
[7]基于二次組合的特征工程與XGBoost模型的用戶行為預(yù)測(cè)[J]. 楊立洪,白肇強(qiáng). 科學(xué)技術(shù)與工程. 2018(14)
[8]軟信息與小微企業(yè)信用風(fēng)險(xiǎn)識(shí)別[J]. 蘇靜. 征信. 2017(10)
[9]XGBoost算法在電子商務(wù)商品推薦中的應(yīng)用[J]. 張昊,紀(jì)宏超,張紅宇. 物聯(lián)網(wǎng)技術(shù). 2017(02)
[10]基于隨機(jī)森林的P2P網(wǎng)絡(luò)借貸成功率預(yù)測(cè)研究[J]. 周玉琴,張曉玫,羅璇. 東北農(nóng)業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版). 2016(06)
博士論文
[1]我國(guó)P2P網(wǎng)絡(luò)借貸個(gè)人信用風(fēng)險(xiǎn)管理研究[D]. 夏雨霏.中國(guó)礦業(yè)大學(xué) 2018
碩士論文
[1]基于Xgboost的互聯(lián)網(wǎng)消費(fèi)金融信用風(fēng)控策略研究[D]. 杜盼.湘潭大學(xué) 2018
[2]基于大數(shù)據(jù)的P2P金融風(fēng)險(xiǎn)控制系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 高昊陽.北京交通大學(xué) 2018
[3]基于XGBoost模型的短期股票預(yù)測(cè)[D]. 伯毅.哈爾濱工業(yè)大學(xué) 2018
[4]個(gè)人信用風(fēng)險(xiǎn)評(píng)估的一種基于XGBoost的集成學(xué)習(xí)方法[D]. 李曉剛.中國(guó)科學(xué)技術(shù)大學(xué) 2018
[5]基于LightGBM與XGBoost算法的P2P網(wǎng)絡(luò)借貸違約預(yù)測(cè)模型的比較研究[D]. 沙靖嵐.東北財(cái)經(jīng)大學(xué) 2017
[6]我國(guó)P2P網(wǎng)絡(luò)借貸逾期率影響因素實(shí)證研究[D]. 余鯤.廣西師范大學(xué) 2017
[7]基于P2P網(wǎng)貸平臺(tái)的借款成功率以及還款逾期率影響因素研究[D]. 成冰倩.上海師范大學(xué) 2017
[8]基于用戶行為數(shù)據(jù)的P2P網(wǎng)貸違約預(yù)測(cè)[D]. 王靜月.上海師范大學(xué) 2017
[9]基于優(yōu)化的xgboost模型的商業(yè)銀行電話營(yíng)銷效果分析[D]. 徐彬心.蘭州大學(xué) 2017
[10]基于Xgboost方法的實(shí)體零售業(yè)銷售額預(yù)測(cè)研究[D]. 葉倩怡.南昌大學(xué) 2016
本文編號(hào):3531107
本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/3531107.html
最近更新
教材專著