基于超參數(shù)優(yōu)化和集成學習的互聯(lián)網(wǎng)信貸個人信用評估
發(fā)布時間:2021-12-18 15:21
針對互聯(lián)網(wǎng)信貸行業(yè)的個人信用風險評估問題,文章提出了一種基于貝葉斯參數(shù)優(yōu)化和XGBoost算法的信用評估方法。方法包括五個步驟:數(shù)據(jù)預處理、特征選擇、超參數(shù)優(yōu)化、模型訓練、模型預測和評估。實驗結(jié)果表明,本方法的預測效果優(yōu)于對比算法(Logistic回歸、支持向量機,隨機森林、神經(jīng)網(wǎng)絡),同時貝葉斯參數(shù)優(yōu)化方法優(yōu)于網(wǎng)格搜索法和隨機搜索法。因此本文提出的信用評估方法,可以更好區(qū)分違約用戶,有助于更好地識別用戶的違約風險。
【文章來源】:統(tǒng)計與決策. 2019,35(01)北大核心CSSCI
【文章頁數(shù)】:5 頁
【部分圖文】:
模型訓練模型預測模型評估圖1模型流程圖
左上角,模型分類的準確性就越高。AUC是ROC曲線下方的面積,AUC越大,代表模型分類性能越好。KS是信用風險評估領域常用的區(qū)分度評價指標。首先將數(shù)據(jù)樣本按照預測違約概率由低到高進行排序,然后計算每一個違約率下的累積TPR值和累積FPR值,最后求這兩個值的差值的最大值,即為KS指標。KS值越大代表模型對于違約客戶和按時還款客戶的區(qū)分能力越強。4結(jié)果分析4.1超參數(shù)優(yōu)化結(jié)果為了對比不同超參數(shù)優(yōu)化方式的效率,本文將迭代次數(shù)統(tǒng)一設置為50,不同的參數(shù)優(yōu)化方法選擇相同范圍的參數(shù)空間。不同超參數(shù)優(yōu)化方式對比如圖2所示。圖中顯示了不同超參數(shù)優(yōu)化方式模型結(jié)果的箱線圖,橫軸代表超參數(shù)選擇過程中不同超參數(shù)優(yōu)化方式,縱軸代表XG-Boost模型結(jié)果的AUC值。0.700.680.660.640.620.600.580.56網(wǎng)格搜索隨機搜索貝葉斯優(yōu)化L數(shù)據(jù)集圖2不同超參數(shù)優(yōu)化方式對比從圖2中可以看出,隨機搜索參數(shù)優(yōu)化方式效果均優(yōu)于網(wǎng)格搜索方法。同時貝葉斯優(yōu)化參數(shù)優(yōu)化方法的效果最好,優(yōu)于其他方法,這跟以前一些研究的結(jié)論一致[3,5,6,10]。4.2模型評價結(jié)果表2給出了5種不同模型的模型結(jié)果表現(xiàn)。從表2中可以看出,XGBoost達到了最高的KS(0.301)和AUC(0.689),隨機森林次之,SVM、NN和邏輯回歸效果較差,XGBoost算法的KS指標和邏輯回歸相比提升了29.74%,AUC指標和邏輯回歸相比提升了10.95%。結(jié)果說明XGBoost方法的性能不但優(yōu)于常見的單一分類器,而且優(yōu)于集成學習分類器(RF)。同時從下頁圖3,可以看到,XGBoost的ROC曲線始終處于最左上方,這表明XGBoost具有最好的客戶違約預測能力。表2模型結(jié)果模型LRSVMNNRFXGBoost指標KS0.2320.2670.2410.2790.301AUC0.6210.6720.6520.678
統(tǒng)計與決策2019年第1期·總第517期性,從而可以對影響模型效果的關鍵變量進行分析。訓練完畢后輸出模型特征的重要度分數(shù),分數(shù)越高說明特征越重要。特征重要度如圖4所示,圖中縱坐標表示具體的特征,橫坐標表示特征重要度分數(shù),在圖中顯示了重要度前10的特征,這樣提出的個人信用評估方法就具有了一定的可解釋性,在進行信用評估時,方便決策者更好地理解信用評分模型,從而進行決策。圖4特征重要度5結(jié)論本文針對互聯(lián)網(wǎng)信貸行業(yè)的個人信用評估問題,提出了一種基于貝葉斯參數(shù)優(yōu)化和XGBoost算法的信用評估方法。XGBoost包含多種超參數(shù),這些超參數(shù)對算法效果影響很大,貝葉斯優(yōu)化是在函數(shù)方程未知的情況下根據(jù)已有的采樣點預估函數(shù)最大值的一個算法,和傳統(tǒng)的網(wǎng)格搜索和隨機搜索相比,貝葉斯優(yōu)化可以利用利用先驗知識來選擇下一組超參數(shù),因此貝葉斯超參數(shù)優(yōu)化精度更高且更加高效,并采用貝葉斯超參數(shù)優(yōu)化來調(diào)參。本文提出的基于貝葉斯參數(shù)優(yōu)化和XGBoost的信用評估方法包括5個步驟:數(shù)據(jù)預處理、特征選擇、超參數(shù)優(yōu)化、模型訓練、模型預測和評估,在對數(shù)據(jù)進行預處理后,采用遞歸特征消除(RFE)來進行特征選擇,然后使用貝葉斯參數(shù)優(yōu)化來調(diào)參,最后使用XGBoost算法來訓練模型并進行預測。在互聯(lián)網(wǎng)借貸平臺真實數(shù)據(jù)集上進行了實驗,實驗結(jié)果表明,本文提出模型的預測效果優(yōu)于對比算法(Logistic回歸、支持向量機,隨機森林、神經(jīng)網(wǎng)絡),同時貝葉斯參數(shù)優(yōu)化方法優(yōu)于網(wǎng)格搜索法和隨機搜索法,最后證明了本文提出的方法也具有一定可解釋性。因此本文提出的基于貝葉斯參數(shù)優(yōu)化和XGBoost的信用評估方法,可以更好地區(qū)分違約用戶,有助于互聯(lián)網(wǎng)行業(yè)的信用評估工作,有助于更好地識別用戶的違約風險。參考文獻:[1]王?
【參考文獻】:
期刊論文
[1]數(shù)據(jù)挖掘模型在小企業(yè)主信用評分領域的應用[J]. 王磊,范超,解明明. 統(tǒng)計研究. 2014(10)
[2]基于改進支持向量機的消費信貸中個人信用評估模型[J]. 王潤華. 統(tǒng)計與決策. 2010(11)
本文編號:3542665
【文章來源】:統(tǒng)計與決策. 2019,35(01)北大核心CSSCI
【文章頁數(shù)】:5 頁
【部分圖文】:
模型訓練模型預測模型評估圖1模型流程圖
左上角,模型分類的準確性就越高。AUC是ROC曲線下方的面積,AUC越大,代表模型分類性能越好。KS是信用風險評估領域常用的區(qū)分度評價指標。首先將數(shù)據(jù)樣本按照預測違約概率由低到高進行排序,然后計算每一個違約率下的累積TPR值和累積FPR值,最后求這兩個值的差值的最大值,即為KS指標。KS值越大代表模型對于違約客戶和按時還款客戶的區(qū)分能力越強。4結(jié)果分析4.1超參數(shù)優(yōu)化結(jié)果為了對比不同超參數(shù)優(yōu)化方式的效率,本文將迭代次數(shù)統(tǒng)一設置為50,不同的參數(shù)優(yōu)化方法選擇相同范圍的參數(shù)空間。不同超參數(shù)優(yōu)化方式對比如圖2所示。圖中顯示了不同超參數(shù)優(yōu)化方式模型結(jié)果的箱線圖,橫軸代表超參數(shù)選擇過程中不同超參數(shù)優(yōu)化方式,縱軸代表XG-Boost模型結(jié)果的AUC值。0.700.680.660.640.620.600.580.56網(wǎng)格搜索隨機搜索貝葉斯優(yōu)化L數(shù)據(jù)集圖2不同超參數(shù)優(yōu)化方式對比從圖2中可以看出,隨機搜索參數(shù)優(yōu)化方式效果均優(yōu)于網(wǎng)格搜索方法。同時貝葉斯優(yōu)化參數(shù)優(yōu)化方法的效果最好,優(yōu)于其他方法,這跟以前一些研究的結(jié)論一致[3,5,6,10]。4.2模型評價結(jié)果表2給出了5種不同模型的模型結(jié)果表現(xiàn)。從表2中可以看出,XGBoost達到了最高的KS(0.301)和AUC(0.689),隨機森林次之,SVM、NN和邏輯回歸效果較差,XGBoost算法的KS指標和邏輯回歸相比提升了29.74%,AUC指標和邏輯回歸相比提升了10.95%。結(jié)果說明XGBoost方法的性能不但優(yōu)于常見的單一分類器,而且優(yōu)于集成學習分類器(RF)。同時從下頁圖3,可以看到,XGBoost的ROC曲線始終處于最左上方,這表明XGBoost具有最好的客戶違約預測能力。表2模型結(jié)果模型LRSVMNNRFXGBoost指標KS0.2320.2670.2410.2790.301AUC0.6210.6720.6520.678
統(tǒng)計與決策2019年第1期·總第517期性,從而可以對影響模型效果的關鍵變量進行分析。訓練完畢后輸出模型特征的重要度分數(shù),分數(shù)越高說明特征越重要。特征重要度如圖4所示,圖中縱坐標表示具體的特征,橫坐標表示特征重要度分數(shù),在圖中顯示了重要度前10的特征,這樣提出的個人信用評估方法就具有了一定的可解釋性,在進行信用評估時,方便決策者更好地理解信用評分模型,從而進行決策。圖4特征重要度5結(jié)論本文針對互聯(lián)網(wǎng)信貸行業(yè)的個人信用評估問題,提出了一種基于貝葉斯參數(shù)優(yōu)化和XGBoost算法的信用評估方法。XGBoost包含多種超參數(shù),這些超參數(shù)對算法效果影響很大,貝葉斯優(yōu)化是在函數(shù)方程未知的情況下根據(jù)已有的采樣點預估函數(shù)最大值的一個算法,和傳統(tǒng)的網(wǎng)格搜索和隨機搜索相比,貝葉斯優(yōu)化可以利用利用先驗知識來選擇下一組超參數(shù),因此貝葉斯超參數(shù)優(yōu)化精度更高且更加高效,并采用貝葉斯超參數(shù)優(yōu)化來調(diào)參。本文提出的基于貝葉斯參數(shù)優(yōu)化和XGBoost的信用評估方法包括5個步驟:數(shù)據(jù)預處理、特征選擇、超參數(shù)優(yōu)化、模型訓練、模型預測和評估,在對數(shù)據(jù)進行預處理后,采用遞歸特征消除(RFE)來進行特征選擇,然后使用貝葉斯參數(shù)優(yōu)化來調(diào)參,最后使用XGBoost算法來訓練模型并進行預測。在互聯(lián)網(wǎng)借貸平臺真實數(shù)據(jù)集上進行了實驗,實驗結(jié)果表明,本文提出模型的預測效果優(yōu)于對比算法(Logistic回歸、支持向量機,隨機森林、神經(jīng)網(wǎng)絡),同時貝葉斯參數(shù)優(yōu)化方法優(yōu)于網(wǎng)格搜索法和隨機搜索法,最后證明了本文提出的方法也具有一定可解釋性。因此本文提出的基于貝葉斯參數(shù)優(yōu)化和XGBoost的信用評估方法,可以更好地區(qū)分違約用戶,有助于互聯(lián)網(wǎng)行業(yè)的信用評估工作,有助于更好地識別用戶的違約風險。參考文獻:[1]王?
【參考文獻】:
期刊論文
[1]數(shù)據(jù)挖掘模型在小企業(yè)主信用評分領域的應用[J]. 王磊,范超,解明明. 統(tǒng)計研究. 2014(10)
[2]基于改進支持向量機的消費信貸中個人信用評估模型[J]. 王潤華. 統(tǒng)計與決策. 2010(11)
本文編號:3542665
本文鏈接:http://sikaile.net/jingjilunwen/zbyz/3542665.html
最近更新
教材專著