基于不平衡三分類LGBM模型的貸后風(fēng)險(xiǎn)預(yù)警研究
發(fā)布時(shí)間:2023-03-20 00:27
近年來大數(shù)據(jù)與互聯(lián)網(wǎng)金融得到了迅速發(fā)展,P2P行業(yè)作為互聯(lián)網(wǎng)金融的重要組成部分,擁有著比傳統(tǒng)銀行信貸業(yè)務(wù)更加便捷的優(yōu)勢,應(yīng)用數(shù)據(jù)挖掘技術(shù)防范金融風(fēng)險(xiǎn)是當(dāng)前的一個重要課題。本文以貸后風(fēng)險(xiǎn)預(yù)警為研究背景,將借款人按還款情況細(xì)分為履約者、關(guān)注者、違約者三類。在數(shù)據(jù)處理中調(diào)用feature selector特征選擇庫對數(shù)據(jù)清洗,并使用Xgboost(XGB)和RandomForest(RF)算法進(jìn)行特征選擇,得到還款進(jìn)度、貸款成本、償債能力、外部授信這4個方面是影響還款情況的重要因素。貸款利率是信貸中的關(guān)鍵要素,文中用含有啞變量的回歸模型探究得到借款人的信用等級是影響貸款利率高低最顯著的因素。在預(yù)警模型中用交叉驗(yàn)證、學(xué)習(xí)曲線分析、統(tǒng)計(jì)檢驗(yàn)三種方法比較了6種單模型和5種基于決策樹的集成模型,發(fā)現(xiàn)集成模型相比單模型的分類性能具有明顯優(yōu)勢且LightGBM(LGBM)模型的性能最優(yōu)。為了解決不平衡數(shù)據(jù)對模型結(jié)果的影響,文中從數(shù)據(jù)擾動、參數(shù)擾動、特征擾動三個方面進(jìn)行優(yōu)化LGBM模型,最終得到該模型在F1macro得分和違約者的Recall這兩個評價(jià)準(zhǔn)則下相比其它模型都有改善,特別...
【文章頁數(shù)】:40 頁
【學(xué)位級別】:碩士
【文章目錄】:
中文摘要
Abstract
第一章 緒論
1.1 研究背景及研究意義
1.2 研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.3 研究內(nèi)容和章節(jié)安排
第二章 基本算法與評估指標(biāo)
2.1 feature selector工具
2.2 機(jī)器學(xué)習(xí)算法介紹
2.2.1 CART算法
2.2.2 RF算法
2.2.3 GBDT算法
2.2.4 XGB算法
2.2.5 LGBM算法
2.3 模型評估
2.3.1 性能度量
2.3.2 比較檢驗(yàn)
第三章 數(shù)據(jù)處理
3.1 狀態(tài)變量處理
3.2 特征變量處理
3.2.1 缺失值和唯一值處理
3.2.2 數(shù)據(jù)過濾與衍生
3.2.3 數(shù)據(jù)編碼與填充
3.2.4 相關(guān)性分析降維與標(biāo)準(zhǔn)化處理
3.3 特征選擇
第四章 信貸基本要素分析
4.1 貸款基本要素
4.1.1 貸款金額
4.1.2 貸款利率
4.1.3 貸款期限
4.1.4 信用等級
4.1.5 貸款用途
4.2 探究影響利率的因素
第五章 貸后預(yù)警建模分析
5.1 單模型建模分析
5.2 基于決策樹的集成算法建模分析
5.2.1 交叉驗(yàn)證分析
5.2.2 學(xué)習(xí)曲線分析
5.2.3 分類器統(tǒng)計(jì)檢驗(yàn)
5.2.4 預(yù)測
5.3 優(yōu)化后的LGBM模型建模分析
5.3.1 產(chǎn)生訓(xùn)練集子集
5.3.2 超參數(shù)調(diào)整
5.3.3 實(shí)驗(yàn)結(jié)果
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
本文編號:3766305
【文章頁數(shù)】:40 頁
【學(xué)位級別】:碩士
【文章目錄】:
中文摘要
Abstract
第一章 緒論
1.1 研究背景及研究意義
1.2 研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.3 研究內(nèi)容和章節(jié)安排
第二章 基本算法與評估指標(biāo)
2.1 feature selector工具
2.2 機(jī)器學(xué)習(xí)算法介紹
2.2.1 CART算法
2.2.2 RF算法
2.2.3 GBDT算法
2.2.4 XGB算法
2.2.5 LGBM算法
2.3 模型評估
2.3.1 性能度量
2.3.2 比較檢驗(yàn)
第三章 數(shù)據(jù)處理
3.1 狀態(tài)變量處理
3.2 特征變量處理
3.2.1 缺失值和唯一值處理
3.2.2 數(shù)據(jù)過濾與衍生
3.2.3 數(shù)據(jù)編碼與填充
3.2.4 相關(guān)性分析降維與標(biāo)準(zhǔn)化處理
3.3 特征選擇
第四章 信貸基本要素分析
4.1 貸款基本要素
4.1.1 貸款金額
4.1.2 貸款利率
4.1.3 貸款期限
4.1.4 信用等級
4.1.5 貸款用途
4.2 探究影響利率的因素
第五章 貸后預(yù)警建模分析
5.1 單模型建模分析
5.2 基于決策樹的集成算法建模分析
5.2.1 交叉驗(yàn)證分析
5.2.2 學(xué)習(xí)曲線分析
5.2.3 分類器統(tǒng)計(jì)檢驗(yàn)
5.2.4 預(yù)測
5.3 優(yōu)化后的LGBM模型建模分析
5.3.1 產(chǎn)生訓(xùn)練集子集
5.3.2 超參數(shù)調(diào)整
5.3.3 實(shí)驗(yàn)結(jié)果
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
本文編號:3766305
本文鏈接:http://sikaile.net/jingjilunwen/touziyanjiulunwen/3766305.html
最近更新
教材專著