基于特征生成和歷史記錄的信貸風險評估模型
發(fā)布時間:2021-10-19 12:50
近年來,P2P(peertopeer)借貸已成為互聯(lián)網(wǎng)金融的核心業(yè)態(tài)之一,但是借款人的違約行為卻使平臺遭受了資金損失,同時也不利于市場的有序發(fā)展。因此,針對借款行為進行科學合理的違約預測勢在必行,F(xiàn)有的風險評估模型往往需要專家進行繁復的特征工程并利用借款人當前的借貸標的信息進行風險預測,該方法耗時耗力且難以揭露借款人的違約意圖。因此,我們需要一個更加高效精準的風險評估模型。本文通過引入特征生成的方法,綜合考慮借款人的歷史記錄,提出了基于特征生成和歷史記錄的信貸風險評估模型FHRM(Feature generation&Historical records based Risk assessment Model)來解決違約預測問題。首先,我們運用GBDT算法對借款人的標的信息進行特征生成,自動發(fā)現(xiàn)有效的特征與特征組合,彌補人工經(jīng)驗的不足,縮短模型的實驗周期。然后,根據(jù)借款人的歷史借貸記錄,通過長短期記憶網(wǎng)絡(luò)對借款人的借貸行為進行學習,發(fā)現(xiàn)高風險的序列模式。最后,我們通過訓練FHRM模型,得到借款人標的的風險評估結(jié)果。通過在真實數(shù)據(jù)集Prosper上的實驗結(jié)果表明,基于特征生成和歷...
【文章來源】:浙江大學浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
圖1-1借貸平臺原理圖??
跑誠?激??圖1-2借款人借貸流程圖??在信貸評估過程中,大多數(shù)模型只考慮借款人當前時刻的標的特征,因此其??預測能力在某些情況下效果表現(xiàn)一般。例如,部分高風險借款人會在前期進行小??金額的借款,并按時履約從而提升自己的信用分值,待信用分值達到一定閾值時,??該借款人便會申請一筆金額較大的借款并發(fā)生違約行為,從而達到欺詐目的。另??夕卜,我們統(tǒng)計了?Prosper平臺上每年的發(fā)標數(shù)量、滿標數(shù)量和滿標率,如圖1-3所??示。從數(shù)據(jù)中,我們可以看出雖然平臺每年會產(chǎn)生大量的借貸標的,但是實際滿??標的標的,只占其中的3%左右。不僅如此,我們還對Prosper平臺擁有較多借款??記錄的借款人進行分析
類別來表示,其中每棵決策樹都擁有相等的權(quán)重,而在解決回歸問題時,最終結(jié)??果是由決策輸出的均值來決定。??從圖2-1中,我們可以發(fā)現(xiàn)訓練每一棵決策樹的過程就是生成隨機森林的本??質(zhì),其中每棵決策樹的訓練彼此相互獨立的。因此,在隨機森林的生成過程中,??我們可以運用并行處理技術(shù)來提高訓練效率。??Original??Training?Data??Step?1:??Create?random?^^gdomize??vectors??Step?2:?I??Use?random??vectors?to?build?.?/%?/氣?,氣.?,’%??multiple?decision?〇\?A?A??trees??Step?3:? ̄;??Combine?decision???Majority-Voting??trees??Final-Class??圖2-1隨機森林的運行機制??隨機森林模型在大數(shù)據(jù)問題的解決上是一種準確率相對較高的分類器。在隨??15??
【參考文獻】:
期刊論文
[1]基于隨機森林算法的綠色信貸信用風險評估研究[J]. 李進. 金融理論與實踐. 2015(11)
碩士論文
[1]隨機森林在P2P網(wǎng)貸借款信用風險評估中的應(yīng)用[D]. 徐婷婷.山東大學 2017
[2]搜索廣告點擊率預測中的冷啟動問題研究[D]. 鄧麗芳.哈爾濱工業(yè)大學 2016
本文編號:3444903
【文章來源】:浙江大學浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
圖1-1借貸平臺原理圖??
跑誠?激??圖1-2借款人借貸流程圖??在信貸評估過程中,大多數(shù)模型只考慮借款人當前時刻的標的特征,因此其??預測能力在某些情況下效果表現(xiàn)一般。例如,部分高風險借款人會在前期進行小??金額的借款,并按時履約從而提升自己的信用分值,待信用分值達到一定閾值時,??該借款人便會申請一筆金額較大的借款并發(fā)生違約行為,從而達到欺詐目的。另??夕卜,我們統(tǒng)計了?Prosper平臺上每年的發(fā)標數(shù)量、滿標數(shù)量和滿標率,如圖1-3所??示。從數(shù)據(jù)中,我們可以看出雖然平臺每年會產(chǎn)生大量的借貸標的,但是實際滿??標的標的,只占其中的3%左右。不僅如此,我們還對Prosper平臺擁有較多借款??記錄的借款人進行分析
類別來表示,其中每棵決策樹都擁有相等的權(quán)重,而在解決回歸問題時,最終結(jié)??果是由決策輸出的均值來決定。??從圖2-1中,我們可以發(fā)現(xiàn)訓練每一棵決策樹的過程就是生成隨機森林的本??質(zhì),其中每棵決策樹的訓練彼此相互獨立的。因此,在隨機森林的生成過程中,??我們可以運用并行處理技術(shù)來提高訓練效率。??Original??Training?Data??Step?1:??Create?random?^^gdomize??vectors??Step?2:?I??Use?random??vectors?to?build?.?/%?/氣?,氣.?,’%??multiple?decision?〇\?A?A??trees??Step?3:? ̄;??Combine?decision???Majority-Voting??trees??Final-Class??圖2-1隨機森林的運行機制??隨機森林模型在大數(shù)據(jù)問題的解決上是一種準確率相對較高的分類器。在隨??15??
【參考文獻】:
期刊論文
[1]基于隨機森林算法的綠色信貸信用風險評估研究[J]. 李進. 金融理論與實踐. 2015(11)
碩士論文
[1]隨機森林在P2P網(wǎng)貸借款信用風險評估中的應(yīng)用[D]. 徐婷婷.山東大學 2017
[2]搜索廣告點擊率預測中的冷啟動問題研究[D]. 鄧麗芳.哈爾濱工業(yè)大學 2016
本文編號:3444903
本文鏈接:http://sikaile.net/jingjilunwen/touziyanjiulunwen/3444903.html
最近更新
教材專著