基于分層排序加權融合的P2P網貸違約預測模型研究
發(fā)布時間:2020-09-18 17:34
作為互聯(lián)網金融的重要組成部分,P2P網絡借貸擴展了傳統(tǒng)金融行業(yè)的服務范圍。新興的互聯(lián)網金融平臺雖然具有進入門檻低,操作快捷,簡單的特點,但是與傳統(tǒng)金融模式相比投資方風險防控能力差的特點格外明顯。因此,基于網貸用戶的信用風險評定以及違約預測變得尤為重要。在網貸業(yè)務的場景下,貸款額度一般比向銀行申請貸款低,但是由于受眾用戶較多,貸款業(yè)務量十分龐大。因此,僅僅依靠傳統(tǒng)的人工審核或者用戶個別信息進行篩選的計量方法已經無法滿足需求。實際上,網貸平臺依托于互聯(lián)網的整體大環(huán)境,其天然存在一定的數據優(yōu)勢,充分利用好網貸平臺的現有數據并整合互聯(lián)網中用戶的支付,購物,社交等數據對其違約率進行預測是未來發(fā)展的一大方向。大數據場景下,P2P網貸風控的核心方法在于,通過研究分析數據的基本情況,通過數據清洗和特征工程的步驟,利用機器學習的方法來建立數據驅動的風控模型,并將其應用到風控審批的業(yè)務流程中,來指導審批業(yè)務的開展,這也是本文的研究方向和目標。在國內,目前包括人人貸,融360,拍拍貸,螞蟻金服等都在積極推動數據化風控模型的建設。各個公司不僅在內部深入研究反欺詐模型,同時也積極支持在校學生和數據科學家的研究,共同推動著互聯(lián)網金融反欺詐的發(fā)展。本文使用拍拍貸公布的真實歷史交易數據,客戶登陸日志以及客戶信息更新日志作為研究對象,根據這三個主要信息進行網貸違約概率預測模型的研究。首先從多個角度對數據進行觀察分析和處理:其中有,原始數據基本情況統(tǒng)計,多角度觀察數據的缺失情況,變量類型調整,常變量刪除,對數據原始記錄進行形式統(tǒng)一化。然后,對清洗好的數據進行特征工程操作。特征工程的主要工作有以下幾個方面:根據用戶登錄日志將原始時間進行更細粒度地刻畫,根據用戶更新日志表數據,構造用戶修項內容個數和修改次數等相關特征。此外,為了減少數值型數據的異常值干擾和增加模型的魯棒性,本文針對數值型變量使用了排序特征和統(tǒng)計特征。最后,根據特征的相關系數對大于0.99的特征進行刪除。根據前面的工作得到的干凈數據和特征,分別使用機器學習領域的線性模型LR,樹模型CatBoost和非線形模型神經網絡進行建模。在超參數選擇的步驟中,使用Hyperopt庫可以相對更有效率的得到較優(yōu)的模型結果。同時,為了保證模型的穩(wěn)定性和泛化能力,將訓練集根據9:1的比例切分為訓練數據和驗證數據。由于本文研究的場景下的數據是不均衡的,因此本文在對數據切分的時候,根據目標變量的比例進行分層劃分,這樣得到的訓練數據和驗證數據分布是幾乎一致的,得到的結果更可信。確定模型的超參數,得到三個基模型后本文從運行時間和AUC的角度對模型結果進行了分析和比較。首先從評估指標AUC的角度出發(fā),在本文研究的P2P網貸違約預測場景下,CatBoost模型的的效果優(yōu)于神經網絡和LR。模型運行時間上,LR模型時間最少。模型得到的特征重要度分析,發(fā)現在大數據,移動互聯(lián)網的當今社會,可以通過更深入地挖掘第三方信息對用戶進行刻畫,對預測用戶是否會違約還款具有很大的作用。得到三種基模型后,為了進一步提升模型效果。本文首先使用了簡單線形加權融合方法,得到的融合結果相對單模型有所提升。由于CatBoost模型在驗證集上的表現優(yōu)于它兩個模型,在簡單線性加權融合的方法中會導致其權重占比過高,無法充分利用模型的差異性進行融合,達到最優(yōu)的融合效果。因此,本文對線性加權融合進行改進,創(chuàng)新性地提出分層加權融合,分層排序加權融合的方式,使得模型結果得到最優(yōu)。本文研究的雖然是互聯(lián)網金融領域P2P網貸違約預測的數據,但是整體的研究思路和方法,在機器學習領域中具有十分有效且實用的價值。
【學位單位】:東北財經大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TP393.0;F724.6;F832.4
【部分圖文】:
括有PC端業(yè)務的平臺,且不含港臺澳地區(qū),下同),其中正常運營的僅有1539家逡逑(占到27.9%的比例),同比減少24.3%。2007年至2017年P2P網貸平臺數量及逡逑其走勢變化如圖1-1所示。逡逑5逡逑I邐I邐;邐1逡逑/邋I邐I邐r邐m逡逑t,邋邐-邐邐邐-邐邐.柋■柋
本文編號:2821955
【學位單位】:東北財經大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TP393.0;F724.6;F832.4
【部分圖文】:
括有PC端業(yè)務的平臺,且不含港臺澳地區(qū),下同),其中正常運營的僅有1539家逡逑(占到27.9%的比例),同比減少24.3%。2007年至2017年P2P網貸平臺數量及逡逑其走勢變化如圖1-1所示。逡逑5逡逑I邐I邐;邐1逡逑/邋I邐I邐r邐m逡逑t,邋邐-邐邐邐-邐邐.柋■柋
本文編號:2821955
本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/2821955.html