基于分層排序加權(quán)融合的P2P網(wǎng)貸違約預(yù)測(cè)模型研究
發(fā)布時(shí)間:2020-09-18 17:34
作為互聯(lián)網(wǎng)金融的重要組成部分,P2P網(wǎng)絡(luò)借貸擴(kuò)展了傳統(tǒng)金融行業(yè)的服務(wù)范圍。新興的互聯(lián)網(wǎng)金融平臺(tái)雖然具有進(jìn)入門檻低,操作快捷,簡(jiǎn)單的特點(diǎn),但是與傳統(tǒng)金融模式相比投資方風(fēng)險(xiǎn)防控能力差的特點(diǎn)格外明顯。因此,基于網(wǎng)貸用戶的信用風(fēng)險(xiǎn)評(píng)定以及違約預(yù)測(cè)變得尤為重要。在網(wǎng)貸業(yè)務(wù)的場(chǎng)景下,貸款額度一般比向銀行申請(qǐng)貸款低,但是由于受眾用戶較多,貸款業(yè)務(wù)量十分龐大。因此,僅僅依靠傳統(tǒng)的人工審核或者用戶個(gè)別信息進(jìn)行篩選的計(jì)量方法已經(jīng)無(wú)法滿足需求。實(shí)際上,網(wǎng)貸平臺(tái)依托于互聯(lián)網(wǎng)的整體大環(huán)境,其天然存在一定的數(shù)據(jù)優(yōu)勢(shì),充分利用好網(wǎng)貸平臺(tái)的現(xiàn)有數(shù)據(jù)并整合互聯(lián)網(wǎng)中用戶的支付,購(gòu)物,社交等數(shù)據(jù)對(duì)其違約率進(jìn)行預(yù)測(cè)是未來(lái)發(fā)展的一大方向。大數(shù)據(jù)場(chǎng)景下,P2P網(wǎng)貸風(fēng)控的核心方法在于,通過研究分析數(shù)據(jù)的基本情況,通過數(shù)據(jù)清洗和特征工程的步驟,利用機(jī)器學(xué)習(xí)的方法來(lái)建立數(shù)據(jù)驅(qū)動(dòng)的風(fēng)控模型,并將其應(yīng)用到風(fēng)控審批的業(yè)務(wù)流程中,來(lái)指導(dǎo)審批業(yè)務(wù)的開展,這也是本文的研究方向和目標(biāo)。在國(guó)內(nèi),目前包括人人貸,融360,拍拍貸,螞蟻金服等都在積極推動(dòng)數(shù)據(jù)化風(fēng)控模型的建設(shè)。各個(gè)公司不僅在內(nèi)部深入研究反欺詐模型,同時(shí)也積極支持在校學(xué)生和數(shù)據(jù)科學(xué)家的研究,共同推動(dòng)著互聯(lián)網(wǎng)金融反欺詐的發(fā)展。本文使用拍拍貸公布的真實(shí)歷史交易數(shù)據(jù),客戶登陸日志以及客戶信息更新日志作為研究對(duì)象,根據(jù)這三個(gè)主要信息進(jìn)行網(wǎng)貸違約概率預(yù)測(cè)模型的研究。首先從多個(gè)角度對(duì)數(shù)據(jù)進(jìn)行觀察分析和處理:其中有,原始數(shù)據(jù)基本情況統(tǒng)計(jì),多角度觀察數(shù)據(jù)的缺失情況,變量類型調(diào)整,常變量刪除,對(duì)數(shù)據(jù)原始記錄進(jìn)行形式統(tǒng)一化。然后,對(duì)清洗好的數(shù)據(jù)進(jìn)行特征工程操作。特征工程的主要工作有以下幾個(gè)方面:根據(jù)用戶登錄日志將原始時(shí)間進(jìn)行更細(xì)粒度地刻畫,根據(jù)用戶更新日志表數(shù)據(jù),構(gòu)造用戶修項(xiàng)內(nèi)容個(gè)數(shù)和修改次數(shù)等相關(guān)特征。此外,為了減少數(shù)值型數(shù)據(jù)的異常值干擾和增加模型的魯棒性,本文針對(duì)數(shù)值型變量使用了排序特征和統(tǒng)計(jì)特征。最后,根據(jù)特征的相關(guān)系數(shù)對(duì)大于0.99的特征進(jìn)行刪除。根據(jù)前面的工作得到的干凈數(shù)據(jù)和特征,分別使用機(jī)器學(xué)習(xí)領(lǐng)域的線性模型LR,樹模型CatBoost和非線形模型神經(jīng)網(wǎng)絡(luò)進(jìn)行建模。在超參數(shù)選擇的步驟中,使用Hyperopt庫(kù)可以相對(duì)更有效率的得到較優(yōu)的模型結(jié)果。同時(shí),為了保證模型的穩(wěn)定性和泛化能力,將訓(xùn)練集根據(jù)9:1的比例切分為訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù)。由于本文研究的場(chǎng)景下的數(shù)據(jù)是不均衡的,因此本文在對(duì)數(shù)據(jù)切分的時(shí)候,根據(jù)目標(biāo)變量的比例進(jìn)行分層劃分,這樣得到的訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù)分布是幾乎一致的,得到的結(jié)果更可信。確定模型的超參數(shù),得到三個(gè)基模型后本文從運(yùn)行時(shí)間和AUC的角度對(duì)模型結(jié)果進(jìn)行了分析和比較。首先從評(píng)估指標(biāo)AUC的角度出發(fā),在本文研究的P2P網(wǎng)貸違約預(yù)測(cè)場(chǎng)景下,CatBoost模型的的效果優(yōu)于神經(jīng)網(wǎng)絡(luò)和LR。模型運(yùn)行時(shí)間上,LR模型時(shí)間最少。模型得到的特征重要度分析,發(fā)現(xiàn)在大數(shù)據(jù),移動(dòng)互聯(lián)網(wǎng)的當(dāng)今社會(huì),可以通過更深入地挖掘第三方信息對(duì)用戶進(jìn)行刻畫,對(duì)預(yù)測(cè)用戶是否會(huì)違約還款具有很大的作用。得到三種基模型后,為了進(jìn)一步提升模型效果。本文首先使用了簡(jiǎn)單線形加權(quán)融合方法,得到的融合結(jié)果相對(duì)單模型有所提升。由于CatBoost模型在驗(yàn)證集上的表現(xiàn)優(yōu)于它兩個(gè)模型,在簡(jiǎn)單線性加權(quán)融合的方法中會(huì)導(dǎo)致其權(quán)重占比過高,無(wú)法充分利用模型的差異性進(jìn)行融合,達(dá)到最優(yōu)的融合效果。因此,本文對(duì)線性加權(quán)融合進(jìn)行改進(jìn),創(chuàng)新性地提出分層加權(quán)融合,分層排序加權(quán)融合的方式,使得模型結(jié)果得到最優(yōu)。本文研究的雖然是互聯(lián)網(wǎng)金融領(lǐng)域P2P網(wǎng)貸違約預(yù)測(cè)的數(shù)據(jù),但是整體的研究思路和方法,在機(jī)器學(xué)習(xí)領(lǐng)域中具有十分有效且實(shí)用的價(jià)值。
【學(xué)位單位】:東北財(cái)經(jīng)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP393.0;F724.6;F832.4
【部分圖文】:
括有PC端業(yè)務(wù)的平臺(tái),且不含港臺(tái)澳地區(qū),下同),其中正常運(yùn)營(yíng)的僅有1539家逡逑(占到27.9%的比例),同比減少24.3%。2007年至2017年P2P網(wǎng)貸平臺(tái)數(shù)量及逡逑其走勢(shì)變化如圖1-1所示。逡逑5逡逑I邐I邐;邐1逡逑/邋I邐I邐r邐m逡逑t,邋邐-邐邐邐-邐邐.柋■柋
本文編號(hào):2821955
【學(xué)位單位】:東北財(cái)經(jīng)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP393.0;F724.6;F832.4
【部分圖文】:
括有PC端業(yè)務(wù)的平臺(tái),且不含港臺(tái)澳地區(qū),下同),其中正常運(yùn)營(yíng)的僅有1539家逡逑(占到27.9%的比例),同比減少24.3%。2007年至2017年P2P網(wǎng)貸平臺(tái)數(shù)量及逡逑其走勢(shì)變化如圖1-1所示。逡逑5逡逑I邐I邐;邐1逡逑/邋I邐I邐r邐m逡逑t,邋邐-邐邐邐-邐邐.柋■柋
本文編號(hào):2821955
本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/2821955.html
最近更新
教材專著