基于數(shù)據(jù)挖掘算法的信貸逾期行為預(yù)測(cè)
發(fā)布時(shí)間:2021-12-22 05:37
隨著我國(guó)經(jīng)濟(jì)的發(fā)展和人民消費(fèi)觀念的轉(zhuǎn)變,人民對(duì)于信貸業(yè)務(wù)的需求日益增加,銀行的信貸業(yè)務(wù)逐漸發(fā)展起來(lái),并為其帶來(lái)了新的利潤(rùn)增長(zhǎng)點(diǎn)。如果不能對(duì)客戶的資質(zhì)和還款能力進(jìn)行有效的審查和評(píng)估,將導(dǎo)致銀行承擔(dān)較大的金融風(fēng)險(xiǎn)。因此,亟需高效準(zhǔn)確的方法,有效識(shí)別未來(lái)可能發(fā)生逾期行為的客戶,規(guī)避金融風(fēng)險(xiǎn),并為銀行信用體系建設(shè)以及對(duì)于客戶的評(píng)估提供一些參考。本文主要以某貸款機(jī)構(gòu)的歷史貸款數(shù)據(jù)為例,建立信貸逾期行為的預(yù)測(cè)模型。首先將所得數(shù)據(jù)清洗和處理,然后通過(guò)WOE分箱和IV值選取包含信息量較大的特征,進(jìn)行相關(guān)系數(shù)的計(jì)算,確定強(qiáng)相關(guān)的變量并去除,以免影響實(shí)驗(yàn)結(jié)果。由于信用行為預(yù)測(cè)的數(shù)據(jù)往往不平衡,需要進(jìn)行欠采樣或過(guò)采樣來(lái)平衡數(shù)據(jù)。而貸款數(shù)據(jù)具有極度不平衡的特點(diǎn),這將導(dǎo)致單一的分類器完全失效,集成模型得到的分類結(jié)果也不是特別理想。針對(duì)這類問(wèn)題,本文采用隨機(jī)欠采樣與SMOTE過(guò)采樣相結(jié)合的方法去平衡訓(xùn)練集,以避免僅僅使用欠采樣造成數(shù)據(jù)過(guò)度損失或僅使用過(guò)采樣引入太多噪聲。在模型選擇方面,采用Logistic回歸、支持向量機(jī)以及基于決策樹(shù)的集成算法隨機(jī)森林和Light GBM,在平衡過(guò)的訓(xùn)練集上分別建模。最后在原測(cè)試...
【文章來(lái)源】:山西大學(xué)山西省
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
單位階躍函數(shù)和對(duì)數(shù)幾率函數(shù)圖像
基于數(shù)據(jù)挖掘算法的信貸逾期行為預(yù)測(cè)8為計(jì)算方便,通過(guò)對(duì)||||的變換,可以得到,對(duì)于正確分類的樣本,應(yīng)滿足以下關(guān)系:1111TiiTiixbyxby,,(2.15)在支持向量機(jī)中,間隔應(yīng)能反映樣本點(diǎn)到超平面的距離以及分類的準(zhǔn)確性,因此定義了函數(shù)間隔:"()Tyxb(2.16)根據(jù)函數(shù)間隔,"0則分類正確,否則分類錯(cuò)誤。但函數(shù)間隔會(huì)受到||||的影響,所以又定義了幾何間隔:"()||||||||Tyxb(2.17)支持向量機(jī)的目標(biāo)函數(shù)是最大化幾何間隔,而支持向量機(jī)主要關(guān)注距離超平面較近的點(diǎn)。其中,通過(guò)與超平面距離最近的點(diǎn)且與超平面平行的平面滿足()1Tyxb,所以目標(biāo)函數(shù)為最大化1||||,等價(jià)于最小化21||||2。圖2.2支持向量與分離超平面于是,求解支持向量機(jī)轉(zhuǎn)化為求解以下的凸二次優(yōu)化問(wèn)題:2argmin1||||,b2(2.18)..()11,2,.Tiistyxb,in(2.19)
第二章數(shù)據(jù)挖掘方法9該問(wèn)題可以利用拉格朗日乘子法轉(zhuǎn)化為對(duì)偶問(wèn)題,根據(jù)最優(yōu)化理論求解其對(duì)偶問(wèn)題即可訓(xùn)練完成支持向量機(jī)。針對(duì)線性可分?jǐn)?shù)據(jù)訓(xùn)練出來(lái)的支持向量機(jī)稱為線性可分支持向量機(jī)。圖2.3近似線性可分?jǐn)?shù)據(jù)集在實(shí)際問(wèn)題中,數(shù)據(jù)往往不是嚴(yán)格的線性可分,即無(wú)法找到一個(gè)超平面將數(shù)據(jù)嚴(yán)格的分開(kāi)。若數(shù)據(jù)集近似線性可分,即存在部分樣本點(diǎn)位于超平面和邊界之間,不滿足間隔1的條件,如圖2.3所示。針對(duì)這一問(wèn)題,引入松弛變量0,1,2,,iin,使得i1i。同時(shí),目標(biāo)函數(shù)也應(yīng)增加正則化項(xiàng)。此時(shí)優(yōu)化問(wèn)題變?yōu)椋?11min||||2niiC(2.20)..()1,1,2,.Tiistyxbin(2.21)01,2,.i,in(2.22)若數(shù)據(jù)集完全不可分,此時(shí)無(wú)法用分離超平面將數(shù)據(jù)很好地分開(kāi),于是考慮用非線性變換,轉(zhuǎn)化為線性問(wèn)題求解。支持向量機(jī)通過(guò)采用不同的核函數(shù),將數(shù)據(jù)映射到更高維空間,從而轉(zhuǎn)化為線性可分問(wèn)題求解。常用的核函數(shù)有:表2.1支持向量機(jī)常用核函數(shù)名稱表達(dá)式參數(shù)線性核函數(shù)(,)Tijijxxxx多項(xiàng)式核函數(shù)(,)()Tdijijxxxxcd為多項(xiàng)式核函數(shù)的階數(shù)
本文編號(hào):3545854
【文章來(lái)源】:山西大學(xué)山西省
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
單位階躍函數(shù)和對(duì)數(shù)幾率函數(shù)圖像
基于數(shù)據(jù)挖掘算法的信貸逾期行為預(yù)測(cè)8為計(jì)算方便,通過(guò)對(duì)||||的變換,可以得到,對(duì)于正確分類的樣本,應(yīng)滿足以下關(guān)系:1111TiiTiixbyxby,,(2.15)在支持向量機(jī)中,間隔應(yīng)能反映樣本點(diǎn)到超平面的距離以及分類的準(zhǔn)確性,因此定義了函數(shù)間隔:"()Tyxb(2.16)根據(jù)函數(shù)間隔,"0則分類正確,否則分類錯(cuò)誤。但函數(shù)間隔會(huì)受到||||的影響,所以又定義了幾何間隔:"()||||||||Tyxb(2.17)支持向量機(jī)的目標(biāo)函數(shù)是最大化幾何間隔,而支持向量機(jī)主要關(guān)注距離超平面較近的點(diǎn)。其中,通過(guò)與超平面距離最近的點(diǎn)且與超平面平行的平面滿足()1Tyxb,所以目標(biāo)函數(shù)為最大化1||||,等價(jià)于最小化21||||2。圖2.2支持向量與分離超平面于是,求解支持向量機(jī)轉(zhuǎn)化為求解以下的凸二次優(yōu)化問(wèn)題:2argmin1||||,b2(2.18)..()11,2,.Tiistyxb,in(2.19)
第二章數(shù)據(jù)挖掘方法9該問(wèn)題可以利用拉格朗日乘子法轉(zhuǎn)化為對(duì)偶問(wèn)題,根據(jù)最優(yōu)化理論求解其對(duì)偶問(wèn)題即可訓(xùn)練完成支持向量機(jī)。針對(duì)線性可分?jǐn)?shù)據(jù)訓(xùn)練出來(lái)的支持向量機(jī)稱為線性可分支持向量機(jī)。圖2.3近似線性可分?jǐn)?shù)據(jù)集在實(shí)際問(wèn)題中,數(shù)據(jù)往往不是嚴(yán)格的線性可分,即無(wú)法找到一個(gè)超平面將數(shù)據(jù)嚴(yán)格的分開(kāi)。若數(shù)據(jù)集近似線性可分,即存在部分樣本點(diǎn)位于超平面和邊界之間,不滿足間隔1的條件,如圖2.3所示。針對(duì)這一問(wèn)題,引入松弛變量0,1,2,,iin,使得i1i。同時(shí),目標(biāo)函數(shù)也應(yīng)增加正則化項(xiàng)。此時(shí)優(yōu)化問(wèn)題變?yōu)椋?11min||||2niiC(2.20)..()1,1,2,.Tiistyxbin(2.21)01,2,.i,in(2.22)若數(shù)據(jù)集完全不可分,此時(shí)無(wú)法用分離超平面將數(shù)據(jù)很好地分開(kāi),于是考慮用非線性變換,轉(zhuǎn)化為線性問(wèn)題求解。支持向量機(jī)通過(guò)采用不同的核函數(shù),將數(shù)據(jù)映射到更高維空間,從而轉(zhuǎn)化為線性可分問(wèn)題求解。常用的核函數(shù)有:表2.1支持向量機(jī)常用核函數(shù)名稱表達(dá)式參數(shù)線性核函數(shù)(,)Tijijxxxx多項(xiàng)式核函數(shù)(,)()Tdijijxxxxcd為多項(xiàng)式核函數(shù)的階數(shù)
本文編號(hào):3545854
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3545854.html
最近更新
教材專著