基于改進(jìn)的SMOTE下Boosting算法在個(gè)人信用評(píng)估中的應(yīng)用研究
發(fā)布時(shí)間:2021-07-11 15:18
隨著我國(guó)信貸業(yè)務(wù)的逐年增加,金融機(jī)構(gòu)和地方經(jīng)濟(jì)得以蓬勃發(fā)展,但也伴隨著信用風(fēng)險(xiǎn)的不斷增長(zhǎng)。為了有效規(guī)避風(fēng)險(xiǎn),減少客戶誤判導(dǎo)致的銀行虧損,我們需要探討更優(yōu)的方法來對(duì)個(gè)人信用進(jìn)行評(píng)估。本文選取Lending Club公司2018年的貸款數(shù)據(jù)作為原始數(shù)據(jù),結(jié)合國(guó)內(nèi)外文獻(xiàn)和信用評(píng)估構(gòu)建準(zhǔn)則,建立指標(biāo)體系并據(jù)此確定了50個(gè)變量。研究?jī)?nèi)容主要包括兩方面:第一,針對(duì)指標(biāo)體系中特征選取的問題,本文創(chuàng)新性的將主成分分析法和Relief F法相結(jié)合,用于個(gè)人信用評(píng)估的特征降維問題,既解決了變量的信息冗余,又考慮了每個(gè)特征對(duì)類標(biāo)簽的識(shí)別能力,有效提高模型的分類精度。運(yùn)用PCA-Relief F法將變量維度降至20,在一定程度上降低了模型的復(fù)雜度。第二,針對(duì)信用評(píng)估數(shù)據(jù)的不平衡問題,本文創(chuàng)新性的對(duì)經(jīng)典的SMOTE算法進(jìn)行改進(jìn),提出新的過采樣算法,本文稱之為MS-SMOTE(Synthetic Minority Oversampling Technique in Multiple Situation)。該算法用核距離替代歐幾里得距離,使線性插值更加合理,并根據(jù)少數(shù)類樣本的分布情況,采用不同的插值規(guī)則,合成新的少...
【文章來源】:上海師范大學(xué)上海市
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
SMOTE算法合成樣本示意圖
履約記錄和違約記錄的占比
上海師范大學(xué)碩士學(xué)位論文第5章實(shí)證分析31*xx(5-1)其中:μ為均值,σ為標(biāo)準(zhǔn)差。5.3特征的選擇在對(duì)特征進(jìn)行選擇之前,我們需要對(duì)選取的50個(gè)變量的基本情況進(jìn)行一些統(tǒng)計(jì)分析:(1)變量的分布情況:對(duì)50個(gè)解釋變量中的進(jìn)行描述性統(tǒng)計(jì)分析。在38個(gè)度量變量中,有25個(gè)變量是左偏的,2個(gè)變量是右偏的,由于主成分分析不要求變量必須服從正態(tài)分布,因此不需要對(duì)它們的分布進(jìn)行變換,下圖5-4展示了部分度量變量的分布情況。在12個(gè)屬性變量中,類別的頻率分布也呈現(xiàn)出不均衡的特點(diǎn),下圖5-5展示了部分屬性變量的頻率分布情況。圖5-4度量變量的分布情況展示
【參考文獻(xiàn)】:
期刊論文
[1]基于機(jī)器學(xué)習(xí)方法的智能機(jī)器人探究[J]. 李昊朋. 通訊世界. 2019(04)
[2]基于隨機(jī)森林的個(gè)人信用評(píng)估模型研究及實(shí)證分析[J]. 蕭超武,蔡文學(xué),黃曉宇,陳康. 管理現(xiàn)代化. 2014(06)
[3]個(gè)人信用評(píng)估組合模型的構(gòu)建——基于決策樹—神經(jīng)網(wǎng)絡(luò)的研究[J]. 楊勝剛,朱琦,成程. 金融論壇. 2013(02)
[4]基于SVM的銀行個(gè)人貸款信用評(píng)估模型研究[J]. 湯浩龍,和炳全,周薇. 西部經(jīng)濟(jì)管理論壇. 2012(01)
[5]小額貸款信用風(fēng)險(xiǎn)評(píng)估研究述評(píng)[J]. 申韜. 金融理論與實(shí)踐. 2012(01)
[6]C5.0分類算法及在銀行個(gè)人信用評(píng)級(jí)中的應(yīng)用[J]. 龐素琳,鞏吉璋. 系統(tǒng)工程理論與實(shí)踐. 2009(12)
[7]行為評(píng)分模型在個(gè)人信用評(píng)估應(yīng)用中的實(shí)證研究[J]. 莫茜,高峰,董紀(jì)昌. 國(guó)際金融研究. 2008(07)
[8]美國(guó)FICO評(píng)分系統(tǒng)述評(píng)[J]. 姜琳. 商業(yè)研究. 2006(20)
[9]個(gè)人信用卡信用風(fēng)險(xiǎn)評(píng)價(jià)體系與模型研究[J]. 遲國(guó)泰,許文,孫秀峰. 同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版). 2006(04)
[10]商業(yè)銀行個(gè)人信用風(fēng)險(xiǎn)等級(jí)評(píng)估與預(yù)測(cè)[J]. 胡望斌,朱東華,汪雪鋒. 商業(yè)時(shí)代. 2005(09)
博士論文
[1]基于社會(huì)資本的中小企業(yè)信用評(píng)價(jià)[D]. 殷琦.哈爾濱工業(yè)大學(xué) 2011
本文編號(hào):3278345
【文章來源】:上海師范大學(xué)上海市
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
SMOTE算法合成樣本示意圖
履約記錄和違約記錄的占比
上海師范大學(xué)碩士學(xué)位論文第5章實(shí)證分析31*xx(5-1)其中:μ為均值,σ為標(biāo)準(zhǔn)差。5.3特征的選擇在對(duì)特征進(jìn)行選擇之前,我們需要對(duì)選取的50個(gè)變量的基本情況進(jìn)行一些統(tǒng)計(jì)分析:(1)變量的分布情況:對(duì)50個(gè)解釋變量中的進(jìn)行描述性統(tǒng)計(jì)分析。在38個(gè)度量變量中,有25個(gè)變量是左偏的,2個(gè)變量是右偏的,由于主成分分析不要求變量必須服從正態(tài)分布,因此不需要對(duì)它們的分布進(jìn)行變換,下圖5-4展示了部分度量變量的分布情況。在12個(gè)屬性變量中,類別的頻率分布也呈現(xiàn)出不均衡的特點(diǎn),下圖5-5展示了部分屬性變量的頻率分布情況。圖5-4度量變量的分布情況展示
【參考文獻(xiàn)】:
期刊論文
[1]基于機(jī)器學(xué)習(xí)方法的智能機(jī)器人探究[J]. 李昊朋. 通訊世界. 2019(04)
[2]基于隨機(jī)森林的個(gè)人信用評(píng)估模型研究及實(shí)證分析[J]. 蕭超武,蔡文學(xué),黃曉宇,陳康. 管理現(xiàn)代化. 2014(06)
[3]個(gè)人信用評(píng)估組合模型的構(gòu)建——基于決策樹—神經(jīng)網(wǎng)絡(luò)的研究[J]. 楊勝剛,朱琦,成程. 金融論壇. 2013(02)
[4]基于SVM的銀行個(gè)人貸款信用評(píng)估模型研究[J]. 湯浩龍,和炳全,周薇. 西部經(jīng)濟(jì)管理論壇. 2012(01)
[5]小額貸款信用風(fēng)險(xiǎn)評(píng)估研究述評(píng)[J]. 申韜. 金融理論與實(shí)踐. 2012(01)
[6]C5.0分類算法及在銀行個(gè)人信用評(píng)級(jí)中的應(yīng)用[J]. 龐素琳,鞏吉璋. 系統(tǒng)工程理論與實(shí)踐. 2009(12)
[7]行為評(píng)分模型在個(gè)人信用評(píng)估應(yīng)用中的實(shí)證研究[J]. 莫茜,高峰,董紀(jì)昌. 國(guó)際金融研究. 2008(07)
[8]美國(guó)FICO評(píng)分系統(tǒng)述評(píng)[J]. 姜琳. 商業(yè)研究. 2006(20)
[9]個(gè)人信用卡信用風(fēng)險(xiǎn)評(píng)價(jià)體系與模型研究[J]. 遲國(guó)泰,許文,孫秀峰. 同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版). 2006(04)
[10]商業(yè)銀行個(gè)人信用風(fēng)險(xiǎn)等級(jí)評(píng)估與預(yù)測(cè)[J]. 胡望斌,朱東華,汪雪鋒. 商業(yè)時(shí)代. 2005(09)
博士論文
[1]基于社會(huì)資本的中小企業(yè)信用評(píng)價(jià)[D]. 殷琦.哈爾濱工業(yè)大學(xué) 2011
本文編號(hào):3278345
本文鏈接:http://sikaile.net/guanlilunwen/huobilw/3278345.html
最近更新
教材專著