大數(shù)據(jù)征信算法的可解釋性研究
發(fā)布時(shí)間:2021-01-18 14:14
針對征信領(lǐng)域廣泛使用深度學(xué)習(xí)等黑盒大數(shù)據(jù)信用評估技術(shù)所帶來的模型透明度低、可解釋性差等問題,研究提出了一種基于傾向評分的信用評估模型解釋方法,利用該通用框架可以對大數(shù)據(jù)征信的黑盒模型進(jìn)行解釋性分析,從而滿足金融領(lǐng)域的KYC和KYB要求,增加機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)在征信領(lǐng)域的適用性。
【文章來源】:征信. 2020,38(05)北大核心
【文章頁數(shù)】:8 頁
【部分圖文】:
算法偽代碼
首先對數(shù)據(jù)集作數(shù)據(jù)預(yù)處理、缺失值填充和異常點(diǎn)刪除。為了篩選出對提升模型預(yù)測效果較強(qiáng)的屬性,分別對每個(gè)屬性進(jìn)行WOE(Weight Of Evidence)編碼并計(jì)算其對應(yīng)的IV(Information Value)值,計(jì)算結(jié)果如圖2所示。一般認(rèn)為IV值小于0.1時(shí),該屬性預(yù)測能力較弱,因此將需要探究的屬性限定在IV值大于0.1的變量:可用額度、年齡、逾期30~59天筆數(shù)、逾期60~89天筆數(shù)、逾期90天筆數(shù)。預(yù)處理完成后,進(jìn)行模型輸入。該實(shí)驗(yàn)選擇對四種模型進(jìn)行歸因分析:logistic回歸、決策樹、隨機(jī)森林、BP神經(jīng)網(wǎng)絡(luò),即預(yù)測模型F的選擇限定為以上四種;傾向評分模型R在本實(shí)驗(yàn)中設(shè)置為logistic回歸。將數(shù)據(jù)集、屬性集及選定的預(yù)測模型F、傾向評分模型R輸入算法,并對數(shù)據(jù)集進(jìn)行min-max標(biāo)準(zhǔn)化。
對數(shù)據(jù)集利用選定的四種預(yù)測模型:logistic回歸、決策樹、隨機(jī)森林、BP神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測建模,利用模型預(yù)測每個(gè)用戶可能成為壞用戶的概率,得出的四種模型預(yù)測效果對比如圖3所示?梢钥吹娇山忉屝暂^強(qiáng)的兩個(gè)模型預(yù)測效果較差:logistic回歸AUC=0.8126,預(yù)測效果最差;決策樹模型AUC=0.8416,較之有所提升?山忉屝暂^差的黑盒模型預(yù)測效果更好:隨機(jī)森林模型AUC=0.8587;BP神經(jīng)網(wǎng)絡(luò)模型AUC=0.8620,預(yù)測效果最佳。隨著模型效果的提升,可解釋性在下降。
【參考文獻(xiàn)】:
期刊論文
[1]信用評分模型比較綜述——基于傳統(tǒng)方法與數(shù)據(jù)挖掘的對比[J]. 何珊,劉振東,馬小林. 征信. 2019(02)
[2]深度學(xué)習(xí)的可解釋性[J]. 吳飛,廖彬兵,韓亞洪. 航空兵器. 2019(01)
[3]因果推斷的統(tǒng)計(jì)方法[J]. 苗旺,劉春辰,耿直. 中國科學(xué):數(shù)學(xué). 2018(12)
[4]基于卷積神經(jīng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)金融信用風(fēng)險(xiǎn)預(yù)測研究[J]. 王重仁,韓冬梅. 微型機(jī)與應(yīng)用. 2017(24)
[5]大數(shù)據(jù)時(shí)代個(gè)人信用評分的新趨勢[J]. 張晶. 征信. 2017(12)
[6]基于有序logistic模型的互聯(lián)網(wǎng)金融客戶違約風(fēng)險(xiǎn)研究[J]. 熊正德,劉臻煊,熊一鵬. 系統(tǒng)工程. 2017(08)
[7]基于支持向量機(jī)的中小企業(yè)技術(shù)信貸違約預(yù)測[J]. 張杰,趙峰. 統(tǒng)計(jì)與決策. 2013(20)
[8]大數(shù)據(jù)的風(fēng)險(xiǎn)和現(xiàn)存問題[J]. 劉德寰,李雪蓮. 廣告大觀(理論版). 2013(03)
[9]基于BP神經(jīng)網(wǎng)絡(luò)的信用卡違約風(fēng)險(xiǎn)預(yù)測[J]. 范巍強(qiáng),劉暾東. 電腦知識與技術(shù). 2011(10)
本文編號:2985091
【文章來源】:征信. 2020,38(05)北大核心
【文章頁數(shù)】:8 頁
【部分圖文】:
算法偽代碼
首先對數(shù)據(jù)集作數(shù)據(jù)預(yù)處理、缺失值填充和異常點(diǎn)刪除。為了篩選出對提升模型預(yù)測效果較強(qiáng)的屬性,分別對每個(gè)屬性進(jìn)行WOE(Weight Of Evidence)編碼并計(jì)算其對應(yīng)的IV(Information Value)值,計(jì)算結(jié)果如圖2所示。一般認(rèn)為IV值小于0.1時(shí),該屬性預(yù)測能力較弱,因此將需要探究的屬性限定在IV值大于0.1的變量:可用額度、年齡、逾期30~59天筆數(shù)、逾期60~89天筆數(shù)、逾期90天筆數(shù)。預(yù)處理完成后,進(jìn)行模型輸入。該實(shí)驗(yàn)選擇對四種模型進(jìn)行歸因分析:logistic回歸、決策樹、隨機(jī)森林、BP神經(jīng)網(wǎng)絡(luò),即預(yù)測模型F的選擇限定為以上四種;傾向評分模型R在本實(shí)驗(yàn)中設(shè)置為logistic回歸。將數(shù)據(jù)集、屬性集及選定的預(yù)測模型F、傾向評分模型R輸入算法,并對數(shù)據(jù)集進(jìn)行min-max標(biāo)準(zhǔn)化。
對數(shù)據(jù)集利用選定的四種預(yù)測模型:logistic回歸、決策樹、隨機(jī)森林、BP神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測建模,利用模型預(yù)測每個(gè)用戶可能成為壞用戶的概率,得出的四種模型預(yù)測效果對比如圖3所示?梢钥吹娇山忉屝暂^強(qiáng)的兩個(gè)模型預(yù)測效果較差:logistic回歸AUC=0.8126,預(yù)測效果最差;決策樹模型AUC=0.8416,較之有所提升?山忉屝暂^差的黑盒模型預(yù)測效果更好:隨機(jī)森林模型AUC=0.8587;BP神經(jīng)網(wǎng)絡(luò)模型AUC=0.8620,預(yù)測效果最佳。隨著模型效果的提升,可解釋性在下降。
【參考文獻(xiàn)】:
期刊論文
[1]信用評分模型比較綜述——基于傳統(tǒng)方法與數(shù)據(jù)挖掘的對比[J]. 何珊,劉振東,馬小林. 征信. 2019(02)
[2]深度學(xué)習(xí)的可解釋性[J]. 吳飛,廖彬兵,韓亞洪. 航空兵器. 2019(01)
[3]因果推斷的統(tǒng)計(jì)方法[J]. 苗旺,劉春辰,耿直. 中國科學(xué):數(shù)學(xué). 2018(12)
[4]基于卷積神經(jīng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)金融信用風(fēng)險(xiǎn)預(yù)測研究[J]. 王重仁,韓冬梅. 微型機(jī)與應(yīng)用. 2017(24)
[5]大數(shù)據(jù)時(shí)代個(gè)人信用評分的新趨勢[J]. 張晶. 征信. 2017(12)
[6]基于有序logistic模型的互聯(lián)網(wǎng)金融客戶違約風(fēng)險(xiǎn)研究[J]. 熊正德,劉臻煊,熊一鵬. 系統(tǒng)工程. 2017(08)
[7]基于支持向量機(jī)的中小企業(yè)技術(shù)信貸違約預(yù)測[J]. 張杰,趙峰. 統(tǒng)計(jì)與決策. 2013(20)
[8]大數(shù)據(jù)的風(fēng)險(xiǎn)和現(xiàn)存問題[J]. 劉德寰,李雪蓮. 廣告大觀(理論版). 2013(03)
[9]基于BP神經(jīng)網(wǎng)絡(luò)的信用卡違約風(fēng)險(xiǎn)預(yù)測[J]. 范巍強(qiáng),劉暾東. 電腦知識與技術(shù). 2011(10)
本文編號:2985091
本文鏈接:http://sikaile.net/jingjilunwen/huobiyinxinglunwen/2985091.html
最近更新
教材專著