基于混合集成算法的信用風(fēng)險評估
發(fā)布時間:2021-12-16 09:07
信用貸款作為當(dāng)前被大眾接受最廣的一種貸款模式,其發(fā)展規(guī)模不僅決定了金融機構(gòu)的資金發(fā)展水平,同時也為客戶生產(chǎn)生活提供了巨大的便利。信用貸款作為常用貸款模式,客戶征信好壞顯然已經(jīng)成為金融機構(gòu)判斷是否為其發(fā)放貸款的核心標(biāo)準。如何通過算法構(gòu)建高效、準確的評估模型來判斷客戶違約的可能性是亟待解決和優(yōu)化的問題。本文對于個人信用評估模型的構(gòu)建主要從信用數(shù)據(jù)不平衡和集成模型構(gòu)建兩方面作改進和優(yōu)化。并通過公開的UCI信用數(shù)據(jù)集進行算法和模型的性能驗證,為金融機構(gòu)風(fēng)險防控水平的發(fā)展獻上綿薄之力。首先對于數(shù)據(jù)處理方面,金融機構(gòu)獲取的客戶信息數(shù)據(jù)是多樣的,也是不平衡的。針對數(shù)據(jù)不平衡的問題,本文在傳統(tǒng)不平衡數(shù)據(jù)處理方法SMOTE算法的基礎(chǔ)上,提出了改進的閾值合成少類過采樣(Ts-SMOTE)算法,通過距離閾值選擇合適的少類近鄰樣本或多類近鄰樣本進行新樣本的合成。實驗中,將該方法用于單個Xgboost預(yù)測模型的構(gòu)建上,實驗結(jié)果表明,本文所提算法相較傳統(tǒng)SMOTE算法獲得了更高的G-mean值、F-value值,驗證了本文所提算法對不平衡數(shù)據(jù)處理的有效性。其次對于模型構(gòu)建方面,本文選擇了以Xgboost作為基模型...
【文章來源】:蘭州交通大學(xué)甘肅省
【文章頁數(shù)】:59 頁
【學(xué)位級別】:碩士
【部分圖文】:
ROC曲線圖
蘭州交通大學(xué)工程碩士學(xué)位論文-12-量綱后的樣本分布圖,很明顯,通過馬氏距離計算的樣本距離相較于歐式距離,更符合現(xiàn)實數(shù)據(jù)分布。圖2.1馬氏距離和歐氏距離異常點檢測圖(2)基于箱型圖的異常值檢驗通過繪制一組數(shù)據(jù)的箱型圖,可以直觀地觀察數(shù)據(jù)的多組特征分布。以圖2.2為例,每一列數(shù)據(jù)值的四分位距決定了箱子大小,即QQIQR13,其中Q3為屬性值75%分位數(shù),Q1為25%分位數(shù)。在圖2.2中,箱子的藍色上邊為Q3,藍色下邊為Q1,綠色中間線為中位數(shù)Q2,及50%分位數(shù)。若屬性值*5.13IQRQ(上限值)或?qū)傩灾?5.11IQRQ(下限值),則該屬性值即為異常值,圖2.2中圓圈即代表異常值。若屬性最大值為Max,最小值為Min,則異常值判定如下,若*5.13IQRQMax,Max=觸須點;若*5.13IQRQMax,Max=異常值;若*5.11IQRQMin,Min=觸須值;若*5.11IQRQMin,Min=異常值;
基于混合集成算法的信用風(fēng)險評估-13-圖2.2基于箱型圖的異常點檢測圖2.1.3數(shù)據(jù)標(biāo)準化及歸一化通常真實的信用數(shù)據(jù)集中的每個特征變量之間存在著很大的差異,比如數(shù)量級等。較大的數(shù)量級會使得模型更偏向于對其的學(xué)習(xí)和分類。所以我們需要對數(shù)據(jù)進行無量綱化處理,以消除其差異性,從而提高分類器的學(xué)習(xí)性能和預(yù)測精度[49]。標(biāo)準化是通過求z-score值,將特征值的量綱進行統(tǒng)一。公式如式2.2所示:SXxx"(X為樣本均值,S為樣本方差)(2.2)歸一化是將每個特征變量都轉(zhuǎn)化為單位向量,即將特征的取值范圍縮放到[0,1]范圍內(nèi)。公式如式2.3所示:MinMaxMinxx"(Min為樣本最小值,Max為樣本最大值)(2.3)2.2特征屬性分類面對待處理的一批數(shù)據(jù),我們可以對數(shù)據(jù)的屬性特征進行分類。比如可以將數(shù)據(jù)按照屬性特征分為排序特征、離散特征、計數(shù)特征、類別特征、交叉特征。接下來對這些特征的處理方式作詳細說明。排序特征是通過對數(shù)值型屬性特征按從小到大的順序進行排序,從而得到排序特征。排序特征對數(shù)據(jù)異常值魯棒性較好,可以有效降低過擬合。離散特征的劃分有兩種辦法:一是通過劃分值域來取得離散值,二是通過等量劃分樣本數(shù)量獲得離散值。我們可以對數(shù)值型數(shù)據(jù)運用等量劃分的方式得到離散值,即將每
【參考文獻】:
期刊論文
[1]信用評分模型比較綜述——基于傳統(tǒng)方法與數(shù)據(jù)挖掘的對比[J]. 何珊,劉振東,馬小林. 征信. 2019(02)
[2]基于NKSMOTE算法的非平衡數(shù)據(jù)集分類方法[J]. 王莉,陳紅梅. 計算機科學(xué). 2018(09)
[3]基于XGBOOST的用戶信用評分建模[J]. 韓修龍. 電腦知識與技術(shù). 2018(05)
[4]基于GBDT的線上交易欺詐偵測研究[J]. 趙金濤,邱雪濤,何東杰. 微型電腦應(yīng)用. 2017(10)
[5]云計算下分布式數(shù)據(jù)安全讀取算法研究[J]. 涂俊英,熊曾剛. 微電子學(xué)與計算機. 2017(10)
[6]新興技術(shù)企業(yè)信用風(fēng)險的成因與特征[J]. 周一懋,張強. 價值工程. 2017(25)
[7]基于主成分分析的成分數(shù)據(jù)缺失值插補法[J]. 張曉琴,王敏. 應(yīng)用概率統(tǒng)計. 2016(01)
[8]ROC曲線分析在醫(yī)學(xué)影像學(xué)診斷中的價值[J]. 馮廣龍,姜慧杰. 中華醫(yī)學(xué)雜志. 2015 (03)
[9]基于遺傳算法改進的少數(shù)類樣本合成過采樣技術(shù)的非平衡數(shù)據(jù)集分類算法[J]. 霍玉丹,谷瓊,蔡之華,袁磊. 計算機應(yīng)用. 2015(01)
[10]個人信用評級模型的指標(biāo)選擇方法[J]. 史小康,馬學(xué)俊. 統(tǒng)計與決策. 2014(23)
博士論文
[1]基于鄰近重采樣和分類器排序的信用卡欺詐檢測中不平衡數(shù)據(jù)研究[D]. MAIRA ANIS.電子科技大學(xué) 2018
[2]基于大數(shù)據(jù)的個人信用風(fēng)險評估模型研究[D]. 張萬軍.對外經(jīng)濟貿(mào)易大學(xué) 2016
[3]面向高維小樣本數(shù)據(jù)的分類特征選擇算法研究[D]. 張靖.合肥工業(yè)大學(xué) 2014
[4]隨機森林算法優(yōu)化研究[D]. 曹正鳳.首都經(jīng)濟貿(mào)易大學(xué) 2014
[5]基于支持向量機的人臉特征選擇及識別研究[D]. 李偉紅.重慶大學(xué) 2006
[6]基于支持向量機的消費信貸中個人信用評估方法研究[D]. 沈翠華.中國農(nóng)業(yè)大學(xué) 2005
碩士論文
[1]基于XGBoost的還款概率預(yù)測模型分析與優(yōu)化[D]. 王嘉豪.西安電子科技大學(xué) 2019
[2]基于混合模型的非均衡數(shù)據(jù)分類研究[D]. 李智林.南京郵電大學(xué) 2018
[3]深度增強學(xué)習(xí)在不平衡分類上的研究[D]. 戚瀟明.華南理工大學(xué) 2018
[4]高維小樣本數(shù)據(jù)的互信息特征選擇方法研究[D]. 張凱.山西大學(xué) 2017
[5]Logistic回歸及其相關(guān)方法在個人信用評分中的應(yīng)用[D]. 張婷婷.太原理工大學(xué) 2017
[6]銀行信用評級中的不平衡分類問題研究[D]. 陳力.廣東工業(yè)大學(xué) 2017
[7]基于支持向量機的互聯(lián)網(wǎng)金融個人信用評估方法研究[D]. 連程.浙江財經(jīng)大學(xué) 2017
[8]基于數(shù)據(jù)挖掘的個人信用風(fēng)險評估單一模型與集成模型的研究[D]. 陳慧.廣西大學(xué) 2016
[9]決策樹算法在P2P網(wǎng)貸借款信用風(fēng)險評估中的應(yīng)用研究[D]. 劉藝.湖南大學(xué) 2016
[10]面向失衡數(shù)據(jù)集的集成學(xué)習(xí)分類方法及其應(yīng)用研究[D]. 黃久玲.哈爾濱理工大學(xué) 2015
本文編號:3537872
【文章來源】:蘭州交通大學(xué)甘肅省
【文章頁數(shù)】:59 頁
【學(xué)位級別】:碩士
【部分圖文】:
ROC曲線圖
蘭州交通大學(xué)工程碩士學(xué)位論文-12-量綱后的樣本分布圖,很明顯,通過馬氏距離計算的樣本距離相較于歐式距離,更符合現(xiàn)實數(shù)據(jù)分布。圖2.1馬氏距離和歐氏距離異常點檢測圖(2)基于箱型圖的異常值檢驗通過繪制一組數(shù)據(jù)的箱型圖,可以直觀地觀察數(shù)據(jù)的多組特征分布。以圖2.2為例,每一列數(shù)據(jù)值的四分位距決定了箱子大小,即QQIQR13,其中Q3為屬性值75%分位數(shù),Q1為25%分位數(shù)。在圖2.2中,箱子的藍色上邊為Q3,藍色下邊為Q1,綠色中間線為中位數(shù)Q2,及50%分位數(shù)。若屬性值*5.13IQRQ(上限值)或?qū)傩灾?5.11IQRQ(下限值),則該屬性值即為異常值,圖2.2中圓圈即代表異常值。若屬性最大值為Max,最小值為Min,則異常值判定如下,若*5.13IQRQMax,Max=觸須點;若*5.13IQRQMax,Max=異常值;若*5.11IQRQMin,Min=觸須值;若*5.11IQRQMin,Min=異常值;
基于混合集成算法的信用風(fēng)險評估-13-圖2.2基于箱型圖的異常點檢測圖2.1.3數(shù)據(jù)標(biāo)準化及歸一化通常真實的信用數(shù)據(jù)集中的每個特征變量之間存在著很大的差異,比如數(shù)量級等。較大的數(shù)量級會使得模型更偏向于對其的學(xué)習(xí)和分類。所以我們需要對數(shù)據(jù)進行無量綱化處理,以消除其差異性,從而提高分類器的學(xué)習(xí)性能和預(yù)測精度[49]。標(biāo)準化是通過求z-score值,將特征值的量綱進行統(tǒng)一。公式如式2.2所示:SXxx"(X為樣本均值,S為樣本方差)(2.2)歸一化是將每個特征變量都轉(zhuǎn)化為單位向量,即將特征的取值范圍縮放到[0,1]范圍內(nèi)。公式如式2.3所示:MinMaxMinxx"(Min為樣本最小值,Max為樣本最大值)(2.3)2.2特征屬性分類面對待處理的一批數(shù)據(jù),我們可以對數(shù)據(jù)的屬性特征進行分類。比如可以將數(shù)據(jù)按照屬性特征分為排序特征、離散特征、計數(shù)特征、類別特征、交叉特征。接下來對這些特征的處理方式作詳細說明。排序特征是通過對數(shù)值型屬性特征按從小到大的順序進行排序,從而得到排序特征。排序特征對數(shù)據(jù)異常值魯棒性較好,可以有效降低過擬合。離散特征的劃分有兩種辦法:一是通過劃分值域來取得離散值,二是通過等量劃分樣本數(shù)量獲得離散值。我們可以對數(shù)值型數(shù)據(jù)運用等量劃分的方式得到離散值,即將每
【參考文獻】:
期刊論文
[1]信用評分模型比較綜述——基于傳統(tǒng)方法與數(shù)據(jù)挖掘的對比[J]. 何珊,劉振東,馬小林. 征信. 2019(02)
[2]基于NKSMOTE算法的非平衡數(shù)據(jù)集分類方法[J]. 王莉,陳紅梅. 計算機科學(xué). 2018(09)
[3]基于XGBOOST的用戶信用評分建模[J]. 韓修龍. 電腦知識與技術(shù). 2018(05)
[4]基于GBDT的線上交易欺詐偵測研究[J]. 趙金濤,邱雪濤,何東杰. 微型電腦應(yīng)用. 2017(10)
[5]云計算下分布式數(shù)據(jù)安全讀取算法研究[J]. 涂俊英,熊曾剛. 微電子學(xué)與計算機. 2017(10)
[6]新興技術(shù)企業(yè)信用風(fēng)險的成因與特征[J]. 周一懋,張強. 價值工程. 2017(25)
[7]基于主成分分析的成分數(shù)據(jù)缺失值插補法[J]. 張曉琴,王敏. 應(yīng)用概率統(tǒng)計. 2016(01)
[8]ROC曲線分析在醫(yī)學(xué)影像學(xué)診斷中的價值[J]. 馮廣龍,姜慧杰. 中華醫(yī)學(xué)雜志. 2015 (03)
[9]基于遺傳算法改進的少數(shù)類樣本合成過采樣技術(shù)的非平衡數(shù)據(jù)集分類算法[J]. 霍玉丹,谷瓊,蔡之華,袁磊. 計算機應(yīng)用. 2015(01)
[10]個人信用評級模型的指標(biāo)選擇方法[J]. 史小康,馬學(xué)俊. 統(tǒng)計與決策. 2014(23)
博士論文
[1]基于鄰近重采樣和分類器排序的信用卡欺詐檢測中不平衡數(shù)據(jù)研究[D]. MAIRA ANIS.電子科技大學(xué) 2018
[2]基于大數(shù)據(jù)的個人信用風(fēng)險評估模型研究[D]. 張萬軍.對外經(jīng)濟貿(mào)易大學(xué) 2016
[3]面向高維小樣本數(shù)據(jù)的分類特征選擇算法研究[D]. 張靖.合肥工業(yè)大學(xué) 2014
[4]隨機森林算法優(yōu)化研究[D]. 曹正鳳.首都經(jīng)濟貿(mào)易大學(xué) 2014
[5]基于支持向量機的人臉特征選擇及識別研究[D]. 李偉紅.重慶大學(xué) 2006
[6]基于支持向量機的消費信貸中個人信用評估方法研究[D]. 沈翠華.中國農(nóng)業(yè)大學(xué) 2005
碩士論文
[1]基于XGBoost的還款概率預(yù)測模型分析與優(yōu)化[D]. 王嘉豪.西安電子科技大學(xué) 2019
[2]基于混合模型的非均衡數(shù)據(jù)分類研究[D]. 李智林.南京郵電大學(xué) 2018
[3]深度增強學(xué)習(xí)在不平衡分類上的研究[D]. 戚瀟明.華南理工大學(xué) 2018
[4]高維小樣本數(shù)據(jù)的互信息特征選擇方法研究[D]. 張凱.山西大學(xué) 2017
[5]Logistic回歸及其相關(guān)方法在個人信用評分中的應(yīng)用[D]. 張婷婷.太原理工大學(xué) 2017
[6]銀行信用評級中的不平衡分類問題研究[D]. 陳力.廣東工業(yè)大學(xué) 2017
[7]基于支持向量機的互聯(lián)網(wǎng)金融個人信用評估方法研究[D]. 連程.浙江財經(jīng)大學(xué) 2017
[8]基于數(shù)據(jù)挖掘的個人信用風(fēng)險評估單一模型與集成模型的研究[D]. 陳慧.廣西大學(xué) 2016
[9]決策樹算法在P2P網(wǎng)貸借款信用風(fēng)險評估中的應(yīng)用研究[D]. 劉藝.湖南大學(xué) 2016
[10]面向失衡數(shù)據(jù)集的集成學(xué)習(xí)分類方法及其應(yīng)用研究[D]. 黃久玲.哈爾濱理工大學(xué) 2015
本文編號:3537872
本文鏈接:http://sikaile.net/guanlilunwen/huobilw/3537872.html
最近更新
教材專著