數(shù)據(jù)挖掘技術在征信數(shù)據(jù)中的應用研究
發(fā)布時間:2020-12-25 20:21
征信機構(gòu)的用戶征信數(shù)據(jù)具有巨大的商業(yè)價值,如何利用該數(shù)據(jù)幫助征信機構(gòu)判斷是否與用戶進行信貸業(yè)務,是一個值得研究的問題。在研究這個問題的過程中,常見的方法是利用相關技術對已有的征信數(shù)據(jù)進行研究挖掘,找出其中的規(guī)律以便對未知用戶進行信用評分的預測,最終依據(jù)此評分判斷是否對其進行信貸業(yè)務。本文圍繞這個問題展開研究,包括對數(shù)據(jù)挖掘方法的改進以及對實際征信數(shù)據(jù)分類問題的應用等,主要工作如下:1.考慮實際征信數(shù)據(jù)中用戶評級分類問題,在進行缺失值補充等預處理后,針對將用戶分為可貸款用戶和不可貸款用戶的實際情況,將上述問題轉(zhuǎn)化為一類二分類問題,使用XGBoost算法建立用戶違約預測模型。仿真結(jié)果表明,與傳統(tǒng)的Logistic回歸和GBDT算法等方法相比,XGBoost算法具有更優(yōu)的分類效果,其AUC值分別提升了5.24%和6.06%。2.將對用戶信用評級的分類問題轉(zhuǎn)化為一類多分類問題,即將用戶信用由好到壞分為1至4級,對于預處理后的征信數(shù)據(jù),建立支持向量機集成模型,計算樣本點到超平面的距離,降低了主觀因素可能產(chǎn)生的影響,并列出信用評級排名前十的用戶以供研究參考。3.對Boruta特征選擇算法提出改進,...
【文章來源】:南京郵電大學江蘇省
【文章頁數(shù)】:58 頁
【學位級別】:碩士
【部分圖文】:
圖2.1支持向量示意圖
超平面距離最近的樣本點,即 ( ) 1i i 在1: 1TH x b上;對 = 1iy 的負例點,和2H 上的點就是支持向量。圖 2.1 支持向量示意圖優(yōu)分類超平面的重要參數(shù),也是判斷分類正確平面的距離,如下圖所示:
位碩士研究生學位論文 第二章真實類別與學習器預測類別的組合劃分為真正例(true真負例(truenegative)、假負例(falsenegative)四種情形,本數(shù)。分類結(jié)果的混淆矩陣如表所示,其中 TP FP TNC即“受試者工作特征”曲線,在機器學習領域被廣泛引用,圖,如圖所示:
【參考文獻】:
期刊論文
[1]基于拉普拉斯評分的多標記特征選擇算法[J]. 胡敏杰,林耀進,王晨曦,唐莉,鄭荔平. 計算機應用. 2018(11)
[2]基于Boruta-PSO-SVM的股票收益率研究[J]. 郭海山,高波涌,陸慧娟. 傳感器與微系統(tǒng). 2018(03)
[3]基于SVM的駕駛行為健康度評估模型[J]. 白東,錢松榮. 微型電腦應用. 2017(12)
[4]基于新型不純度度量的代價敏感隨機森林分類器[J]. 師彥文,王宏杰. 計算機科學. 2017(S2)
[5]數(shù)據(jù)缺失及其處理方法綜述[J]. 曄沙. 電子測試. 2017(18)
[6]個人信用評分模型比較數(shù)據(jù)挖掘分析[J]. 李卯. 時代金融. 2017(06)
[7]基于優(yōu)化CBR的個人信用評分研究[J]. 姜明輝,許佩,韓旖桐,覃志. 中國軟科學. 2014(12)
[8]基于支持向量機的回歸預測綜述[J]. 李永娜. 信息通信. 2014(11)
[9]數(shù)據(jù)挖掘模型在小企業(yè)主信用評分領域的應用[J]. 王磊,范超,解明明. 統(tǒng)計研究. 2014(10)
[10]高維數(shù)據(jù)回歸分析中基于LASSO的自變量選擇[J]. 張秀秀,王慧,田雙雙,喬楠,閆麗娜,王彤. 中國衛(wèi)生統(tǒng)計. 2013(06)
博士論文
[1]個人信用評分組合模型研究與應用[D]. 向暉.湖南大學 2011
[2]信用評分理論與應用研究[D]. 劉弢.湖南大學 2010
碩士論文
[1]基于優(yōu)化的xgboost-LMT模型的供應商信用評價研究[D]. 樊鵬.廣東工業(yè)大學 2016
本文編號:2938329
【文章來源】:南京郵電大學江蘇省
【文章頁數(shù)】:58 頁
【學位級別】:碩士
【部分圖文】:
圖2.1支持向量示意圖
超平面距離最近的樣本點,即 ( ) 1i i 在1: 1TH x b上;對 = 1iy 的負例點,和2H 上的點就是支持向量。圖 2.1 支持向量示意圖優(yōu)分類超平面的重要參數(shù),也是判斷分類正確平面的距離,如下圖所示:
位碩士研究生學位論文 第二章真實類別與學習器預測類別的組合劃分為真正例(true真負例(truenegative)、假負例(falsenegative)四種情形,本數(shù)。分類結(jié)果的混淆矩陣如表所示,其中 TP FP TNC即“受試者工作特征”曲線,在機器學習領域被廣泛引用,圖,如圖所示:
【參考文獻】:
期刊論文
[1]基于拉普拉斯評分的多標記特征選擇算法[J]. 胡敏杰,林耀進,王晨曦,唐莉,鄭荔平. 計算機應用. 2018(11)
[2]基于Boruta-PSO-SVM的股票收益率研究[J]. 郭海山,高波涌,陸慧娟. 傳感器與微系統(tǒng). 2018(03)
[3]基于SVM的駕駛行為健康度評估模型[J]. 白東,錢松榮. 微型電腦應用. 2017(12)
[4]基于新型不純度度量的代價敏感隨機森林分類器[J]. 師彥文,王宏杰. 計算機科學. 2017(S2)
[5]數(shù)據(jù)缺失及其處理方法綜述[J]. 曄沙. 電子測試. 2017(18)
[6]個人信用評分模型比較數(shù)據(jù)挖掘分析[J]. 李卯. 時代金融. 2017(06)
[7]基于優(yōu)化CBR的個人信用評分研究[J]. 姜明輝,許佩,韓旖桐,覃志. 中國軟科學. 2014(12)
[8]基于支持向量機的回歸預測綜述[J]. 李永娜. 信息通信. 2014(11)
[9]數(shù)據(jù)挖掘模型在小企業(yè)主信用評分領域的應用[J]. 王磊,范超,解明明. 統(tǒng)計研究. 2014(10)
[10]高維數(shù)據(jù)回歸分析中基于LASSO的自變量選擇[J]. 張秀秀,王慧,田雙雙,喬楠,閆麗娜,王彤. 中國衛(wèi)生統(tǒng)計. 2013(06)
博士論文
[1]個人信用評分組合模型研究與應用[D]. 向暉.湖南大學 2011
[2]信用評分理論與應用研究[D]. 劉弢.湖南大學 2010
碩士論文
[1]基于優(yōu)化的xgboost-LMT模型的供應商信用評價研究[D]. 樊鵬.廣東工業(yè)大學 2016
本文編號:2938329
本文鏈接:http://sikaile.net/jingjilunwen/huobiyinxinglunwen/2938329.html