基于決策樹集成學習的車貸信用數(shù)據(jù)知識發(fā)現(xiàn)
發(fā)布時間:2023-11-11 07:53
近年來,隨著互聯(lián)網(wǎng)技術的發(fā)展,越來越多人接受并開始通過互聯(lián)網(wǎng)平臺實現(xiàn)生活中的各方面需求,其中包括學習、消費、金融、醫(yī)療等。在此環(huán)境下,作為一種金融科技的P2P汽車網(wǎng)貸也迅速崛起。而在P2P汽車網(wǎng)貸平臺所形成的市場中,如何降低平臺與資金方的風險成為學者們研究的熱點。對于貸款人所提交的大量個人信息和征信信息,以及貸款產(chǎn)品的諸多信息匯總到一起,經(jīng)人工審核最終形成貸款訂單。這樣巨大的信息量無形中加大了甄別貸款人真實情況以及做出放貸決策的復雜程度,但在大數(shù)據(jù)時代下,貸款訂單所形成的龐大且高維度的數(shù)據(jù)集同時也成為了通過數(shù)據(jù)挖掘技術從中發(fā)現(xiàn)規(guī)律并進行預測的重要工具。為減小網(wǎng)貸平臺與資金方放貸風險,降低網(wǎng)貸平臺對高維度的貸款人信息進行甄別做出放貸決策的復雜度與人工成本,什么樣的貸款人最終可獲得平臺全額批復貸款或是被拒絕,是本文的研究目的。本文使用美利車金融網(wǎng)貸平臺2015-2018年部分貸款訂單數(shù)據(jù),引入分類與預測模型中決策樹和隨機森林算法,使用四種算法建模,對模型進行訓練與測試,并在最后比較各模型性能,選擇最優(yōu)的算法發(fā)現(xiàn)并總結其中規(guī)律,給出科學的管理建議。研究結果表明:在算法層面上,CART算法產(chǎn)生...
【文章頁數(shù)】:74 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 選題背景及意義
1.1.1 選題背景
1.1.2 研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 研究內(nèi)容及技術路線
1.3.1 研究內(nèi)容
1.3.2 使用工具及技術路線
1.4 本文組織結構
2 研究方法概述
2.1 數(shù)據(jù)挖掘與數(shù)據(jù)預處理
2.1.1 數(shù)據(jù)挖掘理論概述
2.1.2 數(shù)據(jù)離散化
2.2 決策樹算法
2.2.1 CART分類回歸樹
2.2.2 ID3算法
2.2.3 C4.5/C5.0算法
2.3 集成學習與隨機森林
2.3.1 集成學習
2.3.2 Boosting與Bagging
2.3.3 隨機森林
3 研究設計與數(shù)據(jù)預處理
3.1 研究設計
3.1.1 研究流程
3.1.2 數(shù)據(jù)來源
3.1.3 目標變量選取
3.1.4 自變量選取
3.2 數(shù)據(jù)預處理
3.2.1 數(shù)據(jù)清理
3.2.2 描述分析
3.2.3 數(shù)據(jù)離散化
3.2.4 數(shù)據(jù)變換
3.3 數(shù)據(jù)預處理結果匯總
4 知識發(fā)現(xiàn)及模型評估
4.1 模型度量指標
4.2 基于決策樹的模型構建
4.2.1 使用CART算法建樹
4.2.2 使用ID3算法建樹
4.2.3 使用C5.0算法建樹
4.2.4 使用隨機森林建模
4.3 各模型性能比較
4.4 基于初次實驗結果變量調(diào)整
4.4.1 變量調(diào)整
4.4.2 建模及結果
5 結論
參考文獻
致謝
附錄A 部分使用數(shù)據(jù)
附錄B 建模算法代碼
個人簡介
本文編號:3862229
【文章頁數(shù)】:74 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 選題背景及意義
1.1.1 選題背景
1.1.2 研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 研究內(nèi)容及技術路線
1.3.1 研究內(nèi)容
1.3.2 使用工具及技術路線
1.4 本文組織結構
2 研究方法概述
2.1 數(shù)據(jù)挖掘與數(shù)據(jù)預處理
2.1.1 數(shù)據(jù)挖掘理論概述
2.1.2 數(shù)據(jù)離散化
2.2 決策樹算法
2.2.1 CART分類回歸樹
2.2.2 ID3算法
2.2.3 C4.5/C5.0算法
2.3 集成學習與隨機森林
2.3.1 集成學習
2.3.2 Boosting與Bagging
2.3.3 隨機森林
3 研究設計與數(shù)據(jù)預處理
3.1 研究設計
3.1.1 研究流程
3.1.2 數(shù)據(jù)來源
3.1.3 目標變量選取
3.1.4 自變量選取
3.2 數(shù)據(jù)預處理
3.2.1 數(shù)據(jù)清理
3.2.2 描述分析
3.2.3 數(shù)據(jù)離散化
3.2.4 數(shù)據(jù)變換
3.3 數(shù)據(jù)預處理結果匯總
4 知識發(fā)現(xiàn)及模型評估
4.1 模型度量指標
4.2 基于決策樹的模型構建
4.2.1 使用CART算法建樹
4.2.2 使用ID3算法建樹
4.2.3 使用C5.0算法建樹
4.2.4 使用隨機森林建模
4.3 各模型性能比較
4.4 基于初次實驗結果變量調(diào)整
4.4.1 變量調(diào)整
4.4.2 建模及結果
5 結論
參考文獻
致謝
附錄A 部分使用數(shù)據(jù)
附錄B 建模算法代碼
個人簡介
本文編號:3862229
本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/3862229.html
最近更新
教材專著