基于數(shù)據(jù)挖掘的我國P2P網(wǎng)絡借貸違約預測模型研究
發(fā)布時間:2017-10-10 20:33
本文關鍵詞:基于數(shù)據(jù)挖掘的我國P2P網(wǎng)絡借貸違約預測模型研究
更多相關文章: P2P網(wǎng)絡借貸 信息不對稱 數(shù)據(jù)挖掘 非平衡數(shù)據(jù) 違約預測模型
【摘要】:近年來隨著互聯(lián)網(wǎng)+思維的廣泛傳播,深入到社會各行各業(yè),互聯(lián)網(wǎng)給金融產(chǎn)業(yè)帶來了巨大的變革,在此基礎上誕生的P2P網(wǎng)絡借貸平臺也面臨著由初始的蓬勃發(fā)展轉向激烈競爭的局面。P2P網(wǎng)絡借貸(Peer-to-peer)允許個人通過平臺面向廣大公眾進行借貸,該筆借貸一般為無擔保貸款,并且無需銀行等金融機構的介入。P2P平臺由于其自身特性,在借款方和出借方的借貸過程中不需要第三方機構如銀行的加入,防控平臺風險主要依靠的是個人信用評級制度,然而我國目前還沒有明確的法律監(jiān)管措施,平臺對借款方的信用信息收集成本高,公民征信體系不健全。由于信息的不對稱,借款人對自身借款的用途、還款意愿、償還能力等都十分清楚,而出借方卻不完全擁有借款人的全部信息,這種情況下產(chǎn)生的道德風險和良幣驅逐現(xiàn)象都十分普遍,導致借款方違約欺詐現(xiàn)象頻發(fā)。出借方無法準確判斷該筆借貸存在的風險大小,對平臺.無法信任,最終可能會導致P2P市場運行效率低下,長此以往P2P行業(yè)發(fā)展勢必受到嚴重的阻礙。截止2015年底,P2P問題平臺達到896家,涉及資金超過80億元。本研究通過引入數(shù)據(jù)挖掘算法,使用人工非平衡數(shù)據(jù)對幾種經(jīng)典的數(shù)據(jù)挖掘算法進行性能的對比,最終選擇隨機森林算法構建模型。隨機森林模型能夠將借款方的相關信息全部加入解釋變量中,而不需要對變量進行編碼,歸一化處理,進行交叉檢驗及精煉,可以避免刪除隱藏的有效信息。研究收集了國內(nèi)某龍貸P2P網(wǎng)絡借貸平臺13萬條數(shù)據(jù),經(jīng)過數(shù)據(jù)的預處理最終獲得122804條有效數(shù)據(jù),使用隨機森林算法構建了P2P網(wǎng)絡借貸借款方違約行為預測模型。通過Dist指標對模型進行優(yōu)化,從研究的結果上看,預測模型對測試集的預測結果表明了模型具有良好的性能,其中模型的準確率達到0.978,查全率為0.7002,AUC值為0.803?梢詾槲覈腜2P網(wǎng)絡借貸風險控制提供一定的參考價值。
【關鍵詞】:P2P網(wǎng)絡借貸 信息不對稱 數(shù)據(jù)挖掘 非平衡數(shù)據(jù) 違約預測模型
【學位授予單位】:大連理工大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP311.13;F832.4;F724.6
【目錄】:
- 摘要4-5
- Abstract5-9
- 1 緒論9-14
- 1.1 研究背景9-11
- 1.1.1 現(xiàn)實背景9-10
- 1.1.2 理論背景10-11
- 1.2 研究目的和研究意義11-12
- 1.2.1 研究目的11-12
- 1.2.2 研究意義12
- 1.3 研究內(nèi)容和論文結構12-13
- 1.4 主要創(chuàng)新點13-14
- 2 文獻綜述14-35
- 2.1 P2P網(wǎng)絡借貸理論14-17
- 2.1.1 P2P網(wǎng)絡借貸基本概念與特征14-15
- 2.1.2 信息不對稱理論15-16
- 2.1.3 P2P網(wǎng)絡借貸違約理論16-17
- 2.2 P2P網(wǎng)絡借貸風險控制理論17-19
- 2.2.1 國外P2P網(wǎng)絡借貸風險控制研究17-18
- 2.2.2 國內(nèi)P2P網(wǎng)絡借貸風險控制研究18-19
- 2.3 數(shù)據(jù)挖掘理論19-33
- 2.3.1 數(shù)據(jù)挖掘算法概述19-20
- 2.3.2 數(shù)據(jù)挖掘算法特征20
- 2.3.3 數(shù)據(jù)挖掘算法的應用20-21
- 2.3.4 數(shù)據(jù)挖掘經(jīng)典算法21-33
- 2.4 非平衡數(shù)據(jù)理論33-34
- 2.4.1 非平衡數(shù)據(jù)概述33
- 2.4.2 非平衡數(shù)據(jù)處理方法33-34
- 2.5 文獻綜述小結34-35
- 3 模型算法的選擇與模型構建35-41
- 3.1 模型性能的評價標準35-36
- 3.2 模型算法的對比36-40
- 3.2.1 邏輯回歸算法37
- 3.2.2 神經(jīng)網(wǎng)絡算法37-38
- 3.2.3 隨機森林算法38-39
- 3.2.4 算法小結39-40
- 3.3 模型構建40-41
- 4 實證分析41-47
- 4.1 研究案例的選取41
- 4.2 數(shù)據(jù)的收集41-43
- 4.3 數(shù)據(jù)的預處理與數(shù)據(jù)描述43-44
- 4.4 軟件介紹44
- 4.5 模型預測44-46
- 4.6 結果分析46-47
- 5 模型優(yōu)化47-54
- 5.1 優(yōu)化思路47-48
- 5.2 優(yōu)化方法48-51
- 5.2.1 閾值調(diào)整48-49
- 5.2.2 Dist指標49-50
- 5.2.3 優(yōu)化后的模型50-51
- 5.3 優(yōu)化結果51-54
- 6 研究結論與展望54-56
- 6.1 研究結論54
- 6.2 研究創(chuàng)新點54
- 6.3 研究局限性54-55
- 6.4 未來研究方向55-56
- 參考文獻56-59
- 攻讀碩士學位期間發(fā)表學術論文情況59-60
- 致謝60-61
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 王雅軒;頊聰;;數(shù)據(jù)挖掘技術的綜述[J];電子技術與軟件工程;2015年08期
2 劉繪;沈慶R,
本文編號:1008496
本文鏈接:http://sikaile.net/jingjilunwen/touziyanjiulunwen/1008496.html
最近更新
教材專著