天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于并行隨機(jī)森林的在線貸款逾期預(yù)測(cè)研究

發(fā)布時(shí)間:2017-07-27 04:18

  本文關(guān)鍵詞:基于并行隨機(jī)森林的在線貸款逾期預(yù)測(cè)研究


  更多相關(guān)文章: 隨機(jī)森林 并行 加權(quán) 非平衡 逾期預(yù)測(cè)


【摘要】:隨著互聯(lián)網(wǎng)金融在中國(guó)的高速發(fā)展,其業(yè)務(wù)之一的在線貸款已經(jīng)開(kāi)始被大眾接受和使用。由于在線貸款的手續(xù)與傳統(tǒng)銀行貸款手續(xù)不同,因此如何計(jì)算貸款者在貸款前的信用及風(fēng)險(xiǎn)是該業(yè)務(wù)開(kāi)展的核心問(wèn)題。同時(shí),該核心問(wèn)題還包括在貸款后實(shí)時(shí)跟蹤貸款人的經(jīng)濟(jì)情況變化,預(yù)測(cè)其是否會(huì)按時(shí)還款等問(wèn)題。針對(duì)在線貸款業(yè)務(wù)數(shù)據(jù)量大,模型更新迭代頻繁的特點(diǎn),本文基于隨機(jī)森林的可并行性和Spark的并行計(jì)算平臺(tái)設(shè)計(jì)并實(shí)現(xiàn)了并行隨機(jī)森林,從而減少了整個(gè)模型訓(xùn)練和預(yù)測(cè)的時(shí)間。針對(duì)在線貸款還款數(shù)據(jù)的非平衡性(即大多數(shù)的數(shù)據(jù)是正常,而少數(shù)是逾期),本文提出了基于改進(jìn)綜合采樣的方法重構(gòu)平衡數(shù)據(jù)。此外,本文根據(jù)隨機(jī)森林算法的不足,提出了一種加權(quán)隨機(jī)森林算法,此算法在構(gòu)造隨機(jī)森林的每棵決策樹(shù)時(shí)利用預(yù)測(cè)OOB數(shù)據(jù)的F1值來(lái)評(píng)估該決策樹(shù)的性能,從而給每棵樹(shù)相應(yīng)的權(quán)重來(lái)對(duì)最后投票進(jìn)行加權(quán)。綜上所述,本文根據(jù)對(duì)在線貸款逾期業(yè)務(wù)需求和數(shù)據(jù)的特點(diǎn)提出了一種基于Spark的并行加權(quán)隨機(jī)森林算法。通過(guò)實(shí)驗(yàn)表明,本文提出的對(duì)數(shù)據(jù)進(jìn)行重構(gòu)平衡的方法以及對(duì)算法進(jìn)行的加權(quán)改進(jìn)能有效提高預(yù)測(cè)的精準(zhǔn)度,同時(shí)減少平局現(xiàn)象的發(fā)生。此外,該算法在F1值上比常見(jiàn)分類算法如SVM、邏輯回歸、C4.5、傳統(tǒng)隨機(jī)森林表現(xiàn)更優(yōu),并具有良好并行效率和不錯(cuò)的加速比性能。
【關(guān)鍵詞】:隨機(jī)森林 并行 加權(quán) 非平衡 逾期預(yù)測(cè)
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:F724.6;F832.4;TP338.6
【目錄】:
  • 摘要5-6
  • Abstract6-9
  • 第一章 緒論9-17
  • 1.1 選題背景和意義9-10
  • 1.2 國(guó)內(nèi)外相關(guān)研究10-16
  • 1.2.1 貸款違約預(yù)測(cè)研究現(xiàn)狀10-14
  • 1.2.2 Spark研究現(xiàn)狀14-15
  • 1.2.3 隨機(jī)森林研究現(xiàn)狀15-16
  • 1.3 本文的工作和組織結(jié)構(gòu)16-17
  • 第二章 本文相關(guān)理論知識(shí)17-26
  • 2.1 數(shù)據(jù)挖掘及常見(jiàn)分類算法簡(jiǎn)介17-20
  • 2.1.1 數(shù)據(jù)挖掘概念17
  • 2.1.2 數(shù)據(jù)挖掘過(guò)程17-18
  • 2.1.3 分類算法概述18-20
  • 2.2 非平衡數(shù)據(jù)分類20-22
  • 2.2.1 非平衡數(shù)據(jù)分類問(wèn)題的本質(zhì)21
  • 2.2.2 常見(jiàn)非平衡分類解決方案21-22
  • 2.3 隨機(jī)森林的算法原理介紹22-23
  • 2.4 Spark并行計(jì)算框架23-26
  • 2.4.1 Spark體系框架24
  • 2.4.2 Spark RDD及程序流程24-26
  • 第三章 加權(quán)并行隨機(jī)森林算法的分析與設(shè)計(jì)26-38
  • 3.1 加權(quán)隨機(jī)森林26-29
  • 3.1.1 傳統(tǒng)隨機(jī)森林的不足之處26-27
  • 3.1.2 本文提出的加權(quán)隨機(jī)森林的算法介紹27-29
  • 3.2 基于Spark的并行隨機(jī)森林的設(shè)計(jì)29-38
  • 3.2.1 并行性研究29-30
  • 3.2.2 本文采取的并行優(yōu)化策略30-31
  • 3.2.3 并行隨機(jī)森林算法流程及描述31-38
  • 第四章 實(shí)驗(yàn)結(jié)果與分析38-51
  • 4.1 實(shí)驗(yàn)環(huán)境38
  • 4.2 數(shù)據(jù)集說(shuō)明38-40
  • 4.3 評(píng)估方法和評(píng)估標(biāo)準(zhǔn)40-41
  • 4.4 實(shí)驗(yàn)結(jié)果與分析41-50
  • 4.4.1 參數(shù)設(shè)置41-42
  • 4.4.2 模型調(diào)優(yōu)42-44
  • 4.4.3 決策樹(shù)的權(quán)重44-46
  • 4.4.4 并行優(yōu)化效果比較46
  • 4.4.5 數(shù)據(jù)綜合采樣方法比較46-47
  • 4.4.6 模型比較47-48
  • 4.4.7 算法并行性能測(cè)試48-49
  • 4.4.8 模型應(yīng)用效果分析49-50
  • 4.5 小結(jié)50-51
  • 第五章 總結(jié)與展望51-53
  • 5.1 總結(jié)51
  • 5.2 下一步工作展望51-53
  • 參考文獻(xiàn)53-58
  • 致謝58-59
  • 答辯委員簽名的答辯決議書59

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 劉足華;熊惠霖;;基于隨機(jī)森林的目標(biāo)檢測(cè)與定位[J];計(jì)算機(jī)工程;2012年13期

2 董師師;黃哲學(xué);;隨機(jī)森林理論淺析[J];集成技術(shù);2013年01期

3 王象剛;;基于K均值隨機(jī)森林快速算法及入侵檢測(cè)中的應(yīng)用[J];科技通報(bào);2013年08期

4 陳姝;彭小寧;;基于粒子濾波和在線隨機(jī)森林分類的目標(biāo)跟蹤[J];江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年02期

5 羅知林;陳挺;蔡皖東;;一個(gè)基于隨機(jī)森林的微博轉(zhuǎn)發(fā)預(yù)測(cè)算法[J];計(jì)算機(jī)科學(xué);2014年04期

6 王麗婷;丁曉青;方馳;;基于隨機(jī)森林的人臉關(guān)鍵點(diǎn)精確定位方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年04期

7 李建更;高志坤;;隨機(jī)森林針對(duì)小樣本數(shù)據(jù)類權(quán)重設(shè)置[J];計(jì)算機(jī)工程與應(yīng)用;2009年26期

8 張建;武東英;劉慧生;;基于隨機(jī)森林的流量分類方法[J];信息工程大學(xué)學(xué)報(bào);2012年05期

9 吳華芹;;基于訓(xùn)練集劃分的隨機(jī)森林算法[J];科技通報(bào);2013年10期

10 張華偉;王明文;甘麗新;;基于隨機(jī)森林的文本分類模型研究[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2006年03期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前7條

1 謝程利;王金橋;盧漢清;;核森林及其在目標(biāo)檢測(cè)中的應(yīng)用[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年

2 武曉巖;方慶偉;;基因表達(dá)數(shù)據(jù)分析的隨機(jī)森林方法及算法改進(jìn)[A];黑龍江省第十次統(tǒng)計(jì)科學(xué)討論會(huì)論文集[C];2008年

3 張?zhí)忑?梁龍;王康;李華;;隨機(jī)森林結(jié)合激光誘導(dǎo)擊穿光譜技術(shù)用于的鋼鐵分類[A];中國(guó)化學(xué)會(huì)第29屆學(xué)術(shù)年會(huì)摘要集——第19分會(huì):化學(xué)信息學(xué)與化學(xué)計(jì)量學(xué)[C];2014年

4 相玉紅;張卓勇;;組蛋白去乙酰化酶抑制劑的構(gòu)效關(guān)系研究[A];第十一屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2011年

5 張濤;李貞子;武曉巖;李康;;隨機(jī)森林回歸分析方法及在代謝組學(xué)中的應(yīng)用[A];2011年中國(guó)衛(wèi)生統(tǒng)計(jì)學(xué)年會(huì)會(huì)議論文集[C];2011年

6 馮飛翔;馮輔周;江鵬程;劉菁;劉建敏;;隨機(jī)森林和k-近鄰法在某型坦克變速箱狀態(tài)識(shí)別中的應(yīng)用[A];第八屆全國(guó)轉(zhuǎn)子動(dòng)力學(xué)學(xué)術(shù)討論會(huì)論文集[C];2008年

7 曹東升;許青松;梁逸曾;陳憲;李洪東;;組合樹(shù)的集合體和后向消除策略去分類P-糖蛋白化合物[A];第十屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2009年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條

1 曹正鳳;隨機(jī)森林算法優(yōu)化研究[D];首都經(jīng)濟(jì)貿(mào)易大學(xué);2014年

2 雷震;隨機(jī)森林及其在遙感影像處理中應(yīng)用研究[D];上海交通大學(xué);2012年

3 岳明;基于隨機(jī)森林和規(guī)則集成法的酒類市場(chǎng)預(yù)測(cè)與發(fā)展戰(zhàn)略[D];天津大學(xué);2008年

4 李書艷;單點(diǎn)氨基酸多態(tài)性與疾病相關(guān)關(guān)系的預(yù)測(cè)及其機(jī)制研究[D];蘭州大學(xué);2010年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 錢維;藥品不良反應(yīng)監(jiān)測(cè)中隨機(jī)森林方法的建立與實(shí)現(xiàn)[D];第二軍醫(yī)大學(xué);2012年

2 賀捷;隨機(jī)森林在文本分類中的應(yīng)用[D];華南理工大學(xué);2015年

3 張文婷;交通環(huán)境下基于改進(jìn)霍夫森林的目標(biāo)檢測(cè)與跟蹤[D];華南理工大學(xué);2015年

4 楊畢玉;核電站松動(dòng)件檢測(cè)分析研究[D];浙江大學(xué);2016年

5 王宇恒;推薦系統(tǒng)中隨機(jī)森林算法的優(yōu)化與應(yīng)用[D];浙江大學(xué);2016年

6 張玉桃;旅客社會(huì)網(wǎng)絡(luò)中的家庭出行預(yù)測(cè)及其行為特征分析[D];北京交通大學(xué);2016年

7 張興;基于Spark大數(shù)據(jù)平臺(tái)的火電廠節(jié)能分析[D];太原理工大學(xué);2016年

8 蔡曉路;基于隨機(jī)森林的類風(fēng)濕關(guān)節(jié)炎證型判別模型研究[D];北京中醫(yī)藥大學(xué);2016年

9 楊麗;音頻場(chǎng)景分析與識(shí)別方法研究[D];南京大學(xué);2013年

10 朱琪;基于最大平衡度與最大共識(shí)的改進(jìn)隨機(jī)森林算法研究[D];吉林大學(xué);2016年

,

本文編號(hào):579789

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/579789.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0b1d3***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com