基于Spark框架的用于金融信貸風(fēng)險(xiǎn)控制的加權(quán)隨機(jī)森林算法
發(fā)布時(shí)間:2020-12-26 09:37
為解決互聯(lián)網(wǎng)時(shí)代線上貸款業(yè)務(wù)量龐大帶來的困擾,優(yōu)化快速迭代的數(shù)據(jù)模型,從線上貸款業(yè)務(wù)的特點(diǎn)出發(fā),以Spark分布式計(jì)算引擎為核心設(shè)計(jì)并實(shí)現(xiàn)了能夠并行處理非平衡數(shù)據(jù)的加權(quán)隨機(jī)森林算法.該算法從特征切分點(diǎn)抽樣統(tǒng)計(jì)、特征分箱、逐層訓(xùn)練三個(gè)角度對加權(quán)隨機(jī)森林算法進(jìn)行并行化優(yōu)化.該算法有效提高了隨機(jī)森林算法的分類準(zhǔn)確率,同時(shí)有效降低了決策過程中出現(xiàn)的平局現(xiàn)象.對非平衡數(shù)據(jù),該文章通過SMOTE算法對數(shù)據(jù)進(jìn)行重構(gòu),較好的保留了原有數(shù)據(jù)集信息.實(shí)驗(yàn)表明,該算法能夠有效提高放貸效率性與及時(shí)性,極大的提高了生產(chǎn)力.
【文章來源】:小型微型計(jì)算機(jī)系統(tǒng). 2020年02期 北大核心
【文章頁數(shù)】:6 頁
【部分圖文】:
隨機(jī)森林并行化建模
權(quán)重的計(jì)算是通過out-of-bag的F1值進(jìn)行衡量.得到所有k棵樹的out-of-bag的F1值之后,利用公式(2)進(jìn)行賦權(quán)———計(jì)算出每棵樹對應(yīng)的權(quán)重weigth(i),把這些決策樹組合起來便是加權(quán)隨機(jī)森林.圖3為加權(quán)過程的流程圖.3.3 加權(quán)隨機(jī)森林的投票并行化
在單機(jī)模式的傳統(tǒng)隨機(jī)森林算法中,對于構(gòu)建好的模型需要用新的樣本進(jìn)行測試并通過投票獲取最后的類別.但是這個(gè)過程是串行運(yùn)行的,需要隨機(jī)森林中的每一棵樹依次進(jìn)行投票和統(tǒng)計(jì).針對該情況,在面對數(shù)量較多的決策樹時(shí),對整個(gè)隨機(jī)森林模型的投票過程進(jìn)行了并行化.圖4是對加權(quán)隨機(jī)森林并行化投票的流程圖.傳統(tǒng)隨機(jī)森林的投票過程由于一些劣質(zhì)樹的干擾導(dǎo)致最后的分類結(jié)果不好,所以為優(yōu)化這一現(xiàn)象,本文使用out-ofbag數(shù)據(jù)的正確率作為權(quán)重依據(jù)的投票策略來代替單純依賴相同權(quán)重的決策樹投票.
【參考文獻(xiàn)】:
期刊論文
[1]基于XGBoost算法的用戶行為預(yù)測與風(fēng)險(xiǎn)分析[J]. 邱耀,楊國為. 工業(yè)控制計(jì)算機(jī). 2018(09)
[2]基于Spark框架的FP-Growth大數(shù)據(jù)頻繁項(xiàng)集挖掘算法[J]. 邵梁,何星舟,尚俊娜. 計(jì)算機(jī)應(yīng)用研究. 2018(10)
[3]基于不平衡樣本的互聯(lián)網(wǎng)個(gè)人信用評估研究[J]. 李毅,姜天英,劉亞茹. 統(tǒng)計(jì)與信息論壇. 2017(02)
[4]基于Spark的并行SVM算法研究[J]. 劉澤燊,潘志松. 計(jì)算機(jī)科學(xué). 2016(05)
碩士論文
[1]基于分布式平臺Spark和YARN的數(shù)據(jù)挖掘算法的并行化研究[D]. 梁彥.中山大學(xué) 2014
本文編號:2939447
【文章來源】:小型微型計(jì)算機(jī)系統(tǒng). 2020年02期 北大核心
【文章頁數(shù)】:6 頁
【部分圖文】:
隨機(jī)森林并行化建模
權(quán)重的計(jì)算是通過out-of-bag的F1值進(jìn)行衡量.得到所有k棵樹的out-of-bag的F1值之后,利用公式(2)進(jìn)行賦權(quán)———計(jì)算出每棵樹對應(yīng)的權(quán)重weigth(i),把這些決策樹組合起來便是加權(quán)隨機(jī)森林.圖3為加權(quán)過程的流程圖.3.3 加權(quán)隨機(jī)森林的投票并行化
在單機(jī)模式的傳統(tǒng)隨機(jī)森林算法中,對于構(gòu)建好的模型需要用新的樣本進(jìn)行測試并通過投票獲取最后的類別.但是這個(gè)過程是串行運(yùn)行的,需要隨機(jī)森林中的每一棵樹依次進(jìn)行投票和統(tǒng)計(jì).針對該情況,在面對數(shù)量較多的決策樹時(shí),對整個(gè)隨機(jī)森林模型的投票過程進(jìn)行了并行化.圖4是對加權(quán)隨機(jī)森林并行化投票的流程圖.傳統(tǒng)隨機(jī)森林的投票過程由于一些劣質(zhì)樹的干擾導(dǎo)致最后的分類結(jié)果不好,所以為優(yōu)化這一現(xiàn)象,本文使用out-ofbag數(shù)據(jù)的正確率作為權(quán)重依據(jù)的投票策略來代替單純依賴相同權(quán)重的決策樹投票.
【參考文獻(xiàn)】:
期刊論文
[1]基于XGBoost算法的用戶行為預(yù)測與風(fēng)險(xiǎn)分析[J]. 邱耀,楊國為. 工業(yè)控制計(jì)算機(jī). 2018(09)
[2]基于Spark框架的FP-Growth大數(shù)據(jù)頻繁項(xiàng)集挖掘算法[J]. 邵梁,何星舟,尚俊娜. 計(jì)算機(jī)應(yīng)用研究. 2018(10)
[3]基于不平衡樣本的互聯(lián)網(wǎng)個(gè)人信用評估研究[J]. 李毅,姜天英,劉亞茹. 統(tǒng)計(jì)與信息論壇. 2017(02)
[4]基于Spark的并行SVM算法研究[J]. 劉澤燊,潘志松. 計(jì)算機(jī)科學(xué). 2016(05)
碩士論文
[1]基于分布式平臺Spark和YARN的數(shù)據(jù)挖掘算法的并行化研究[D]. 梁彥.中山大學(xué) 2014
本文編號:2939447
本文鏈接:http://sikaile.net/jingjilunwen/touziyanjiulunwen/2939447.html
最近更新
教材專著