隨機(jī)森林算法在信用卡欺詐檢測中的改進(jìn)與應(yīng)用
發(fā)布時間:2021-12-31 15:37
在信息技術(shù)迅速發(fā)展的帶動下,人類生活的方式發(fā)生了很大的改變,生活水平和質(zhì)量越來越高,與此同時,科技的發(fā)展也產(chǎn)生了巨大數(shù)量的信息,各類型信息以數(shù)據(jù)的形式呈指數(shù)增長,“大數(shù)據(jù)”一詞開始頻繁出現(xiàn)在人們的生活當(dāng)中。海量數(shù)據(jù)的背后是豐富的重要信息,這些信息通常為各種決策提供依據(jù),而利用機(jī)器學(xué)習(xí)理論可以幫助人類學(xué)習(xí)其中蘊(yùn)藏的有用知識。機(jī)器學(xué)習(xí)方法有很多種,隨機(jī)森林是其中常見的方法之一。這是一種新型的組合分類器算法,使用性能良好,且廣泛應(yīng)用于多種領(lǐng)域。欺詐是當(dāng)前信用卡業(yè)務(wù)的主要風(fēng)險,由于其造成的損失數(shù)額巨大,引發(fā)了諸多研究,信用卡反欺詐領(lǐng)域便是當(dāng)前機(jī)器學(xué)習(xí)研究的熱點領(lǐng)域之一。但是,隨機(jī)森林還存在一些缺陷。一方面,隨機(jī)地選擇特征,減少了數(shù)據(jù)關(guān)聯(lián)性,但也會使模型訓(xùn)練強(qiáng)度降低。另一方面,在不平衡分類的問題上,使用隨機(jī)森林模型不能準(zhǔn)確地預(yù)測結(jié)果。這使得隨機(jī)森林相關(guān)的優(yōu)化問題十分具有研究價值。本文從算法的特征選擇和不平衡分類問題兩個方面進(jìn)行了研究,探索其中的改進(jìn)方法。一方面,在對特征選擇問題的改進(jìn)研究上,首先通過卡方檢驗得出特征的關(guān)聯(lián)性,然后依據(jù)關(guān)聯(lián)性的大小設(shè)定一個閾值,從而在閾值前后兩個區(qū)間上隨機(jī)抽樣選取特...
【文章來源】:北京林業(yè)大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:49 頁
【學(xué)位級別】:碩士
【部分圖文】:
實驗數(shù)據(jù)類別標(biāo)簽數(shù)量統(tǒng)計
5基于信用卡欺詐檢測的隨機(jī)森林模型實驗結(jié)果與分析27實驗根據(jù)數(shù)據(jù)集包含的29個特征,面向284807次交易產(chǎn)生的數(shù)據(jù)進(jìn)行模型的構(gòu)建。一般而言,在反欺詐問題中,存在欺詐行為的交易在所有交易中占的比例處于一個很低的水平,根據(jù)統(tǒng)計,該數(shù)據(jù)集中存在欺詐行為的交易只有492條,其占比僅約0.172%,屬于不平衡分類問題。所以,除了要考慮模型預(yù)測的準(zhǔn)確率,還應(yīng)考慮更適合這種情況的評價準(zhǔn)則,前面的第三章中提出了F1值,這里進(jìn)行對比。為了對比兩種評價指標(biāo)的效果,首先進(jìn)行十次十折的交又驗證,使用模型的默認(rèn)參數(shù),設(shè)置即將建立的決策樹的個數(shù)為5個,結(jié)果如圖5.2所示。此時得出的準(zhǔn)確率處于一個非常高的水平,而每一次驗證的F1數(shù)值都明顯小于準(zhǔn)確率,但是此處使用的準(zhǔn)確率并不能夠準(zhǔn)確地反映出該模型的真實檢測效果,由此可以認(rèn)為,應(yīng)該采用F1作為本實驗的評價指標(biāo)來判斷檢測模型的效果,這比使用準(zhǔn)確率更為合理。圖5.2不同評價指標(biāo)的交叉驗證比較Figure5.2Cross-validationcomparisonofdifferentevaluationindicators下面就實驗的基本模型進(jìn)行隨機(jī)森林的相關(guān)參數(shù)優(yōu)化。首先調(diào)整樹的規(guī)模,也就是決策樹的個數(shù),決策樹分類器個數(shù)的增加,可以保證分類器更具多樣性,能使分類性能得到提升。但是決策樹分類器個數(shù)的增加也會使得時間空間成本增加,可能導(dǎo)致模型可解釋性減弱,若樹的個數(shù)過小,則會導(dǎo)致性能變差、分類誤差大。實驗中選擇了一系列數(shù)作為決策樹的生成個數(shù),結(jié)果如圖5.3所示,對于本實驗中數(shù)據(jù)集而言,決策樹的個數(shù)控制在15個的時候,也就是特征數(shù)量的50%左右時,隨機(jī)森林模型得出的檢測效果最好。
隨機(jī)森林算法在信用卡欺詐檢測中的改進(jìn)與應(yīng)用28圖5.3不同個數(shù)的樹的交叉驗證Figure5.3Cross-validationofdifferentnumbersoftrees關(guān)于隨機(jī)森林中的決策樹實現(xiàn)算法有很多種,既然方法有多種,則隨機(jī)森林算法中也可以通過比較這些不同的方法,選擇使用生成更好的決策樹來完成整體模型訓(xùn)練。這里對比使用信息增益與Gini指數(shù)的實驗效果,實驗結(jié)果如圖5.4所示,說明設(shè)置Gini指數(shù)當(dāng)作決策樹分裂判斷指標(biāo)的效果要更加優(yōu)秀。圖5.4使用不同決策樹分裂判斷指標(biāo)的交叉驗證Figure5.4Cross-validationusingdifferentdecisiontreestosplitjudgmentindicators在單顆決策樹中,為了尋找最佳的分裂點,一般需要通過計算特征的相關(guān)指標(biāo),更好地完成選取用來分裂的特征。此間選取的特征數(shù)量也會對最后的結(jié)果產(chǎn)生影響,選取的特征數(shù)量越多,模型的性能越好,但與此同時單個樹的多樣性降低,算法速度會減慢,因此在數(shù)量上需要進(jìn)行適當(dāng)?shù)钠胶,選擇最佳的max_features的取值。
【參考文獻(xiàn)】:
期刊論文
[1]基于基尼指標(biāo)和卡方檢驗的特征選擇方法[J]. 陳諶,梁雪春. 計算機(jī)工程與設(shè)計. 2019(08)
[2]基于概率閾值Bagging算法的不平衡數(shù)據(jù)分類方法[J]. 張忠林,吳擋平. 計算機(jī)工程與科學(xué). 2019(06)
[3]不平衡數(shù)據(jù)分類方法綜述[J]. 李艷霞,柴毅,胡友強(qiáng),尹宏鵬. 控制與決策. 2019(04)
[4]信用卡欺詐行為識別中的機(jī)器學(xué)習(xí)方法:比較研究[J]. 陳沁歆. 中國高新科技. 2018(24)
[5]基于機(jī)器學(xué)習(xí)模型的消費金融反欺詐模型與方法[J]. 仵偉強(qiáng),后其林. 現(xiàn)代管理科學(xué). 2018(10)
[6]基于代價敏感的隨機(jī)森林不平衡數(shù)據(jù)分類算法[J]. 楊杰明,高聰,曲朝陽,闞中鋒,高冶,常成. 科學(xué)技術(shù)與工程. 2018(06)
[7]淺談新型支付模式下的信用卡風(fēng)險管理[J]. 方旭咪. 經(jīng)貿(mào)實踐. 2018(02)
[8]基于KM-SMOTE和隨機(jī)森林的不平衡數(shù)據(jù)分類[J]. 陳斌,蘇一丹,黃山. 計算機(jī)技術(shù)與發(fā)展. 2015(09)
[9]基于隨機(jī)森林的不平衡特征選擇算法[J]. 尹華,胡玉平. 中山大學(xué)學(xué)報(自然科學(xué)版). 2014(05)
[10]剪枝與欠采樣相結(jié)合的不平衡數(shù)據(jù)分類方法[J]. 張健,方宏彬. 計算機(jī)應(yīng)用研究. 2012(03)
本文編號:3560517
【文章來源】:北京林業(yè)大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:49 頁
【學(xué)位級別】:碩士
【部分圖文】:
實驗數(shù)據(jù)類別標(biāo)簽數(shù)量統(tǒng)計
5基于信用卡欺詐檢測的隨機(jī)森林模型實驗結(jié)果與分析27實驗根據(jù)數(shù)據(jù)集包含的29個特征,面向284807次交易產(chǎn)生的數(shù)據(jù)進(jìn)行模型的構(gòu)建。一般而言,在反欺詐問題中,存在欺詐行為的交易在所有交易中占的比例處于一個很低的水平,根據(jù)統(tǒng)計,該數(shù)據(jù)集中存在欺詐行為的交易只有492條,其占比僅約0.172%,屬于不平衡分類問題。所以,除了要考慮模型預(yù)測的準(zhǔn)確率,還應(yīng)考慮更適合這種情況的評價準(zhǔn)則,前面的第三章中提出了F1值,這里進(jìn)行對比。為了對比兩種評價指標(biāo)的效果,首先進(jìn)行十次十折的交又驗證,使用模型的默認(rèn)參數(shù),設(shè)置即將建立的決策樹的個數(shù)為5個,結(jié)果如圖5.2所示。此時得出的準(zhǔn)確率處于一個非常高的水平,而每一次驗證的F1數(shù)值都明顯小于準(zhǔn)確率,但是此處使用的準(zhǔn)確率并不能夠準(zhǔn)確地反映出該模型的真實檢測效果,由此可以認(rèn)為,應(yīng)該采用F1作為本實驗的評價指標(biāo)來判斷檢測模型的效果,這比使用準(zhǔn)確率更為合理。圖5.2不同評價指標(biāo)的交叉驗證比較Figure5.2Cross-validationcomparisonofdifferentevaluationindicators下面就實驗的基本模型進(jìn)行隨機(jī)森林的相關(guān)參數(shù)優(yōu)化。首先調(diào)整樹的規(guī)模,也就是決策樹的個數(shù),決策樹分類器個數(shù)的增加,可以保證分類器更具多樣性,能使分類性能得到提升。但是決策樹分類器個數(shù)的增加也會使得時間空間成本增加,可能導(dǎo)致模型可解釋性減弱,若樹的個數(shù)過小,則會導(dǎo)致性能變差、分類誤差大。實驗中選擇了一系列數(shù)作為決策樹的生成個數(shù),結(jié)果如圖5.3所示,對于本實驗中數(shù)據(jù)集而言,決策樹的個數(shù)控制在15個的時候,也就是特征數(shù)量的50%左右時,隨機(jī)森林模型得出的檢測效果最好。
隨機(jī)森林算法在信用卡欺詐檢測中的改進(jìn)與應(yīng)用28圖5.3不同個數(shù)的樹的交叉驗證Figure5.3Cross-validationofdifferentnumbersoftrees關(guān)于隨機(jī)森林中的決策樹實現(xiàn)算法有很多種,既然方法有多種,則隨機(jī)森林算法中也可以通過比較這些不同的方法,選擇使用生成更好的決策樹來完成整體模型訓(xùn)練。這里對比使用信息增益與Gini指數(shù)的實驗效果,實驗結(jié)果如圖5.4所示,說明設(shè)置Gini指數(shù)當(dāng)作決策樹分裂判斷指標(biāo)的效果要更加優(yōu)秀。圖5.4使用不同決策樹分裂判斷指標(biāo)的交叉驗證Figure5.4Cross-validationusingdifferentdecisiontreestosplitjudgmentindicators在單顆決策樹中,為了尋找最佳的分裂點,一般需要通過計算特征的相關(guān)指標(biāo),更好地完成選取用來分裂的特征。此間選取的特征數(shù)量也會對最后的結(jié)果產(chǎn)生影響,選取的特征數(shù)量越多,模型的性能越好,但與此同時單個樹的多樣性降低,算法速度會減慢,因此在數(shù)量上需要進(jìn)行適當(dāng)?shù)钠胶,選擇最佳的max_features的取值。
【參考文獻(xiàn)】:
期刊論文
[1]基于基尼指標(biāo)和卡方檢驗的特征選擇方法[J]. 陳諶,梁雪春. 計算機(jī)工程與設(shè)計. 2019(08)
[2]基于概率閾值Bagging算法的不平衡數(shù)據(jù)分類方法[J]. 張忠林,吳擋平. 計算機(jī)工程與科學(xué). 2019(06)
[3]不平衡數(shù)據(jù)分類方法綜述[J]. 李艷霞,柴毅,胡友強(qiáng),尹宏鵬. 控制與決策. 2019(04)
[4]信用卡欺詐行為識別中的機(jī)器學(xué)習(xí)方法:比較研究[J]. 陳沁歆. 中國高新科技. 2018(24)
[5]基于機(jī)器學(xué)習(xí)模型的消費金融反欺詐模型與方法[J]. 仵偉強(qiáng),后其林. 現(xiàn)代管理科學(xué). 2018(10)
[6]基于代價敏感的隨機(jī)森林不平衡數(shù)據(jù)分類算法[J]. 楊杰明,高聰,曲朝陽,闞中鋒,高冶,常成. 科學(xué)技術(shù)與工程. 2018(06)
[7]淺談新型支付模式下的信用卡風(fēng)險管理[J]. 方旭咪. 經(jīng)貿(mào)實踐. 2018(02)
[8]基于KM-SMOTE和隨機(jī)森林的不平衡數(shù)據(jù)分類[J]. 陳斌,蘇一丹,黃山. 計算機(jī)技術(shù)與發(fā)展. 2015(09)
[9]基于隨機(jī)森林的不平衡特征選擇算法[J]. 尹華,胡玉平. 中山大學(xué)學(xué)報(自然科學(xué)版). 2014(05)
[10]剪枝與欠采樣相結(jié)合的不平衡數(shù)據(jù)分類方法[J]. 張健,方宏彬. 計算機(jī)應(yīng)用研究. 2012(03)
本文編號:3560517
本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3560517.html
最近更新
教材專著