信用卡欺詐檢測(cè)的機(jī)器學(xué)習(xí)方法比較
發(fā)布時(shí)間:2021-06-29 10:50
信用卡起源于二十世紀(jì)初的美國(guó),并于二十世紀(jì)六十年代開始流行。在1985年中國(guó)也開始使用信用卡。信用卡在全球范圍內(nèi)都非常流行,有無(wú)數(shù)的信用卡使用者。信用卡因其安全、快捷、方便的特點(diǎn)廣受用戶的喜愛。根據(jù)信用額度進(jìn)行提前消費(fèi),定期還款的方式也很符合現(xiàn)代人的消費(fèi)習(xí)慣。隨著全球經(jīng)濟(jì)的高速發(fā)展和互聯(lián)網(wǎng)的興起,信用卡在互聯(lián)網(wǎng)的使用也越來越普及。但是隨之而來的信用卡欺詐也給信用卡業(yè)務(wù)的發(fā)展帶來了阻礙。全球每年因信用卡欺詐而損失了數(shù)百億美元。建立信用卡欺詐檢測(cè)系統(tǒng)對(duì)于信用卡業(yè)務(wù)的發(fā)展十分重要。本文對(duì)比了時(shí)下熱門的幾個(gè)機(jī)器學(xué)習(xí)中的信用卡欺詐檢測(cè)模型。邏輯回歸由于在二分類問題中效果很好,訓(xùn)練速度快,可以計(jì)算出特征的系數(shù),可解釋性強(qiáng)這些優(yōu)點(diǎn),被廣泛的應(yīng)用在信用卡欺詐檢測(cè)中。決策樹被應(yīng)用于信用卡欺詐檢測(cè)則是因?yàn)橛谄淙菀卓梢暬?在分類問題中較容易理解,而且決策樹受數(shù)據(jù)本身的影響較小,即不需要對(duì)數(shù)據(jù)做特征選擇,本身的建模的方向也是選擇最優(yōu)的特征。但由于邏輯回歸有欠擬合的風(fēng)險(xiǎn)、決策樹有過擬合的風(fēng)險(xiǎn)。所有本文也同時(shí)用一些集成算法來對(duì)信用卡欺詐進(jìn)行檢測(cè)。隨機(jī)森林、Adaboost-Tree和GBDT都是以決策樹為基學(xué)習(xí)器...
【文章來源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:64 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.1踢球問題的決策樹??如圖2.1,即為一棵簡(jiǎn)單的決策樹
?碩士學(xué)位論文??MASTER'S?THESIS??寫多,|??一―一—————'??y???internal?node?tk:after?pruning??’??internal?node?tk:before?pruning???internal?node?tiiafter?pruning???internal?node?tiibefore?pruning??a??圖2.2隨著《增大而不斷出現(xiàn)需要剪枝的內(nèi)部結(jié)點(diǎn)??如圖2.2所示,隨著《慢慢增大,不斷出現(xiàn)剪枝后比剪枝前更優(yōu)的內(nèi)部結(jié)點(diǎn)。??具體的算法如下:??(1)設(shè)hO,7;二:T,計(jì)算每個(gè)內(nèi)部結(jié)點(diǎn)/的試/),找到最小的畝/),并剪去最??小的結(jié)點(diǎn)/,并對(duì)新的葉子結(jié)點(diǎn)/以其樣本內(nèi)的多數(shù)類樣本作為其最終的分類,??以此生成最優(yōu)子樹7;+,。g(/)?=?at,則子樹7;+|為內(nèi)的最優(yōu)子樹。??(2)?k?—?k?+?\,?ak?=?a?,?Tt=T。??(3)重復(fù)步驟丨,直至只剩下根結(jié)點(diǎn)或由兩個(gè)葉結(jié)點(diǎn)構(gòu)成的樹為止。??(4)生成最優(yōu)子樹序列{7;,7;,…,八}??(5)將訓(xùn)練集分為D1,/)2,/)3,…,以共N個(gè)子集,然后從??A〇中生成N棵最優(yōu)子樹,用Z)'驗(yàn)證每棵樹的準(zhǔn)確率,通過N折交叉驗(yàn)證,從中選??出accuracy均值最高的最優(yōu)子樹7^[49)。??決策樹的剪枝減輕模型的過擬合問題,提升模型的泛化能力。通過前后剪枝,??我們?cè)谏晕⒔档蜆淠P驮谟?xùn)練集上的準(zhǔn)確度的情況下,也簡(jiǎn)化了模型,提高了模型??在測(cè)試集上的準(zhǔn)確度,以此來提高樹模型的泛化能力。??15??
碩士學(xué)位論文??MASTER?S?THESIS??2.2集成學(xué)習(xí)??集成學(xué)習(xí)[46,5<)],簡(jiǎn)單來說,就是將一些基學(xué)習(xí)器(也叫弱學(xué)習(xí)器)組合起來,??以達(dá)到更高的學(xué)習(xí)效率。因?yàn)橐话銇碚f,直接構(gòu)建一個(gè)強(qiáng)學(xué)習(xí)器是比較困難的,但??是構(gòu)建多個(gè)弱學(xué)習(xí)器相對(duì)簡(jiǎn)單。目前的集成學(xué)習(xí)方法大致分為三類:提升法??(boosting)、袋裝法(bagging)和堆疊法(stacking)。其中,前兩種的應(yīng)用更為廣??泛。??集成學(xué)習(xí)器與單個(gè)基學(xué)習(xí)器相比,其優(yōu)勢(shì)在于:??假定/^(;c),(/=l,2,...,A0為N個(gè)基學(xué)習(xí)器,每個(gè)基學(xué)習(xí)的錯(cuò)誤率為e(假設(shè)學(xué)習(xí)??器的錯(cuò)誤率相互獨(dú)立),即:尸A⑴*/(:c))?=?e。??對(duì)于集成學(xué)習(xí)器來說,當(dāng)且僅當(dāng)一半以上的基學(xué)習(xí)器都犯錯(cuò)的情況下,集成學(xué)??習(xí)器才會(huì)犯錯(cuò)。則集成學(xué)習(xí)器G〇c)的錯(cuò)誤率為:??LA72」?,??P(G(x)^f(x))^?X?C;(l-ey(ef-<<exp(--7V(l-2e)2)(公式?2.24)??可見,當(dāng)TV越來越大,即基學(xué)習(xí)器的數(shù)量越來越多的時(shí)候,集成學(xué)習(xí)器的錯(cuò)誤??率會(huì)越來越低,最終趨于0。但這是在基學(xué)習(xí)器的錯(cuò)誤率相互獨(dú)立的情況下才能成??立,由于每個(gè)基學(xué)習(xí)器都是用的同一訓(xùn)練樣本,所以不可能毫不相關(guān)。于是需要采??用一些集成學(xué)習(xí)的方法,來解決這一問題。本文主要介紹boosting和bagging兩種??集成學(xué)習(xí)的方法。以圖2.3來簡(jiǎn)單介紹和區(qū)分這兩種方法的原理。?.??I?率??豐?^豐????f??圖2.3?bagging和boosting算法的基本原理??圖2.3中,圓圈代表著每次抽樣的樣本集,樹代表著基學(xué)習(xí)器。??16??
【參考文獻(xiàn)】:
期刊論文
[1]基于SMOTE和XGBoost的貸款風(fēng)險(xiǎn)預(yù)測(cè)方法[J]. 劉斌,陳凱. 計(jì)算機(jī)與現(xiàn)代化. 2020(02)
[2]基于Neo4j圖譜的信用卡欺詐檢測(cè)[J]. 張蕓蕓,方勇,黃誠(chéng). 信息與電腦(理論版). 2018(21)
[3]基于GAN-AdaBoost-DT不平衡分類算法的信用卡欺詐分類[J]. 莫贊,蓋彥蓉,樊冠龍. 計(jì)算機(jī)應(yīng)用. 2019(02)
[4]面向不平衡數(shù)據(jù)集的一種精化Borderline-SMOTE方法[J]. 楊毅,盧誠(chéng)波,徐根海. 復(fù)旦學(xué)報(bào)(自然科學(xué)版). 2017(05)
[5]基于GBDT與Logistic回歸融合的個(gè)人信貸風(fēng)險(xiǎn)評(píng)估模型及實(shí)證分析[J]. 蔡文學(xué),羅永豪,張冠湘,鐘慧玲. 管理現(xiàn)代化. 2017(02)
[6]AdaBoost及其改進(jìn)算法綜述[J]. 廖紅文,周德龍. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2012(05)
[7]面向不均衡數(shù)據(jù)集的ISMOTE算法[J]. 許丹丹,王勇,蔡立軍. 計(jì)算機(jī)應(yīng)用. 2011(09)
[8]隨機(jī)森林方法研究綜述[J]. 方匡南,吳見彬,朱建平,謝邦昌. 統(tǒng)計(jì)與信息論壇. 2011(03)
[9]基于支持向量機(jī)的信用卡欺詐檢測(cè)[J]. 李貴洋,郭濤,劉芳. 微計(jì)算機(jī)信息. 2010(06)
[10]信用卡欺詐行為多層動(dòng)態(tài)檢測(cè)模型[J]. 郭濤,李貴洋. 微計(jì)算機(jī)信息. 2009(12)
博士論文
[1]信用卡詐騙罪研究[D]. 王雅瓊.華東政法大學(xué) 2013
[2]基于支持向量機(jī)的信用卡信用風(fēng)險(xiǎn)管理模型與技術(shù)研究[D]. 陳為民.湖南大學(xué) 2009
碩士論文
[1]基于機(jī)器學(xué)習(xí)的信用卡欺詐檢測(cè)方案的研究[D]. 王紅雨.北京郵電大學(xué) 2019
[2]基于改進(jìn)的GBDT算法的乘客出行預(yù)測(cè)研究[D]. 王天華.大連理工大學(xué) 2016
[3]工商銀行信用卡欺詐風(fēng)險(xiǎn)防范策略研究[D]. 蘇偉.華東師范大學(xué) 2014
[4]SVDD算法研究及在信用卡欺詐檢測(cè)中的應(yīng)用[D]. 劉艷紅.江蘇大學(xué) 2010
[5]基于神經(jīng)網(wǎng)絡(luò)的信用卡反欺詐系統(tǒng)研究[D]. 伍保華.武漢理工大學(xué) 2010
本文編號(hào):3256310
【文章來源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:64 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.1踢球問題的決策樹??如圖2.1,即為一棵簡(jiǎn)單的決策樹
?碩士學(xué)位論文??MASTER'S?THESIS??寫多,|??一―一—————'??y???internal?node?tk:after?pruning??’??internal?node?tk:before?pruning???internal?node?tiiafter?pruning???internal?node?tiibefore?pruning??a??圖2.2隨著《增大而不斷出現(xiàn)需要剪枝的內(nèi)部結(jié)點(diǎn)??如圖2.2所示,隨著《慢慢增大,不斷出現(xiàn)剪枝后比剪枝前更優(yōu)的內(nèi)部結(jié)點(diǎn)。??具體的算法如下:??(1)設(shè)hO,7;二:T,計(jì)算每個(gè)內(nèi)部結(jié)點(diǎn)/的試/),找到最小的畝/),并剪去最??小的結(jié)點(diǎn)/,并對(duì)新的葉子結(jié)點(diǎn)/以其樣本內(nèi)的多數(shù)類樣本作為其最終的分類,??以此生成最優(yōu)子樹7;+,。g(/)?=?at,則子樹7;+|為內(nèi)的最優(yōu)子樹。??(2)?k?—?k?+?\,?ak?=?a?,?Tt=T。??(3)重復(fù)步驟丨,直至只剩下根結(jié)點(diǎn)或由兩個(gè)葉結(jié)點(diǎn)構(gòu)成的樹為止。??(4)生成最優(yōu)子樹序列{7;,7;,…,八}??(5)將訓(xùn)練集分為D1,/)2,/)3,…,以共N個(gè)子集,然后從??A〇中生成N棵最優(yōu)子樹,用Z)'驗(yàn)證每棵樹的準(zhǔn)確率,通過N折交叉驗(yàn)證,從中選??出accuracy均值最高的最優(yōu)子樹7^[49)。??決策樹的剪枝減輕模型的過擬合問題,提升模型的泛化能力。通過前后剪枝,??我們?cè)谏晕⒔档蜆淠P驮谟?xùn)練集上的準(zhǔn)確度的情況下,也簡(jiǎn)化了模型,提高了模型??在測(cè)試集上的準(zhǔn)確度,以此來提高樹模型的泛化能力。??15??
碩士學(xué)位論文??MASTER?S?THESIS??2.2集成學(xué)習(xí)??集成學(xué)習(xí)[46,5<)],簡(jiǎn)單來說,就是將一些基學(xué)習(xí)器(也叫弱學(xué)習(xí)器)組合起來,??以達(dá)到更高的學(xué)習(xí)效率。因?yàn)橐话銇碚f,直接構(gòu)建一個(gè)強(qiáng)學(xué)習(xí)器是比較困難的,但??是構(gòu)建多個(gè)弱學(xué)習(xí)器相對(duì)簡(jiǎn)單。目前的集成學(xué)習(xí)方法大致分為三類:提升法??(boosting)、袋裝法(bagging)和堆疊法(stacking)。其中,前兩種的應(yīng)用更為廣??泛。??集成學(xué)習(xí)器與單個(gè)基學(xué)習(xí)器相比,其優(yōu)勢(shì)在于:??假定/^(;c),(/=l,2,...,A0為N個(gè)基學(xué)習(xí)器,每個(gè)基學(xué)習(xí)的錯(cuò)誤率為e(假設(shè)學(xué)習(xí)??器的錯(cuò)誤率相互獨(dú)立),即:尸A⑴*/(:c))?=?e。??對(duì)于集成學(xué)習(xí)器來說,當(dāng)且僅當(dāng)一半以上的基學(xué)習(xí)器都犯錯(cuò)的情況下,集成學(xué)??習(xí)器才會(huì)犯錯(cuò)。則集成學(xué)習(xí)器G〇c)的錯(cuò)誤率為:??LA72」?,??P(G(x)^f(x))^?X?C;(l-ey(ef-<<exp(--7V(l-2e)2)(公式?2.24)??可見,當(dāng)TV越來越大,即基學(xué)習(xí)器的數(shù)量越來越多的時(shí)候,集成學(xué)習(xí)器的錯(cuò)誤??率會(huì)越來越低,最終趨于0。但這是在基學(xué)習(xí)器的錯(cuò)誤率相互獨(dú)立的情況下才能成??立,由于每個(gè)基學(xué)習(xí)器都是用的同一訓(xùn)練樣本,所以不可能毫不相關(guān)。于是需要采??用一些集成學(xué)習(xí)的方法,來解決這一問題。本文主要介紹boosting和bagging兩種??集成學(xué)習(xí)的方法。以圖2.3來簡(jiǎn)單介紹和區(qū)分這兩種方法的原理。?.??I?率??豐?^豐????f??圖2.3?bagging和boosting算法的基本原理??圖2.3中,圓圈代表著每次抽樣的樣本集,樹代表著基學(xué)習(xí)器。??16??
【參考文獻(xiàn)】:
期刊論文
[1]基于SMOTE和XGBoost的貸款風(fēng)險(xiǎn)預(yù)測(cè)方法[J]. 劉斌,陳凱. 計(jì)算機(jī)與現(xiàn)代化. 2020(02)
[2]基于Neo4j圖譜的信用卡欺詐檢測(cè)[J]. 張蕓蕓,方勇,黃誠(chéng). 信息與電腦(理論版). 2018(21)
[3]基于GAN-AdaBoost-DT不平衡分類算法的信用卡欺詐分類[J]. 莫贊,蓋彥蓉,樊冠龍. 計(jì)算機(jī)應(yīng)用. 2019(02)
[4]面向不平衡數(shù)據(jù)集的一種精化Borderline-SMOTE方法[J]. 楊毅,盧誠(chéng)波,徐根海. 復(fù)旦學(xué)報(bào)(自然科學(xué)版). 2017(05)
[5]基于GBDT與Logistic回歸融合的個(gè)人信貸風(fēng)險(xiǎn)評(píng)估模型及實(shí)證分析[J]. 蔡文學(xué),羅永豪,張冠湘,鐘慧玲. 管理現(xiàn)代化. 2017(02)
[6]AdaBoost及其改進(jìn)算法綜述[J]. 廖紅文,周德龍. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2012(05)
[7]面向不均衡數(shù)據(jù)集的ISMOTE算法[J]. 許丹丹,王勇,蔡立軍. 計(jì)算機(jī)應(yīng)用. 2011(09)
[8]隨機(jī)森林方法研究綜述[J]. 方匡南,吳見彬,朱建平,謝邦昌. 統(tǒng)計(jì)與信息論壇. 2011(03)
[9]基于支持向量機(jī)的信用卡欺詐檢測(cè)[J]. 李貴洋,郭濤,劉芳. 微計(jì)算機(jī)信息. 2010(06)
[10]信用卡欺詐行為多層動(dòng)態(tài)檢測(cè)模型[J]. 郭濤,李貴洋. 微計(jì)算機(jī)信息. 2009(12)
博士論文
[1]信用卡詐騙罪研究[D]. 王雅瓊.華東政法大學(xué) 2013
[2]基于支持向量機(jī)的信用卡信用風(fēng)險(xiǎn)管理模型與技術(shù)研究[D]. 陳為民.湖南大學(xué) 2009
碩士論文
[1]基于機(jī)器學(xué)習(xí)的信用卡欺詐檢測(cè)方案的研究[D]. 王紅雨.北京郵電大學(xué) 2019
[2]基于改進(jìn)的GBDT算法的乘客出行預(yù)測(cè)研究[D]. 王天華.大連理工大學(xué) 2016
[3]工商銀行信用卡欺詐風(fēng)險(xiǎn)防范策略研究[D]. 蘇偉.華東師范大學(xué) 2014
[4]SVDD算法研究及在信用卡欺詐檢測(cè)中的應(yīng)用[D]. 劉艷紅.江蘇大學(xué) 2010
[5]基于神經(jīng)網(wǎng)絡(luò)的信用卡反欺詐系統(tǒng)研究[D]. 伍保華.武漢理工大學(xué) 2010
本文編號(hào):3256310
本文鏈接:http://sikaile.net/guanlilunwen/bankxd/3256310.html
最近更新
教材專著