信用卡欺詐檢測的機器學習方法比較
發(fā)布時間:2021-06-29 10:50
信用卡起源于二十世紀初的美國,并于二十世紀六十年代開始流行。在1985年中國也開始使用信用卡。信用卡在全球范圍內(nèi)都非常流行,有無數(shù)的信用卡使用者。信用卡因其安全、快捷、方便的特點廣受用戶的喜愛。根據(jù)信用額度進行提前消費,定期還款的方式也很符合現(xiàn)代人的消費習慣。隨著全球經(jīng)濟的高速發(fā)展和互聯(lián)網(wǎng)的興起,信用卡在互聯(lián)網(wǎng)的使用也越來越普及。但是隨之而來的信用卡欺詐也給信用卡業(yè)務的發(fā)展帶來了阻礙。全球每年因信用卡欺詐而損失了數(shù)百億美元。建立信用卡欺詐檢測系統(tǒng)對于信用卡業(yè)務的發(fā)展十分重要。本文對比了時下熱門的幾個機器學習中的信用卡欺詐檢測模型。邏輯回歸由于在二分類問題中效果很好,訓練速度快,可以計算出特征的系數(shù),可解釋性強這些優(yōu)點,被廣泛的應用在信用卡欺詐檢測中。決策樹被應用于信用卡欺詐檢測則是因為于其容易可視化,在分類問題中較容易理解,而且決策樹受數(shù)據(jù)本身的影響較小,即不需要對數(shù)據(jù)做特征選擇,本身的建模的方向也是選擇最優(yōu)的特征。但由于邏輯回歸有欠擬合的風險、決策樹有過擬合的風險。所有本文也同時用一些集成算法來對信用卡欺詐進行檢測。隨機森林、Adaboost-Tree和GBDT都是以決策樹為基學習器...
【文章來源】:華中師范大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
圖2.1踢球問題的決策樹??如圖2.1,即為一棵簡單的決策樹
?碩士學位論文??MASTER'S?THESIS??寫多,|??一―一—————'??y???internal?node?tk:after?pruning??’??internal?node?tk:before?pruning???internal?node?tiiafter?pruning???internal?node?tiibefore?pruning??a??圖2.2隨著《增大而不斷出現(xiàn)需要剪枝的內(nèi)部結(jié)點??如圖2.2所示,隨著《慢慢增大,不斷出現(xiàn)剪枝后比剪枝前更優(yōu)的內(nèi)部結(jié)點。??具體的算法如下:??(1)設(shè)hO,7;二:T,計算每個內(nèi)部結(jié)點/的試/),找到最小的畝/),并剪去最??小的結(jié)點/,并對新的葉子結(jié)點/以其樣本內(nèi)的多數(shù)類樣本作為其最終的分類,??以此生成最優(yōu)子樹7;+,。g(/)?=?at,則子樹7;+|為內(nèi)的最優(yōu)子樹。??(2)?k?—?k?+?\,?ak?=?a?,?Tt=T。??(3)重復步驟丨,直至只剩下根結(jié)點或由兩個葉結(jié)點構(gòu)成的樹為止。??(4)生成最優(yōu)子樹序列{7;,7;,…,八}??(5)將訓練集分為D1,/)2,/)3,…,以共N個子集,然后從??A〇中生成N棵最優(yōu)子樹,用Z)'驗證每棵樹的準確率,通過N折交叉驗證,從中選??出accuracy均值最高的最優(yōu)子樹7^[49)。??決策樹的剪枝減輕模型的過擬合問題,提升模型的泛化能力。通過前后剪枝,??我們在稍微降低樹模型在訓練集上的準確度的情況下,也簡化了模型,提高了模型??在測試集上的準確度,以此來提高樹模型的泛化能力。??15??
碩士學位論文??MASTER?S?THESIS??2.2集成學習??集成學習[46,5<)],簡單來說,就是將一些基學習器(也叫弱學習器)組合起來,??以達到更高的學習效率。因為一般來說,直接構(gòu)建一個強學習器是比較困難的,但??是構(gòu)建多個弱學習器相對簡單。目前的集成學習方法大致分為三類:提升法??(boosting)、袋裝法(bagging)和堆疊法(stacking)。其中,前兩種的應用更為廣??泛。??集成學習器與單個基學習器相比,其優(yōu)勢在于:??假定/^(;c),(/=l,2,...,A0為N個基學習器,每個基學習的錯誤率為e(假設(shè)學習??器的錯誤率相互獨立),即:尸A⑴*/(:c))?=?e。??對于集成學習器來說,當且僅當一半以上的基學習器都犯錯的情況下,集成學??習器才會犯錯。則集成學習器G〇c)的錯誤率為:??LA72」?,??P(G(x)^f(x))^?X?C;(l-ey(ef-<<exp(--7V(l-2e)2)(公式?2.24)??可見,當TV越來越大,即基學習器的數(shù)量越來越多的時候,集成學習器的錯誤??率會越來越低,最終趨于0。但這是在基學習器的錯誤率相互獨立的情況下才能成??立,由于每個基學習器都是用的同一訓練樣本,所以不可能毫不相關(guān)。于是需要采??用一些集成學習的方法,來解決這一問題。本文主要介紹boosting和bagging兩種??集成學習的方法。以圖2.3來簡單介紹和區(qū)分這兩種方法的原理。?.??I?率??豐?^豐????f??圖2.3?bagging和boosting算法的基本原理??圖2.3中,圓圈代表著每次抽樣的樣本集,樹代表著基學習器。??16??
【參考文獻】:
期刊論文
[1]基于SMOTE和XGBoost的貸款風險預測方法[J]. 劉斌,陳凱. 計算機與現(xiàn)代化. 2020(02)
[2]基于Neo4j圖譜的信用卡欺詐檢測[J]. 張蕓蕓,方勇,黃誠. 信息與電腦(理論版). 2018(21)
[3]基于GAN-AdaBoost-DT不平衡分類算法的信用卡欺詐分類[J]. 莫贊,蓋彥蓉,樊冠龍. 計算機應用. 2019(02)
[4]面向不平衡數(shù)據(jù)集的一種精化Borderline-SMOTE方法[J]. 楊毅,盧誠波,徐根海. 復旦學報(自然科學版). 2017(05)
[5]基于GBDT與Logistic回歸融合的個人信貸風險評估模型及實證分析[J]. 蔡文學,羅永豪,張冠湘,鐘慧玲. 管理現(xiàn)代化. 2017(02)
[6]AdaBoost及其改進算法綜述[J]. 廖紅文,周德龍. 計算機系統(tǒng)應用. 2012(05)
[7]面向不均衡數(shù)據(jù)集的ISMOTE算法[J]. 許丹丹,王勇,蔡立軍. 計算機應用. 2011(09)
[8]隨機森林方法研究綜述[J]. 方匡南,吳見彬,朱建平,謝邦昌. 統(tǒng)計與信息論壇. 2011(03)
[9]基于支持向量機的信用卡欺詐檢測[J]. 李貴洋,郭濤,劉芳. 微計算機信息. 2010(06)
[10]信用卡欺詐行為多層動態(tài)檢測模型[J]. 郭濤,李貴洋. 微計算機信息. 2009(12)
博士論文
[1]信用卡詐騙罪研究[D]. 王雅瓊.華東政法大學 2013
[2]基于支持向量機的信用卡信用風險管理模型與技術(shù)研究[D]. 陳為民.湖南大學 2009
碩士論文
[1]基于機器學習的信用卡欺詐檢測方案的研究[D]. 王紅雨.北京郵電大學 2019
[2]基于改進的GBDT算法的乘客出行預測研究[D]. 王天華.大連理工大學 2016
[3]工商銀行信用卡欺詐風險防范策略研究[D]. 蘇偉.華東師范大學 2014
[4]SVDD算法研究及在信用卡欺詐檢測中的應用[D]. 劉艷紅.江蘇大學 2010
[5]基于神經(jīng)網(wǎng)絡(luò)的信用卡反欺詐系統(tǒng)研究[D]. 伍保華.武漢理工大學 2010
本文編號:3256310
【文章來源】:華中師范大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
圖2.1踢球問題的決策樹??如圖2.1,即為一棵簡單的決策樹
?碩士學位論文??MASTER'S?THESIS??寫多,|??一―一—————'??y???internal?node?tk:after?pruning??’??internal?node?tk:before?pruning???internal?node?tiiafter?pruning???internal?node?tiibefore?pruning??a??圖2.2隨著《增大而不斷出現(xiàn)需要剪枝的內(nèi)部結(jié)點??如圖2.2所示,隨著《慢慢增大,不斷出現(xiàn)剪枝后比剪枝前更優(yōu)的內(nèi)部結(jié)點。??具體的算法如下:??(1)設(shè)hO,7;二:T,計算每個內(nèi)部結(jié)點/的試/),找到最小的畝/),并剪去最??小的結(jié)點/,并對新的葉子結(jié)點/以其樣本內(nèi)的多數(shù)類樣本作為其最終的分類,??以此生成最優(yōu)子樹7;+,。g(/)?=?at,則子樹7;+|為內(nèi)的最優(yōu)子樹。??(2)?k?—?k?+?\,?ak?=?a?,?Tt=T。??(3)重復步驟丨,直至只剩下根結(jié)點或由兩個葉結(jié)點構(gòu)成的樹為止。??(4)生成最優(yōu)子樹序列{7;,7;,…,八}??(5)將訓練集分為D1,/)2,/)3,…,以共N個子集,然后從??A〇中生成N棵最優(yōu)子樹,用Z)'驗證每棵樹的準確率,通過N折交叉驗證,從中選??出accuracy均值最高的最優(yōu)子樹7^[49)。??決策樹的剪枝減輕模型的過擬合問題,提升模型的泛化能力。通過前后剪枝,??我們在稍微降低樹模型在訓練集上的準確度的情況下,也簡化了模型,提高了模型??在測試集上的準確度,以此來提高樹模型的泛化能力。??15??
碩士學位論文??MASTER?S?THESIS??2.2集成學習??集成學習[46,5<)],簡單來說,就是將一些基學習器(也叫弱學習器)組合起來,??以達到更高的學習效率。因為一般來說,直接構(gòu)建一個強學習器是比較困難的,但??是構(gòu)建多個弱學習器相對簡單。目前的集成學習方法大致分為三類:提升法??(boosting)、袋裝法(bagging)和堆疊法(stacking)。其中,前兩種的應用更為廣??泛。??集成學習器與單個基學習器相比,其優(yōu)勢在于:??假定/^(;c),(/=l,2,...,A0為N個基學習器,每個基學習的錯誤率為e(假設(shè)學習??器的錯誤率相互獨立),即:尸A⑴*/(:c))?=?e。??對于集成學習器來說,當且僅當一半以上的基學習器都犯錯的情況下,集成學??習器才會犯錯。則集成學習器G〇c)的錯誤率為:??LA72」?,??P(G(x)^f(x))^?X?C;(l-ey(ef-<<exp(--7V(l-2e)2)(公式?2.24)??可見,當TV越來越大,即基學習器的數(shù)量越來越多的時候,集成學習器的錯誤??率會越來越低,最終趨于0。但這是在基學習器的錯誤率相互獨立的情況下才能成??立,由于每個基學習器都是用的同一訓練樣本,所以不可能毫不相關(guān)。于是需要采??用一些集成學習的方法,來解決這一問題。本文主要介紹boosting和bagging兩種??集成學習的方法。以圖2.3來簡單介紹和區(qū)分這兩種方法的原理。?.??I?率??豐?^豐????f??圖2.3?bagging和boosting算法的基本原理??圖2.3中,圓圈代表著每次抽樣的樣本集,樹代表著基學習器。??16??
【參考文獻】:
期刊論文
[1]基于SMOTE和XGBoost的貸款風險預測方法[J]. 劉斌,陳凱. 計算機與現(xiàn)代化. 2020(02)
[2]基于Neo4j圖譜的信用卡欺詐檢測[J]. 張蕓蕓,方勇,黃誠. 信息與電腦(理論版). 2018(21)
[3]基于GAN-AdaBoost-DT不平衡分類算法的信用卡欺詐分類[J]. 莫贊,蓋彥蓉,樊冠龍. 計算機應用. 2019(02)
[4]面向不平衡數(shù)據(jù)集的一種精化Borderline-SMOTE方法[J]. 楊毅,盧誠波,徐根海. 復旦學報(自然科學版). 2017(05)
[5]基于GBDT與Logistic回歸融合的個人信貸風險評估模型及實證分析[J]. 蔡文學,羅永豪,張冠湘,鐘慧玲. 管理現(xiàn)代化. 2017(02)
[6]AdaBoost及其改進算法綜述[J]. 廖紅文,周德龍. 計算機系統(tǒng)應用. 2012(05)
[7]面向不均衡數(shù)據(jù)集的ISMOTE算法[J]. 許丹丹,王勇,蔡立軍. 計算機應用. 2011(09)
[8]隨機森林方法研究綜述[J]. 方匡南,吳見彬,朱建平,謝邦昌. 統(tǒng)計與信息論壇. 2011(03)
[9]基于支持向量機的信用卡欺詐檢測[J]. 李貴洋,郭濤,劉芳. 微計算機信息. 2010(06)
[10]信用卡欺詐行為多層動態(tài)檢測模型[J]. 郭濤,李貴洋. 微計算機信息. 2009(12)
博士論文
[1]信用卡詐騙罪研究[D]. 王雅瓊.華東政法大學 2013
[2]基于支持向量機的信用卡信用風險管理模型與技術(shù)研究[D]. 陳為民.湖南大學 2009
碩士論文
[1]基于機器學習的信用卡欺詐檢測方案的研究[D]. 王紅雨.北京郵電大學 2019
[2]基于改進的GBDT算法的乘客出行預測研究[D]. 王天華.大連理工大學 2016
[3]工商銀行信用卡欺詐風險防范策略研究[D]. 蘇偉.華東師范大學 2014
[4]SVDD算法研究及在信用卡欺詐檢測中的應用[D]. 劉艷紅.江蘇大學 2010
[5]基于神經(jīng)網(wǎng)絡(luò)的信用卡反欺詐系統(tǒng)研究[D]. 伍保華.武漢理工大學 2010
本文編號:3256310
本文鏈接:http://sikaile.net/guanlilunwen/bankxd/3256310.html
最近更新
教材專著