基于隨機森林的信用卡欺詐檢測研究
發(fā)布時間:2021-01-14 04:34
隨著互聯(lián)網(wǎng)的發(fā)展和普及,信用卡支付行業(yè)得到迅速發(fā)展,信用卡成為網(wǎng)上購物和線下消費最受歡迎的支付方式,同時與信用卡交易相關的欺詐案件也在增加。欺詐交易分布在真實世界的交易中,簡單的識別方法通常難以準確地檢測到欺詐交易行為。為保障信用卡支付的安全,采用人工智能技術對信用卡交易進行欺詐檢測顯得尤其重要。信用卡交易數(shù)據(jù)存在數(shù)據(jù)量大、數(shù)據(jù)集不平衡、計算復雜度大和識別率低等問題,本文通過研究不平衡數(shù)據(jù)分類方法、信用卡數(shù)據(jù)特征、隨機森林方法,提出了一種可以應對高度不均衡數(shù)據(jù)分類問題的隨機森林方法。該方法首先對信用卡數(shù)據(jù)進行過采樣處理,其次降低訓練樣本維度,最后使用隨機森林進行欺詐檢測識別。通過對信用卡數(shù)據(jù)特征的分析,提出一種通過聚類的方式,選擇更具代表性的正類樣本進行過擬合的方法,有效的解決了信用卡數(shù)據(jù)集分類結(jié)果假陽性率高的問題,并通過實驗證明該過擬合方法,同樣適用與信用卡數(shù)據(jù)集具有相似特征的金融數(shù)據(jù)。針對分類器精準度低的問題,提出一種分類器決策樹的選擇方法,有效的提高了隨機森林算法的精準度。本文通過大量的實驗,對信用卡欺詐方法的參數(shù)選擇和性能指標進行了分析,對使用隨機森林解決不均衡數(shù)據(jù)集的分類具有...
【文章來源】:哈爾濱理工大學黑龍江省
【文章頁數(shù)】:59 頁
【學位級別】:碩士
【部分圖文】:
信用卡數(shù)據(jù)集特征字部分段示意圖
哈爾濱理工大學工程碩士學位論文-9-段正常交易量占當天交易總量的比重,其曲線變化趨勢與當天各時間段交易量基本相同,藍色曲線(-*-型)為每天當前時段欺詐交易量占當前時段交易總量比率(欺詐率),該曲線明顯峰值出現(xiàn)4次,其中三次出現(xiàn)時間均為凌晨1-4點,另一次出現(xiàn)時間在11-12點。圖2-3交易時間與欺詐關系分析圖Fig.2-3Analysisoftherelationshipbetweentransactiontimeandfraud信用卡欺詐具有強烈的現(xiàn)實性,綜上所述,可以得出如下結(jié)論:(1)欺詐交易可以發(fā)生在每天的任意時段,凌晨之后的時間段發(fā)生的交易為欺詐交易的可能性較高。(2)在凌晨0-4點,欺詐交易次數(shù)增加,由于正常交易量下降,導致欺詐率較高。該時間段的特征是欺詐交易不易被金融機構(gòu)工作人員審查、制止,也不易被受害人發(fā)現(xiàn),即使被受害人發(fā)現(xiàn)也不易及時止損。(3)在上午11-12點,欺詐交易次數(shù)增加,由于正常交易量較高,雖然欺詐交易率出現(xiàn)峰值,但是欺詐交易率相比凌晨0-4時段較低。該時間段的特征是交易量較高,欺詐交易偽裝成正常交易。
哈爾濱理工大學工程碩士學位論文-10-圖2-4交易金額與欺詐關系分析圖Fig.2-4Analysisoftherelationshipbetweentransactionaccountandfraud圖2-4中,x坐標區(qū)間為左開右閉,通過圖2-4可知,正常交易和欺詐交易都聚集在小額交易,欺詐交易的金額通常發(fā)生在千元以下,其中10元以下的欺詐交易占欺詐交易總量高達50%,1000元以上的欺詐交易僅為9筆,占欺詐交易總量不足2%。并未發(fā)生5千元以上的欺詐交易。導致欺詐交易金額如此分布的原因可能是,小額欺詐交易易于實現(xiàn),當交易金額較大時,金融機構(gòu)具有較高的保護措施。雖然欺詐交易主要發(fā)生在千元以下,但高額的欺詐一旦發(fā)生,所造成的損失也十分巨大,因此,并不能忽略千元以上的欺詐問題。2.1.3信用卡欺詐交易特征單個特征如交易金額和交易時間與欺詐交易相關性明顯,通過對信用卡數(shù)據(jù)進行多次抽樣、重復聚類,發(fā)現(xiàn)部分被標記為正類的欺詐交易行為,使用多種聚類方法,重復調(diào)整參數(shù),始終被聚類為負類,因此,把信用卡樣本根據(jù)數(shù)據(jù)特征和現(xiàn)實意義可以分為以下四類:(1)一類是,用戶正常用卡消費,屬于正常交易,非欺詐交易,在統(tǒng)計上非離群點,符合用戶的用卡消費行為習慣,占負類樣本的絕大部分。(2)二類是,用戶異常用卡消費,屬于正常交易,由實際環(huán)境因素導致
【參考文獻】:
期刊論文
[1]信用卡犯罪的刑法規(guī)制[J]. 劉銀龍. 稅務與經(jīng)濟. 2016(03)
[2]一種隨機森林的混合算法[J]. 曹正鳳,謝邦昌,紀宏. 統(tǒng)計與決策. 2014(04)
[3]隨機森林理論淺析[J]. 董師師,黃哲學. 集成技術. 2013(01)
[4]信用卡詐騙罪的構(gòu)成、特點及對策[J]. 董燕萍. 河北法學. 2012(03)
本文編號:2976224
【文章來源】:哈爾濱理工大學黑龍江省
【文章頁數(shù)】:59 頁
【學位級別】:碩士
【部分圖文】:
信用卡數(shù)據(jù)集特征字部分段示意圖
哈爾濱理工大學工程碩士學位論文-9-段正常交易量占當天交易總量的比重,其曲線變化趨勢與當天各時間段交易量基本相同,藍色曲線(-*-型)為每天當前時段欺詐交易量占當前時段交易總量比率(欺詐率),該曲線明顯峰值出現(xiàn)4次,其中三次出現(xiàn)時間均為凌晨1-4點,另一次出現(xiàn)時間在11-12點。圖2-3交易時間與欺詐關系分析圖Fig.2-3Analysisoftherelationshipbetweentransactiontimeandfraud信用卡欺詐具有強烈的現(xiàn)實性,綜上所述,可以得出如下結(jié)論:(1)欺詐交易可以發(fā)生在每天的任意時段,凌晨之后的時間段發(fā)生的交易為欺詐交易的可能性較高。(2)在凌晨0-4點,欺詐交易次數(shù)增加,由于正常交易量下降,導致欺詐率較高。該時間段的特征是欺詐交易不易被金融機構(gòu)工作人員審查、制止,也不易被受害人發(fā)現(xiàn),即使被受害人發(fā)現(xiàn)也不易及時止損。(3)在上午11-12點,欺詐交易次數(shù)增加,由于正常交易量較高,雖然欺詐交易率出現(xiàn)峰值,但是欺詐交易率相比凌晨0-4時段較低。該時間段的特征是交易量較高,欺詐交易偽裝成正常交易。
哈爾濱理工大學工程碩士學位論文-10-圖2-4交易金額與欺詐關系分析圖Fig.2-4Analysisoftherelationshipbetweentransactionaccountandfraud圖2-4中,x坐標區(qū)間為左開右閉,通過圖2-4可知,正常交易和欺詐交易都聚集在小額交易,欺詐交易的金額通常發(fā)生在千元以下,其中10元以下的欺詐交易占欺詐交易總量高達50%,1000元以上的欺詐交易僅為9筆,占欺詐交易總量不足2%。并未發(fā)生5千元以上的欺詐交易。導致欺詐交易金額如此分布的原因可能是,小額欺詐交易易于實現(xiàn),當交易金額較大時,金融機構(gòu)具有較高的保護措施。雖然欺詐交易主要發(fā)生在千元以下,但高額的欺詐一旦發(fā)生,所造成的損失也十分巨大,因此,并不能忽略千元以上的欺詐問題。2.1.3信用卡欺詐交易特征單個特征如交易金額和交易時間與欺詐交易相關性明顯,通過對信用卡數(shù)據(jù)進行多次抽樣、重復聚類,發(fā)現(xiàn)部分被標記為正類的欺詐交易行為,使用多種聚類方法,重復調(diào)整參數(shù),始終被聚類為負類,因此,把信用卡樣本根據(jù)數(shù)據(jù)特征和現(xiàn)實意義可以分為以下四類:(1)一類是,用戶正常用卡消費,屬于正常交易,非欺詐交易,在統(tǒng)計上非離群點,符合用戶的用卡消費行為習慣,占負類樣本的絕大部分。(2)二類是,用戶異常用卡消費,屬于正常交易,由實際環(huán)境因素導致
【參考文獻】:
期刊論文
[1]信用卡犯罪的刑法規(guī)制[J]. 劉銀龍. 稅務與經(jīng)濟. 2016(03)
[2]一種隨機森林的混合算法[J]. 曹正鳳,謝邦昌,紀宏. 統(tǒng)計與決策. 2014(04)
[3]隨機森林理論淺析[J]. 董師師,黃哲學. 集成技術. 2013(01)
[4]信用卡詐騙罪的構(gòu)成、特點及對策[J]. 董燕萍. 河北法學. 2012(03)
本文編號:2976224
本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/2976224.html
教材專著