天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于GBDT的特征組合進(jìn)行信用卡欺詐識別的研究

發(fā)布時間:2021-11-15 23:57
  隨著經(jīng)濟(jì)的不斷深入發(fā)展,人們的消費水平得到了提高,微信和支付寶等手機(jī)便捷支付方式的需求也越來越旺盛,人們的消費理念也逐漸轉(zhuǎn)型,因此信用卡也逐步成為人們工作、學(xué)習(xí)、娛樂等生活中不可缺少的一種信貸產(chǎn)品,但是伴隨的信用卡欺詐問題也接踵而至,識別出屬于欺詐交易類型的信用卡用戶成為了重中之重的工作。本文對歐洲持卡人信用卡兩天內(nèi)的28萬條交易數(shù)據(jù)進(jìn)行了描述性統(tǒng)計分析,基于正常交易和欺詐交易這兩類樣本對每個特征畫密度直方圖和累積經(jīng)驗分布圖來研究特征的分布及利用K-S檢驗來量化這個特征的差異,并使用基于支持向量機(jī)的遞歸特征消除法(SVM-RFE)和隨機(jī)森林進(jìn)行特征選擇,對基于以上三種方法的特征選擇結(jié)果進(jìn)行投票確定最終選擇的特征。利用綜合少數(shù)過采樣技術(shù)(SMOTE)對數(shù)據(jù)平衡化,建立了Logistic回歸模型(LR)對信用卡欺詐交易進(jìn)行識別,以查準(zhǔn)率(Precision)、查全率(Recall)和ROC曲線下方的面積(AUC)為主要指標(biāo)對模型進(jìn)行評估,經(jīng)過SMOTE方法平衡化數(shù)據(jù)之后,Recall值提升了33.4%,F1值提高了24.5%,AUC提高了2.2%。接著利用GBDT來構(gòu)造改進(jìn)Logistic... 

【文章來源】:蘭州大學(xué)甘肅省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:55 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于GBDT的特征組合進(jìn)行信用卡欺詐識別的研究


研究路線圖

分布圖,標(biāo)簽,樣本,分布圖


蘭州大學(xué)碩士學(xué)位論文基于GBDT的特征組合進(jìn)行信用卡欺詐識別的研究第二章數(shù)據(jù)描述性分析及特征選擇該數(shù)據(jù)來自于Kaggle數(shù)據(jù)開源網(wǎng)站,該數(shù)據(jù)集是2013年9月歐洲持卡人的信用卡兩天內(nèi)的交易數(shù)據(jù),該數(shù)據(jù)集一共有30個特征,出于商業(yè)保密原因,除了交易時間間隔(Time)和交易金額(Amount)之外,其他28個特征用V1,V2,...,V28表示,其中Time是每一次交易距離第一次交易的間隔秒數(shù)。通過圖2-1的數(shù)據(jù)類別分布可以發(fā)現(xiàn)該二分類數(shù)據(jù)的極度不平衡性,其中在284807次交易中僅有492次交易是屬于信用卡欺詐交易樣本,該欺詐交易僅占所有交易的0.17%,數(shù)據(jù)的極度不平衡將不能準(zhǔn)確體現(xiàn)分類器的真實分類性能,在分類器學(xué)習(xí)中很難學(xué)習(xí)到少數(shù)類的特征信息,不能準(zhǔn)確預(yù)測出少數(shù)類標(biāo)簽,而此時少數(shù)類恰恰是我們關(guān)注的對象,所以這在后續(xù)的建模分析中,將利用SMOTE上采樣方法將不平衡數(shù)據(jù)處理成平衡數(shù)據(jù)。圖2-1兩類樣本的標(biāo)簽分布圖2.1兩類信用卡用戶特征的相關(guān)性分析在二分類數(shù)據(jù)中,通過抽取每個類的樣本,分別進(jìn)行相關(guān)系數(shù)的計算,在每個6

樣本,相關(guān)系數(shù),信用卡,相關(guān)性


蘭州大學(xué)碩士學(xué)位論文基于GBDT的特征組合進(jìn)行信用卡欺詐識別的研究類的內(nèi)部進(jìn)行相關(guān)性分析,這樣能更加明顯的展示兩類樣本的特征差異,如圖2-2所示。圖2-2兩類樣本特征的相關(guān)系數(shù)圖從圖2-2可以看出信用卡正常用戶(左圖)與欺詐用戶(右圖)有著明顯的差異,信用卡欺詐用戶的部分特征之間的相關(guān)性比信用卡正常用戶的相關(guān)性更明顯。其中,Hour變量是按小時計的間隔時間,Time是按秒計的間隔時間,Hour是Time的線性轉(zhuǎn)化,所以它們相關(guān)性為1,在圖左下角處是最相關(guān)的存在。通過比較兩圖,其差異主要表現(xiàn)在圖的上半部分,這些特征包括V1-V18,他們的相關(guān)系數(shù)相對比較大,它們的變化在欺詐交易樣本中呈現(xiàn)一定的規(guī)律性,它們是區(qū)分信用卡正常交易和信用卡欺詐交易的相對顯著的特征,也為后來的特征選擇提供了思路。7

【參考文獻(xiàn)】:
期刊論文
[1]一種基于集成學(xué)習(xí)的入侵檢測算法[J]. 黃金超,馬穎華,齊開悅,李怡晨,夏元軼.  上海交通大學(xué)學(xué)報. 2018(10)
[2]基于XGBoost的信用風(fēng)險分析的研究[J]. 趙天傲,鄭山紅,李萬龍,劉凱.  軟件工程. 2018(06)



本文編號:3497761

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/benkebiyelunwen/3497761.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3f304***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com