基于CNN-XGBoost的互聯(lián)網金融防欺詐問題的實證研究
發(fā)布時間:2021-04-13 19:12
金融欺詐檢測的目的是預測潛在的欺詐用戶和欺詐行為,減少金融機構損失。隨著互聯(lián)網金融的快速發(fā)展,對金融反欺詐方案的需求愈發(fā)迫切。機器學習方法在欺詐檢測中的應用十分廣泛。模型和神經網絡都是重要的分類方法,樹模型可解釋性更強,但分類效果十分依賴于手動設計的特征,神經網絡可以自動實現(xiàn)特征提取,但更易過擬合。因此本文結合了這兩種算法的優(yōu)勢,對卷積神經網絡CNN與XGBoost的組合進行了研究。XGBoost是一種常用的分類方法,XGBoost引入了正則化項控制模型復雜度,大幅提升了模型的抗過擬合能力。相較于傳統(tǒng)樹模型的效果提升十分明顯,但XGBoost仍然依賴于人工進行特征工程處理。CNN能自動完成特征提取,對數(shù)據(jù)中的重要特征在高維空間進行組合和篩選,但隨著特征抽象程度的提高,過擬合現(xiàn)象大幅影響了網絡的表現(xiàn)。本文將CNN中的低抽象度特征加入到原始特征中訓練XGBoost,同時利用了 CNN自動實現(xiàn)特征提取的特點和XGBoost抗過擬合的特點,提高了模型擬合的上界。本文主要工作如下:(1)對數(shù)據(jù)進行預處理和先驗分析。基于正負樣本比例接近1:12的信用卡欺詐數(shù)據(jù),對原始數(shù)據(jù)進行探索性分析,通過可視化...
【文章來源】:華中師范大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
圖2.1神經網絡示意圖??
佳的效果,從此不少學者開始重視CNN的研究[25:。??CNN具有多層結構、池化操作、局部連接及權值共享這四個特點。在傳統(tǒng)的神經網??絡中,全連接層中的神經元之間互相連接,使得參數(shù)太多,訓練過程耗時長且容易??過擬合。而CNN利用了局部感受野與權值共享的兩大特性,共享權重和偏置值,大??大減少網絡訓練的參數(shù),降低網絡訓練的復雜度[26。??感受野的定義為,卷積神經網絡中每層輸出的特征圖上像素點在原始圖像中映??射區(qū)域的大小,利用局部感受野,每個神經元只需感知圖像的局部[27:。??圖2.?2感受野示意圖??計算感受野時從最后一層開始計算,再逐層傳遞至第一層,計算公式為:??RFj?=?(RFj+i?-?l)?x?stridej?+?Ksizej?(2.?27)??巧為第j層卷積層的感受野,/^.+1為第j+1層上的感受野。Ksize為本層卷積核??大小,stride為卷積步長。在感受野的計算中,最后一層輸出特征圖的感受野大小??與卷積核大小相等,第j層卷積層感受野的大小不僅與第j層的卷積步長和卷積核??大小有關,還與第j+1層感受野的大小有關。另外,在計算感受野時不考慮padding??的大小,也就是忽略圖像邊緣的影響。在一張圖像中,局部像素之間密切相關。在??隱藏層中,圖像的局部相關與神經元的局部連接能極大地減少參數(shù)數(shù)目,隱藏層中??的神經元只需要與感受野區(qū)域連接。另外,隱藏層中神經元之間的權值共享也能減??少參數(shù)數(shù)目。??CNN的常用結構一般由卷積層、池化層和全連接層組成。其中,卷積層是卷積神??經網絡中最核心最關鍵的部分,用于提取特征,池化層用于降維,能減少網絡中參??數(shù)數(shù)量,全連接層一般位于網絡的最后,用做
果??個??XGBoost?訓練?(f?)??新的特證數(shù)據(jù)?c?...)(-...)…r-...'-?)?:::::::??、?,、?^?J?X?M?U?M?M?????zl?x2x3?????xji??全連掊層?(?)?原始特證教據(jù)??/????信息提取?(....?)?c?...?)??…r' ̄r ̄")??隹積層?(個)??r%?r%?rv?rv?rv?rv??原始特征數(shù)裾??vy?kJ?Lx??xl?x2x3?…?xn??圖2.?3?CNN-XGBoost組合模型訓練流程??2.?3.1?I?ncept?i?on?網絡??在標準的卷積神經網絡中,網絡的每一層都從之前的層中提取信息,從而將輸??入數(shù)據(jù)轉換為更有用的信息,但是類型不同的層提取的特征種類也不同。Inception??模型能對這些不同的變換結果并行計算,它是一種具有優(yōu)良結構的網絡,其局部拓??撲結構能對輸入數(shù)據(jù)并行執(zhí)行多個池化操作或卷積運算,并將所有的輸出結果拼接??在一起形成一個特征圖。Inception在同一層級上運行了濾波器尺寸為1?x?1,3?x?3,??5x5,?7x7的卷積層,將不同濾波器尺寸的卷積組合在一起,經過卷積操作后,輸??出的結果再全部整合在一起,而選擇不同尺寸的濾波器的目的在于收集上一層輸入??13??
【參考文獻】:
期刊論文
[1]基于SMOTE和XGBoost的貸款風險預測方法[J]. 劉斌,陳凱. 計算機與現(xiàn)代化. 2020(02)
[2]SMOTE混合抽樣對非平衡數(shù)據(jù)分類效果的影響分析[J]. 王蕾,劉賽可,夏利宇. 調研世界. 2020(01)
[3]缺失數(shù)據(jù)的處理方法及其發(fā)展趨勢[J]. 鄧建新,單路寶,賀德強,唐銳. 統(tǒng)計與決策. 2019(23)
[4]互聯(lián)網金融背景下銀行信用卡欺詐與套現(xiàn)風險防控研究[J]. 張越. 時代金融. 2019(11)
[5]局部感受野的寬度學習算法及其應用[J]. 李國強,徐立莊. 計算機工程與應用. 2020(09)
[6]結合Inception模型的卷積神經網絡圖像去噪方法[J]. 李敏,章國豪,曾建偉,楊曉鋒,胡曉敏. 計算機工程與應用. 2019(20)
[7]神經網絡模型在銀行互聯(lián)網金融反欺詐中的應用探索[J]. 李赟妮. 金融科技時代. 2018(08)
[8]基于Mini-batch神經網絡的船舶柴油機風險等級預測[J]. 尚前明,王瀟,曹召,劉治江,鄧曉光. 中國修船. 2018(04)
[9]基于規(guī)則引擎的互聯(lián)網金融反欺詐研究[J]. 丁濛濛. 電腦知識與技術. 2018(01)
[10]互聯(lián)網金融違約欺詐風險事件研究[J]. 楊荻. 經濟研究參考. 2016(63)
碩士論文
[1]基于大數(shù)據(jù)的互聯(lián)網金融欺詐行為識別研究[D]. 丁爽斯.首都經濟貿易大學 2016
[2]多標簽分類中標簽編碼算法研究[D]. 曹蕾.南京師范大學 2015
本文編號:3135856
【文章來源】:華中師范大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
圖2.1神經網絡示意圖??
佳的效果,從此不少學者開始重視CNN的研究[25:。??CNN具有多層結構、池化操作、局部連接及權值共享這四個特點。在傳統(tǒng)的神經網??絡中,全連接層中的神經元之間互相連接,使得參數(shù)太多,訓練過程耗時長且容易??過擬合。而CNN利用了局部感受野與權值共享的兩大特性,共享權重和偏置值,大??大減少網絡訓練的參數(shù),降低網絡訓練的復雜度[26。??感受野的定義為,卷積神經網絡中每層輸出的特征圖上像素點在原始圖像中映??射區(qū)域的大小,利用局部感受野,每個神經元只需感知圖像的局部[27:。??圖2.?2感受野示意圖??計算感受野時從最后一層開始計算,再逐層傳遞至第一層,計算公式為:??RFj?=?(RFj+i?-?l)?x?stridej?+?Ksizej?(2.?27)??巧為第j層卷積層的感受野,/^.+1為第j+1層上的感受野。Ksize為本層卷積核??大小,stride為卷積步長。在感受野的計算中,最后一層輸出特征圖的感受野大小??與卷積核大小相等,第j層卷積層感受野的大小不僅與第j層的卷積步長和卷積核??大小有關,還與第j+1層感受野的大小有關。另外,在計算感受野時不考慮padding??的大小,也就是忽略圖像邊緣的影響。在一張圖像中,局部像素之間密切相關。在??隱藏層中,圖像的局部相關與神經元的局部連接能極大地減少參數(shù)數(shù)目,隱藏層中??的神經元只需要與感受野區(qū)域連接。另外,隱藏層中神經元之間的權值共享也能減??少參數(shù)數(shù)目。??CNN的常用結構一般由卷積層、池化層和全連接層組成。其中,卷積層是卷積神??經網絡中最核心最關鍵的部分,用于提取特征,池化層用于降維,能減少網絡中參??數(shù)數(shù)量,全連接層一般位于網絡的最后,用做
果??個??XGBoost?訓練?(f?)??新的特證數(shù)據(jù)?c?...)(-...)…r-...'-?)?:::::::??、?,、?^?J?X?M?U?M?M?????zl?x2x3?????xji??全連掊層?(?)?原始特證教據(jù)??/????信息提取?(....?)?c?...?)??…r' ̄r ̄")??隹積層?(個)??r%?r%?rv?rv?rv?rv??原始特征數(shù)裾??vy?kJ?Lx??xl?x2x3?…?xn??圖2.?3?CNN-XGBoost組合模型訓練流程??2.?3.1?I?ncept?i?on?網絡??在標準的卷積神經網絡中,網絡的每一層都從之前的層中提取信息,從而將輸??入數(shù)據(jù)轉換為更有用的信息,但是類型不同的層提取的特征種類也不同。Inception??模型能對這些不同的變換結果并行計算,它是一種具有優(yōu)良結構的網絡,其局部拓??撲結構能對輸入數(shù)據(jù)并行執(zhí)行多個池化操作或卷積運算,并將所有的輸出結果拼接??在一起形成一個特征圖。Inception在同一層級上運行了濾波器尺寸為1?x?1,3?x?3,??5x5,?7x7的卷積層,將不同濾波器尺寸的卷積組合在一起,經過卷積操作后,輸??出的結果再全部整合在一起,而選擇不同尺寸的濾波器的目的在于收集上一層輸入??13??
【參考文獻】:
期刊論文
[1]基于SMOTE和XGBoost的貸款風險預測方法[J]. 劉斌,陳凱. 計算機與現(xiàn)代化. 2020(02)
[2]SMOTE混合抽樣對非平衡數(shù)據(jù)分類效果的影響分析[J]. 王蕾,劉賽可,夏利宇. 調研世界. 2020(01)
[3]缺失數(shù)據(jù)的處理方法及其發(fā)展趨勢[J]. 鄧建新,單路寶,賀德強,唐銳. 統(tǒng)計與決策. 2019(23)
[4]互聯(lián)網金融背景下銀行信用卡欺詐與套現(xiàn)風險防控研究[J]. 張越. 時代金融. 2019(11)
[5]局部感受野的寬度學習算法及其應用[J]. 李國強,徐立莊. 計算機工程與應用. 2020(09)
[6]結合Inception模型的卷積神經網絡圖像去噪方法[J]. 李敏,章國豪,曾建偉,楊曉鋒,胡曉敏. 計算機工程與應用. 2019(20)
[7]神經網絡模型在銀行互聯(lián)網金融反欺詐中的應用探索[J]. 李赟妮. 金融科技時代. 2018(08)
[8]基于Mini-batch神經網絡的船舶柴油機風險等級預測[J]. 尚前明,王瀟,曹召,劉治江,鄧曉光. 中國修船. 2018(04)
[9]基于規(guī)則引擎的互聯(lián)網金融反欺詐研究[J]. 丁濛濛. 電腦知識與技術. 2018(01)
[10]互聯(lián)網金融違約欺詐風險事件研究[J]. 楊荻. 經濟研究參考. 2016(63)
碩士論文
[1]基于大數(shù)據(jù)的互聯(lián)網金融欺詐行為識別研究[D]. 丁爽斯.首都經濟貿易大學 2016
[2]多標簽分類中標簽編碼算法研究[D]. 曹蕾.南京師范大學 2015
本文編號:3135856
本文鏈接:http://sikaile.net/guanlilunwen/bankxd/3135856.html