基于密集子圖的銀行電信詐騙檢測(cè)方法
發(fā)布時(shí)間:2021-08-05 22:47
目前銀行對(duì)電信詐騙的標(biāo)記數(shù)據(jù)積累少,人工標(biāo)記數(shù)據(jù)的代價(jià)大,導(dǎo)致電信詐騙檢測(cè)的有監(jiān)督學(xué)習(xí)方法可使用的標(biāo)記數(shù)據(jù)不足。針對(duì)這個(gè)問題,提出一種基于密集子圖的無(wú)監(jiān)督學(xué)習(xí)方法用于電信詐騙的檢測(cè)。首先,通過(guò)在賬戶-資源(IP地址和MAC地址統(tǒng)稱為資源)網(wǎng)絡(luò)搜索可疑度較高的子圖來(lái)識(shí)別欺詐賬戶;然后,設(shè)計(jì)了一種符合電信詐騙特性的子圖可疑度量;最后,提出一種磁盤駐留、線性內(nèi)存消耗且有理論保障的可疑子圖搜索算法。在兩組模擬數(shù)據(jù)集上,所提方法的F1-score分別達(dá)到0.921和0.861,高于CrossSpot、fBox和EvilCohort算法,與M-Zoom算法的0.899和0.898相近,但是所提方法的平均運(yùn)行時(shí)間和內(nèi)存消耗峰值均小于M-Zoom算法;在真實(shí)數(shù)據(jù)集上,所提方法的F1-score達(dá)到0.550,高于fBox和EvilCohort算法,與M-Zoom算法的0.529相近。實(shí)驗(yàn)結(jié)果表明,所提方法能較好地應(yīng)用于現(xiàn)階段的銀行反電信詐騙業(yè)務(wù),且非常適合于實(shí)際應(yīng)用中的大規(guī)模數(shù)據(jù)集。
【文章來(lái)源】:計(jì)算機(jī)應(yīng)用. 2019,39(04)北大核心CSCD
【文章頁(yè)數(shù)】:6 頁(yè)
【部分圖文】:
電信詐騙的基本流程Fig.1Basicflowchartoftelecommunicationfraud
電信詐騙的檢測(cè)可以從詐騙交易的特征、洗錢交易的特征和提現(xiàn)交易的特征三方面進(jìn)行。本文從洗錢交易的特征入手,對(duì)欺詐者控制的賬戶的識(shí)別進(jìn)行研究。本文經(jīng)研究發(fā)現(xiàn)許多欺詐賬戶共用一組相同的互聯(lián)網(wǎng)協(xié)議(InternetProtocol,IP)地址或者媒體訪問控制(MediaAccessControl,MAC)地址,如圖2(a)中顯示的45個(gè)欺詐賬戶的IP地址使用情況;而圖2(b)中正常賬戶使用的IP地址則比較分散。本文推測(cè)該現(xiàn)象產(chǎn)生的原因是欺詐者的人力、設(shè)備和網(wǎng)絡(luò)資源通常有限,但是控制的欺詐賬戶和需要的洗錢交易數(shù)量都比較大。這就會(huì)造成部分欺詐賬戶使用相同的設(shè)備和網(wǎng)絡(luò)資源進(jìn)行交易的現(xiàn)象。圖2正常賬戶和欺詐賬戶的不同IP使用特性Fig.2DifferentcharacteristicsofIPusageamongfraudaccountsandnormalaccounts本文根據(jù)上述現(xiàn)象,提出了一種符合電信詐騙特征的子圖可疑度量,通過(guò)在賬戶-資源網(wǎng)絡(luò)(IP地址和MAC地址統(tǒng)稱為資源)搜索可疑度較高的子圖來(lái)識(shí)別欺詐者控制的賬戶。1相關(guān)工作基于賬戶交易特征的有監(jiān)督學(xué)習(xí)方法在銀行欺詐檢測(cè)中應(yīng)用廣泛。這類方法通過(guò)在大量已標(biāo)記的數(shù)據(jù)中提取能夠有效區(qū)分正常交易和欺詐交易的特征,例如交易頻度、交易平均金額和交易網(wǎng)絡(luò)結(jié)構(gòu)等,并使用這些特征,通過(guò)機(jī)器學(xué)習(xí)的方法訓(xùn)練分類器,最終利用訓(xùn)練好的分類器來(lái)識(shí)別交易是否為欺詐交易。Jha等[1]提取了基于不同時(shí)間窗口的RFM(Recency,F(xiàn)requencyandMonetary)特征用于訓(xùn)練邏輯回歸分類模型,并以此模型來(lái)檢測(cè)信用卡欺詐。vanVlasselaer等[2]在RFM特征中加了基于PageRank的交易網(wǎng)絡(luò)結(jié)構(gòu)特征,發(fā)現(xiàn)該特征可以提升模型的分?
然文獻(xiàn)[13]稱fBox能找出規(guī)模較小且密度較高的欺詐賬戶社區(qū),但實(shí)際fBox只能有效地找到規(guī)模相對(duì)正常賬戶社區(qū)較小且密度較高的欺詐賬戶社區(qū)。M-Zoom的性能基本沒有變化。Balanced-w和Biased-w的精準(zhǔn)率與在模擬數(shù)據(jù)集1上的精準(zhǔn)率基本一樣,說(shuō)明加權(quán)策略有效地解決了2.2節(jié)中所述的問題。圖4~5顯示了M-Zoom的密集子圖搜索算法和DENSEST_SUBGRAPH算法的算法復(fù)雜度。實(shí)驗(yàn)中的圖使用文獻(xiàn)[20]方法生成,實(shí)驗(yàn)時(shí)保持p=0.001不變,然后逐步增加圖中的節(jié)點(diǎn)數(shù)。圖4顯示了算法平均運(yùn)行時(shí)間和|V||E|的關(guān)系,雖然DENSEST_SUBGRAPH算法在最壞情況下的時(shí)間復(fù)雜度是O(|V||E|),但是實(shí)際的平均運(yùn)行時(shí)間要好于最壞的情況,且比M-Zoom的平均運(yùn)行時(shí)間更短。圖5顯示了算法峰值內(nèi)存消耗和|V|的關(guān)系,可以發(fā)現(xiàn)本文方法的內(nèi)存消耗要小于M-Zoom。圖4不同算法的時(shí)間復(fù)雜度對(duì)比Fig.4Timecomplexitycomparisonofdifferentalgorithms圖5不同算法的空間復(fù)雜度對(duì)比Fig.5Spacecomplexitycomparisonofdifferentalgorithms3.2真實(shí)數(shù)據(jù)本節(jié)在真實(shí)數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)。數(shù)據(jù)由合作銀行提供,包含從2016年1月1日至2017年7月1日的銀行交易日志。去除如企業(yè)交易、內(nèi)網(wǎng)交易等特殊交易后,數(shù)據(jù)基本情況見表2。由于銀行提供的欺詐賬戶僅包含本行賬戶,而且非本行的賬戶交易的MAC地址和IP地址缺失,實(shí)驗(yàn)僅從本行賬戶中選取標(biāo)記樣本作為測(cè)試數(shù)據(jù)。測(cè)試數(shù)據(jù)選取195個(gè)已確認(rèn)的本行欺詐賬戶和10000個(gè)已確認(rèn)的本行正常賬戶作為標(biāo)記樣本,來(lái)測(cè)試不同算法對(duì)欺詐賬戶的識(shí)別性能。對(duì)比的算法去除了效果較差的
【參考文獻(xiàn)】:
期刊論文
[1]基于交易網(wǎng)絡(luò)特征向量中心度量的可疑洗錢識(shí)別系統(tǒng)[J]. 喻煒,王建東. 計(jì)算機(jī)應(yīng)用. 2009(09)
本文編號(hào):3324594
【文章來(lái)源】:計(jì)算機(jī)應(yīng)用. 2019,39(04)北大核心CSCD
【文章頁(yè)數(shù)】:6 頁(yè)
【部分圖文】:
電信詐騙的基本流程Fig.1Basicflowchartoftelecommunicationfraud
電信詐騙的檢測(cè)可以從詐騙交易的特征、洗錢交易的特征和提現(xiàn)交易的特征三方面進(jìn)行。本文從洗錢交易的特征入手,對(duì)欺詐者控制的賬戶的識(shí)別進(jìn)行研究。本文經(jīng)研究發(fā)現(xiàn)許多欺詐賬戶共用一組相同的互聯(lián)網(wǎng)協(xié)議(InternetProtocol,IP)地址或者媒體訪問控制(MediaAccessControl,MAC)地址,如圖2(a)中顯示的45個(gè)欺詐賬戶的IP地址使用情況;而圖2(b)中正常賬戶使用的IP地址則比較分散。本文推測(cè)該現(xiàn)象產(chǎn)生的原因是欺詐者的人力、設(shè)備和網(wǎng)絡(luò)資源通常有限,但是控制的欺詐賬戶和需要的洗錢交易數(shù)量都比較大。這就會(huì)造成部分欺詐賬戶使用相同的設(shè)備和網(wǎng)絡(luò)資源進(jìn)行交易的現(xiàn)象。圖2正常賬戶和欺詐賬戶的不同IP使用特性Fig.2DifferentcharacteristicsofIPusageamongfraudaccountsandnormalaccounts本文根據(jù)上述現(xiàn)象,提出了一種符合電信詐騙特征的子圖可疑度量,通過(guò)在賬戶-資源網(wǎng)絡(luò)(IP地址和MAC地址統(tǒng)稱為資源)搜索可疑度較高的子圖來(lái)識(shí)別欺詐者控制的賬戶。1相關(guān)工作基于賬戶交易特征的有監(jiān)督學(xué)習(xí)方法在銀行欺詐檢測(cè)中應(yīng)用廣泛。這類方法通過(guò)在大量已標(biāo)記的數(shù)據(jù)中提取能夠有效區(qū)分正常交易和欺詐交易的特征,例如交易頻度、交易平均金額和交易網(wǎng)絡(luò)結(jié)構(gòu)等,并使用這些特征,通過(guò)機(jī)器學(xué)習(xí)的方法訓(xùn)練分類器,最終利用訓(xùn)練好的分類器來(lái)識(shí)別交易是否為欺詐交易。Jha等[1]提取了基于不同時(shí)間窗口的RFM(Recency,F(xiàn)requencyandMonetary)特征用于訓(xùn)練邏輯回歸分類模型,并以此模型來(lái)檢測(cè)信用卡欺詐。vanVlasselaer等[2]在RFM特征中加了基于PageRank的交易網(wǎng)絡(luò)結(jié)構(gòu)特征,發(fā)現(xiàn)該特征可以提升模型的分?
然文獻(xiàn)[13]稱fBox能找出規(guī)模較小且密度較高的欺詐賬戶社區(qū),但實(shí)際fBox只能有效地找到規(guī)模相對(duì)正常賬戶社區(qū)較小且密度較高的欺詐賬戶社區(qū)。M-Zoom的性能基本沒有變化。Balanced-w和Biased-w的精準(zhǔn)率與在模擬數(shù)據(jù)集1上的精準(zhǔn)率基本一樣,說(shuō)明加權(quán)策略有效地解決了2.2節(jié)中所述的問題。圖4~5顯示了M-Zoom的密集子圖搜索算法和DENSEST_SUBGRAPH算法的算法復(fù)雜度。實(shí)驗(yàn)中的圖使用文獻(xiàn)[20]方法生成,實(shí)驗(yàn)時(shí)保持p=0.001不變,然后逐步增加圖中的節(jié)點(diǎn)數(shù)。圖4顯示了算法平均運(yùn)行時(shí)間和|V||E|的關(guān)系,雖然DENSEST_SUBGRAPH算法在最壞情況下的時(shí)間復(fù)雜度是O(|V||E|),但是實(shí)際的平均運(yùn)行時(shí)間要好于最壞的情況,且比M-Zoom的平均運(yùn)行時(shí)間更短。圖5顯示了算法峰值內(nèi)存消耗和|V|的關(guān)系,可以發(fā)現(xiàn)本文方法的內(nèi)存消耗要小于M-Zoom。圖4不同算法的時(shí)間復(fù)雜度對(duì)比Fig.4Timecomplexitycomparisonofdifferentalgorithms圖5不同算法的空間復(fù)雜度對(duì)比Fig.5Spacecomplexitycomparisonofdifferentalgorithms3.2真實(shí)數(shù)據(jù)本節(jié)在真實(shí)數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)。數(shù)據(jù)由合作銀行提供,包含從2016年1月1日至2017年7月1日的銀行交易日志。去除如企業(yè)交易、內(nèi)網(wǎng)交易等特殊交易后,數(shù)據(jù)基本情況見表2。由于銀行提供的欺詐賬戶僅包含本行賬戶,而且非本行的賬戶交易的MAC地址和IP地址缺失,實(shí)驗(yàn)僅從本行賬戶中選取標(biāo)記樣本作為測(cè)試數(shù)據(jù)。測(cè)試數(shù)據(jù)選取195個(gè)已確認(rèn)的本行欺詐賬戶和10000個(gè)已確認(rèn)的本行正常賬戶作為標(biāo)記樣本,來(lái)測(cè)試不同算法對(duì)欺詐賬戶的識(shí)別性能。對(duì)比的算法去除了效果較差的
【參考文獻(xiàn)】:
期刊論文
[1]基于交易網(wǎng)絡(luò)特征向量中心度量的可疑洗錢識(shí)別系統(tǒng)[J]. 喻煒,王建東. 計(jì)算機(jī)應(yīng)用. 2009(09)
本文編號(hào):3324594
本文鏈接:http://sikaile.net/falvlunwen/xingfalunwen/3324594.html
教材專著