基于機(jī)器學(xué)習(xí)的某商業(yè)銀行客戶畫(huà)像模型研究
發(fā)布時(shí)間:2021-07-08 20:29
客戶是商業(yè)銀行利益的根本。面對(duì)日趨激烈的行業(yè)競(jìng)爭(zhēng)與飽和的市場(chǎng)環(huán)境,如何有效的利用客戶數(shù)據(jù)分析來(lái)針對(duì)性的營(yíng)銷客戶,對(duì)提高銀行效益十分重要。機(jī)器學(xué)習(xí)是從數(shù)據(jù)中獲取有價(jià)值信息的重要手段,用機(jī)器學(xué)習(xí)技術(shù)對(duì)商業(yè)銀行的客戶數(shù)據(jù)進(jìn)行畫(huà)像建模,可以更加準(zhǔn)確地分類客戶。本文以機(jī)器學(xué)習(xí)為主對(duì)商業(yè)銀行客戶數(shù)據(jù)進(jìn)行分析,構(gòu)建商業(yè)銀行客戶畫(huà)像模型,并將該畫(huà)像模型對(duì)客戶的分類應(yīng)用于銀行客戶畫(huà)像系統(tǒng)中,使得畫(huà)像系統(tǒng)能夠更加全面的展示客戶信息。本文的主要工作包括:1.首先對(duì)商業(yè)銀行客戶數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理。因?yàn)樯蓪?duì)抗網(wǎng)絡(luò)(GAN)相比于傳統(tǒng)方法,能更好的模擬原始樣本分布,生成高質(zhì)量樣本,所以將GAN模型應(yīng)用于銀行客戶數(shù)據(jù)處理中,來(lái)解決存在的銀行客戶類別不平衡問(wèn)題。同時(shí)將本文提出的GAN模型與常用的RUS、ROS、SMOTE、BSMOTE和ADASYN等類別不平衡處理方法進(jìn)行了實(shí)驗(yàn)對(duì)比。結(jié)果表明,本文提出的生成對(duì)抗網(wǎng)絡(luò)模型對(duì)于類別不均衡問(wèn)題在正確率、召回率和F-measure等指標(biāo)的綜合度量上具有更好的效果。2.根據(jù)處理后的數(shù)據(jù)構(gòu)建客戶畫(huà)像模型。本文采用兩種模型結(jié)合的方式構(gòu)建客戶畫(huà)像模型,來(lái)解決高維銀行數(shù)據(jù)的難以精確分...
【文章來(lái)源】:重慶理工大學(xué)重慶市
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Smote算法示意圖
3.數(shù)據(jù)預(yù)處理與基于生成對(duì)抗網(wǎng)絡(luò)的類別不平衡處理17圖3.1變量churn不平衡比率示意圖3.1.2數(shù)據(jù)清理與轉(zhuǎn)換如上文所述,數(shù)據(jù)預(yù)處理是建立模型之前很重要的一步。本文研究所使用的商業(yè)銀行客戶數(shù)據(jù)存在以下幾個(gè)主要問(wèn)題:(1)客戶數(shù)據(jù)維度很高,即屬于維度災(zāi)難情況,模型訓(xùn)練難度很高與訓(xùn)練開(kāi)銷極大;(2)變量缺失值過(guò)多,需要對(duì)值缺失進(jìn)行填充,如果某一變量存在缺失比例過(guò)高現(xiàn)象則將其刪除;(3)字符串型數(shù)據(jù)過(guò)多,需要進(jìn)行數(shù)據(jù)轉(zhuǎn)換;根據(jù)上述問(wèn)題,首先處理缺失值。對(duì)于缺失占比高于50%的特征進(jìn)行刪除處理,而對(duì)于占比較低的,則補(bǔ)全缺失值。本文使用均值法填補(bǔ)缺失值,即用該變量非空值的均值或中位數(shù)進(jìn)行填充;同時(shí),刪除樣本值超過(guò)90%是0的變量,這些變量對(duì)于客戶畫(huà)像建模沒(méi)有意義。如原始數(shù)據(jù)中DEP_SA_DEPCD_COSM_AMT變量的全部為0,說(shuō)明這個(gè)變量為不常用變量,對(duì)于建模分析意義不大,因此刪除。對(duì)字符串型數(shù)據(jù)進(jìn)行轉(zhuǎn)換,如CUST_DOLLER_FLAG、FUND_FLAG等字段的數(shù)據(jù)類型為形如“b"N",b"Y"”的字符串,將這些字段的根據(jù)屬性的具體業(yè)務(wù)含義轉(zhuǎn)化為1,0等數(shù)值型數(shù)據(jù),構(gòu)成新的屬性。同時(shí)為了解決不同變量計(jì)量單位不同導(dǎo)致的數(shù)據(jù)量綱偏差過(guò)大的問(wèn)題,本文采用數(shù)據(jù)標(biāo)準(zhǔn)化的來(lái)消除屬性量綱不一致的問(wèn)題,來(lái)避免某個(gè)屬性重要度過(guò)大或過(guò)小,標(biāo)準(zhǔn)化公式如(3-1)所示。=(3-1)
重慶理工大學(xué)碩士學(xué)位論文36述造成偏差。為了能夠給出合適的聚類數(shù)目,本文使用肘部法對(duì)聚類個(gè)數(shù)進(jìn)行篩眩分別計(jì)算了聚類數(shù)目為2至14作為時(shí)每種情況下各樣本到聚類中心的誤差平方和(SSE),如式(4-3)=∑∑||∈=12(4-3)圖4.3SSE值隨簇?cái)?shù)變化圖通過(guò)上圖可以發(fā)現(xiàn),SSE值隨聚類簇?cái)?shù)的增加逐漸減小,在客戶細(xì)分?jǐn)?shù)目為6時(shí)目標(biāo)函數(shù)值的SSE值的下降趨勢(shì)出現(xiàn)明顯拐點(diǎn),曲線斜率明顯變緩。根據(jù)肘部法的準(zhǔn)則,選擇6作為銀行客戶簇?cái)?shù)。得出最終的客戶聚類情況如下表4.6與圖4.4所示:表4.6聚類均值匯總表聚類因子1因子2因子3因子4因子5因子610.6851-1.0230-0.0428-1.50680.3816-1.66622-0.09370.31361.2774-1.26200.0531-0.59683-0.05100.0774-1.42180.5376-0.5602-0.31394-0.1211-1.3418-1.53641.6454-1.17881.131350.8359-0.2748-0.61750.0218-0.42661.58756-0.9243-1.56660.13080.4651-0.0072-1.2994
【參考文獻(xiàn)】:
期刊論文
[1]LSTM模型集成方法在客戶流失預(yù)測(cè)中的應(yīng)用[J]. 周捷,嚴(yán)建峰,楊璐,夏鵬,王猛. 計(jì)算機(jī)應(yīng)用與軟件. 2019(11)
[2]汽車4S店TFM客戶細(xì)分模型及其方法研究[J]. 謝鵬壽,張寬,范宏進(jìn),貴向泉,張恩展. 小型微型計(jì)算機(jī)系統(tǒng). 2019(10)
[3]因子分析綜合評(píng)價(jià)研究綜述[J]. 劉照德,詹秋泉,田國(guó)梁. 統(tǒng)計(jì)與決策. 2019(19)
[4]SMOTE過(guò)采樣及其改進(jìn)算法研究綜述[J]. 石洪波,陳雨文,陳鑫. 智能系統(tǒng)學(xué)報(bào). 2019(06)
[5]改進(jìn)的多層感知機(jī)在客戶流失預(yù)測(cè)中的應(yīng)用[J]. 夏國(guó)恩,唐琪,張顯全. 計(jì)算機(jī)工程與應(yīng)用. 2020(14)
[6]面向不均衡數(shù)據(jù)的動(dòng)態(tài)抽樣集成學(xué)習(xí)算法[J]. 張燕,杜紅樂(lè). 計(jì)算機(jī)應(yīng)用與軟件. 2019(06)
[7]基于概率采樣和集成學(xué)習(xí)的不平衡數(shù)據(jù)分類算法[J]. 曹雅茜,黃海燕. 計(jì)算機(jī)科學(xué). 2019(05)
[8]基于Stacking策略的穩(wěn)定性分類器組合模型研究[J]. 吳擋平,張忠林,曹婷婷. 小型微型計(jì)算機(jī)系統(tǒng). 2019(05)
[9]基于深度神經(jīng)網(wǎng)絡(luò)的客戶流失預(yù)測(cè)模型[J]. 馬文斌,夏國(guó)恩. 計(jì)算機(jī)技術(shù)與發(fā)展. 2019(09)
[10]基于因子分析和聚類分析的商業(yè)銀行二級(jí)分行特色分類方法研究[J]. 應(yīng)習(xí)文,袁雅珵. 新金融. 2019(04)
博士論文
[1]大數(shù)據(jù)背景下商業(yè)銀行精準(zhǔn)營(yíng)銷的設(shè)計(jì)與應(yīng)用[D]. 鄧典雅.華南理工大學(xué) 2018
碩士論文
[1]高校學(xué)生畫(huà)像系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 楊浩.北京郵電大學(xué) 2019
[2]銀行個(gè)貸流失客戶畫(huà)像體系構(gòu)造與預(yù)警建模[D]. 程暉.長(zhǎng)春工業(yè)大學(xué) 2019
[3]基于數(shù)據(jù)挖掘的運(yùn)營(yíng)商用戶流失預(yù)測(cè)研究與應(yīng)用[D]. 林小榕.北京交通大學(xué) 2019
[4]基于Hadoop和Django的電商用戶畫(huà)像系統(tǒng)[D]. 賴偉.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2018
[5]A銀行信用卡營(yíng)銷客戶畫(huà)像體系設(shè)計(jì)[D]. 歐陽(yáng)芳慧.湖南大學(xué) 2018
[6]基于“新零售”模式的商業(yè)銀行精準(zhǔn)營(yíng)銷分析與應(yīng)用研究[D]. 葉倩琳.華南理工大學(xué) 2018
[7]基于金融大數(shù)據(jù)的客戶風(fēng)險(xiǎn)評(píng)估及預(yù)測(cè)[D]. 袁亞光.北京郵電大學(xué) 2018
[8]K-means聚類算法在銀行CRM系統(tǒng)客戶細(xì)分中的應(yīng)用[D]. 李艷君.哈爾濱工業(yè)大學(xué) 2017
本文編號(hào):3272280
【文章來(lái)源】:重慶理工大學(xué)重慶市
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Smote算法示意圖
3.數(shù)據(jù)預(yù)處理與基于生成對(duì)抗網(wǎng)絡(luò)的類別不平衡處理17圖3.1變量churn不平衡比率示意圖3.1.2數(shù)據(jù)清理與轉(zhuǎn)換如上文所述,數(shù)據(jù)預(yù)處理是建立模型之前很重要的一步。本文研究所使用的商業(yè)銀行客戶數(shù)據(jù)存在以下幾個(gè)主要問(wèn)題:(1)客戶數(shù)據(jù)維度很高,即屬于維度災(zāi)難情況,模型訓(xùn)練難度很高與訓(xùn)練開(kāi)銷極大;(2)變量缺失值過(guò)多,需要對(duì)值缺失進(jìn)行填充,如果某一變量存在缺失比例過(guò)高現(xiàn)象則將其刪除;(3)字符串型數(shù)據(jù)過(guò)多,需要進(jìn)行數(shù)據(jù)轉(zhuǎn)換;根據(jù)上述問(wèn)題,首先處理缺失值。對(duì)于缺失占比高于50%的特征進(jìn)行刪除處理,而對(duì)于占比較低的,則補(bǔ)全缺失值。本文使用均值法填補(bǔ)缺失值,即用該變量非空值的均值或中位數(shù)進(jìn)行填充;同時(shí),刪除樣本值超過(guò)90%是0的變量,這些變量對(duì)于客戶畫(huà)像建模沒(méi)有意義。如原始數(shù)據(jù)中DEP_SA_DEPCD_COSM_AMT變量的全部為0,說(shuō)明這個(gè)變量為不常用變量,對(duì)于建模分析意義不大,因此刪除。對(duì)字符串型數(shù)據(jù)進(jìn)行轉(zhuǎn)換,如CUST_DOLLER_FLAG、FUND_FLAG等字段的數(shù)據(jù)類型為形如“b"N",b"Y"”的字符串,將這些字段的根據(jù)屬性的具體業(yè)務(wù)含義轉(zhuǎn)化為1,0等數(shù)值型數(shù)據(jù),構(gòu)成新的屬性。同時(shí)為了解決不同變量計(jì)量單位不同導(dǎo)致的數(shù)據(jù)量綱偏差過(guò)大的問(wèn)題,本文采用數(shù)據(jù)標(biāo)準(zhǔn)化的來(lái)消除屬性量綱不一致的問(wèn)題,來(lái)避免某個(gè)屬性重要度過(guò)大或過(guò)小,標(biāo)準(zhǔn)化公式如(3-1)所示。=(3-1)
重慶理工大學(xué)碩士學(xué)位論文36述造成偏差。為了能夠給出合適的聚類數(shù)目,本文使用肘部法對(duì)聚類個(gè)數(shù)進(jìn)行篩眩分別計(jì)算了聚類數(shù)目為2至14作為時(shí)每種情況下各樣本到聚類中心的誤差平方和(SSE),如式(4-3)=∑∑||∈=12(4-3)圖4.3SSE值隨簇?cái)?shù)變化圖通過(guò)上圖可以發(fā)現(xiàn),SSE值隨聚類簇?cái)?shù)的增加逐漸減小,在客戶細(xì)分?jǐn)?shù)目為6時(shí)目標(biāo)函數(shù)值的SSE值的下降趨勢(shì)出現(xiàn)明顯拐點(diǎn),曲線斜率明顯變緩。根據(jù)肘部法的準(zhǔn)則,選擇6作為銀行客戶簇?cái)?shù)。得出最終的客戶聚類情況如下表4.6與圖4.4所示:表4.6聚類均值匯總表聚類因子1因子2因子3因子4因子5因子610.6851-1.0230-0.0428-1.50680.3816-1.66622-0.09370.31361.2774-1.26200.0531-0.59683-0.05100.0774-1.42180.5376-0.5602-0.31394-0.1211-1.3418-1.53641.6454-1.17881.131350.8359-0.2748-0.61750.0218-0.42661.58756-0.9243-1.56660.13080.4651-0.0072-1.2994
【參考文獻(xiàn)】:
期刊論文
[1]LSTM模型集成方法在客戶流失預(yù)測(cè)中的應(yīng)用[J]. 周捷,嚴(yán)建峰,楊璐,夏鵬,王猛. 計(jì)算機(jī)應(yīng)用與軟件. 2019(11)
[2]汽車4S店TFM客戶細(xì)分模型及其方法研究[J]. 謝鵬壽,張寬,范宏進(jìn),貴向泉,張恩展. 小型微型計(jì)算機(jī)系統(tǒng). 2019(10)
[3]因子分析綜合評(píng)價(jià)研究綜述[J]. 劉照德,詹秋泉,田國(guó)梁. 統(tǒng)計(jì)與決策. 2019(19)
[4]SMOTE過(guò)采樣及其改進(jìn)算法研究綜述[J]. 石洪波,陳雨文,陳鑫. 智能系統(tǒng)學(xué)報(bào). 2019(06)
[5]改進(jìn)的多層感知機(jī)在客戶流失預(yù)測(cè)中的應(yīng)用[J]. 夏國(guó)恩,唐琪,張顯全. 計(jì)算機(jī)工程與應(yīng)用. 2020(14)
[6]面向不均衡數(shù)據(jù)的動(dòng)態(tài)抽樣集成學(xué)習(xí)算法[J]. 張燕,杜紅樂(lè). 計(jì)算機(jī)應(yīng)用與軟件. 2019(06)
[7]基于概率采樣和集成學(xué)習(xí)的不平衡數(shù)據(jù)分類算法[J]. 曹雅茜,黃海燕. 計(jì)算機(jī)科學(xué). 2019(05)
[8]基于Stacking策略的穩(wěn)定性分類器組合模型研究[J]. 吳擋平,張忠林,曹婷婷. 小型微型計(jì)算機(jī)系統(tǒng). 2019(05)
[9]基于深度神經(jīng)網(wǎng)絡(luò)的客戶流失預(yù)測(cè)模型[J]. 馬文斌,夏國(guó)恩. 計(jì)算機(jī)技術(shù)與發(fā)展. 2019(09)
[10]基于因子分析和聚類分析的商業(yè)銀行二級(jí)分行特色分類方法研究[J]. 應(yīng)習(xí)文,袁雅珵. 新金融. 2019(04)
博士論文
[1]大數(shù)據(jù)背景下商業(yè)銀行精準(zhǔn)營(yíng)銷的設(shè)計(jì)與應(yīng)用[D]. 鄧典雅.華南理工大學(xué) 2018
碩士論文
[1]高校學(xué)生畫(huà)像系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 楊浩.北京郵電大學(xué) 2019
[2]銀行個(gè)貸流失客戶畫(huà)像體系構(gòu)造與預(yù)警建模[D]. 程暉.長(zhǎng)春工業(yè)大學(xué) 2019
[3]基于數(shù)據(jù)挖掘的運(yùn)營(yíng)商用戶流失預(yù)測(cè)研究與應(yīng)用[D]. 林小榕.北京交通大學(xué) 2019
[4]基于Hadoop和Django的電商用戶畫(huà)像系統(tǒng)[D]. 賴偉.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2018
[5]A銀行信用卡營(yíng)銷客戶畫(huà)像體系設(shè)計(jì)[D]. 歐陽(yáng)芳慧.湖南大學(xué) 2018
[6]基于“新零售”模式的商業(yè)銀行精準(zhǔn)營(yíng)銷分析與應(yīng)用研究[D]. 葉倩琳.華南理工大學(xué) 2018
[7]基于金融大數(shù)據(jù)的客戶風(fēng)險(xiǎn)評(píng)估及預(yù)測(cè)[D]. 袁亞光.北京郵電大學(xué) 2018
[8]K-means聚類算法在銀行CRM系統(tǒng)客戶細(xì)分中的應(yīng)用[D]. 李艷君.哈爾濱工業(yè)大學(xué) 2017
本文編號(hào):3272280
本文鏈接:http://sikaile.net/guanlilunwen/huobilw/3272280.html
最近更新
教材專著