基于多方法融合的電信客戶流失預(yù)測模型研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-10-19 14:53
隨著信息化建設(shè)的不斷深入,電信運(yùn)營商擁有海量的數(shù)據(jù)資源,運(yùn)用數(shù)據(jù)挖掘技術(shù)構(gòu)建電信客戶細(xì)分模型和客戶流失預(yù)測模型具有重要意義。本文通過分析某電信運(yùn)營商某市公司的客戶及業(yè)務(wù)數(shù)據(jù),構(gòu)建客戶細(xì)分模型和客戶流失預(yù)測模型,然后基于客戶細(xì)分進(jìn)行客戶挽留策略研究。本文的主要工作內(nèi)容有:1.本文針對電信數(shù)據(jù)的雜亂、數(shù)據(jù)量大的問題,在進(jìn)行主要工作之前進(jìn)行數(shù)據(jù)清洗操作。一方面通過數(shù)據(jù)分類特征可視化,分析不同數(shù)據(jù)特征對客戶流失分布的影響,另一方面制定客戶綜合價(jià)值評判標(biāo)準(zhǔn),將客戶綜合價(jià)值劃分為已實(shí)現(xiàn)價(jià)值、未實(shí)現(xiàn)價(jià)值和客戶忠誠度,結(jié)合業(yè)務(wù)邏輯改進(jìn)K-means算法,將客戶細(xì)分為五個(gè)客戶群。2.使用多種特征選擇方法在不同分類器上進(jìn)行流失預(yù)測效果的對比,實(shí)驗(yàn)表明F檢驗(yàn)法的效果最佳。另外針對數(shù)據(jù)類別不平衡的問題,本文使用隨機(jī)過采樣、SMOTE方法和ADASYN方法三種過采樣方法在決策樹和XGBoost模型上進(jìn)行流失預(yù)測效果的對比。實(shí)驗(yàn)表明,三種過采樣方法都能一定程度上提升預(yù)測效果,在決策樹中使用隨機(jī)過采樣效果更好,在XGBoost模型中使用SMOTE方法效果更好。3.選擇效果更佳的分類器(決策樹、隨機(jī)森林和XGBoos...
【文章來源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
K-means聚類流程圖
第二章相關(guān)理論問題及技術(shù)概述114.使用投票法計(jì)算每一個(gè)結(jié)果的得票數(shù),將最高票數(shù)的預(yù)測結(jié)果作為隨機(jī)森林的最終預(yù)測。隨機(jī)森林預(yù)測機(jī)制如圖2-3所示。圖2-3隨機(jī)森林預(yù)測機(jī)制隨機(jī)森林算法的優(yōu)點(diǎn)有:可以處理分類和回歸任務(wù),同時(shí)處理分類和數(shù)值特征;通過平均決策樹降低過擬合的風(fēng)險(xiǎn);隨機(jī)森林很穩(wěn)定,數(shù)據(jù)集出現(xiàn)一個(gè)新數(shù)據(jù)點(diǎn)只會影響到一棵決策樹。缺點(diǎn)是在噪音較大的樣本集上易造成過擬合。另外隨機(jī)森林的超參數(shù)可以用來提高模型的預(yù)測能力,也可以用來加快建模的速度。2.2.3基于Boosting方法的算法Boosting屬于有監(jiān)督的分類學(xué)習(xí)方法,它通過組合多個(gè)弱分類器來生成一個(gè)強(qiáng)分類器。Boosting算法比較有代表性的有Adaboost(AdaptiveBoosting)、GBDT(GradientBoostingDecisionTree)、XGBoost和LightGBM。1.Adaboost起初所有樣本的權(quán)重一樣,訓(xùn)練得到第一個(gè)分類器。從第二輪開始,每輪開始前根據(jù)上一輪分類器的分類結(jié)果調(diào)整各個(gè)樣本的權(quán)重,增加錯(cuò)分的樣本權(quán)重,減少正確分類的樣本權(quán)重,更新權(quán)重后繼續(xù)訓(xùn)練本輪分類器,重復(fù)上述操作直到約定的輪數(shù)為止。樣本權(quán)重的調(diào)整可以保證在邊界附近的樣本點(diǎn)在分類時(shí)獲得更多的關(guān)注。Adaboost的優(yōu)點(diǎn)是可以處理連續(xù)值和離散值,無需進(jìn)行參數(shù)的調(diào)整,泛化錯(cuò)誤率較低。缺點(diǎn)是對數(shù)據(jù)樣本的異常樣本比較敏感,容易影響模型效果。2.GBDTGBDT即梯度提升樹,以決策樹為基函數(shù)的提升方法稱為提升樹。Adaboost通過調(diào)整錯(cuò)分樣本點(diǎn)的權(quán)重來改進(jìn)模型,而GBDT則通過計(jì)算負(fù)梯度來改進(jìn)模型。GBDT的每一輪訓(xùn)練會計(jì)算本輪結(jié)果的殘差,下一輪以本輪殘差作為輸入,盡量擬合此殘差,使得
第二章相關(guān)理論問題及技術(shù)概述13如果把訓(xùn)練集讀入內(nèi)存則會限制訓(xùn)練數(shù)據(jù)集的大小,如果不把訓(xùn)練集讀入內(nèi)存,反復(fù)讀取數(shù)據(jù)集則會增加耗時(shí)。因此,當(dāng)面對海量訓(xùn)練數(shù)據(jù)時(shí),LightGBM相比其他模型會更有優(yōu)勢。2.2.4Stacking集成學(xué)習(xí)算法一般來說,融合多個(gè)機(jī)器學(xué)習(xí)模型或多或少都能提高整體的預(yù)測能力,且泛化性能一般不會差于最優(yōu)子模型。在對模型進(jìn)行融合之前需要滿足一定的融合策略,結(jié)合策略主要包含Voting、Stacking、Averaging三種策略,而Stacking策略是這三種方法中更為強(qiáng)大的方法[43]。平均法適用于數(shù)值型的輸出,加權(quán)平均法加入了基學(xué)習(xí)器的權(quán)重。投票法將得票最多的作為標(biāo)記,如果票數(shù)相同則隨機(jī)選擇一個(gè)。Stacking并行地學(xué)習(xí)多個(gè)同質(zhì)弱分類器,并訓(xùn)練一個(gè)元模型將它們組合在一起,根據(jù)多個(gè)弱分類器的結(jié)果輸出一個(gè)最終預(yù)測結(jié)果。Stacking方法會定義一個(gè)新學(xué)習(xí)器對全部基學(xué)習(xí)器的輸出重新訓(xùn)練,基學(xué)習(xí)器稱為初級學(xué)習(xí)器,用于結(jié)合的學(xué)習(xí)器稱為次級學(xué)習(xí)器。Stacking模型多數(shù)情況下分為兩層,首先在第一層訓(xùn)練一組基學(xué)習(xí)器,然后將第一層基學(xué)習(xí)器的輸出和期望的樣本標(biāo)簽看作是新的學(xué)習(xí)任務(wù),通過機(jī)器學(xué)習(xí)或者其他策略訓(xùn)練一個(gè)新的模型,次級學(xué)習(xí)器的輸入是基學(xué)習(xí)器的輸出,最后得到一個(gè)最終輸出。Stacking集成學(xué)習(xí)方法的過程如圖2-4所示。圖2-4Stacking集成學(xué)習(xí)方法示意圖2.2.5類別平衡化算法電信客戶流失預(yù)測的數(shù)據(jù)集會存在類別不平衡的問題。由于大多數(shù)算法是基于統(tǒng)計(jì)學(xué)和概率論的特點(diǎn),導(dǎo)致模型訓(xùn)練時(shí)會偏向類別數(shù)量較多的類,導(dǎo)致學(xué)習(xí)算法不能完整地學(xué)習(xí)到數(shù)據(jù)特征,從而無法提高預(yù)測準(zhǔn)確率。在現(xiàn)有的研究中,類別平衡化的方法大
【參考文獻(xiàn)】:
期刊論文
[1]改進(jìn)的K-means算法研究[J]. 韓琮師,李旭健. 軟件. 2020(03)
[2]基于深度神經(jīng)網(wǎng)絡(luò)的客戶流失預(yù)測模型[J]. 馬文斌,夏國恩. 計(jì)算機(jī)技術(shù)與發(fā)展. 2019(09)
[3]基于評論情感傾向和神經(jīng)網(wǎng)絡(luò)的客戶流失預(yù)測研究[J]. 馮鑫,王晨,劉苑,楊婭,安海崗. 中國電子科學(xué)研究院學(xué)報(bào). 2018(03)
[4]基于聚類中心優(yōu)化的k-means最佳聚類數(shù)確定方法[J]. 賈瑞玉,宋建林. 微電子學(xué)與計(jì)算機(jī). 2016(05)
[5]基于改進(jìn)K-means算法的RFAT客戶細(xì)分研究[J]. 劉芝怡,陳功. 南京理工大學(xué)學(xué)報(bào). 2014(04)
[6]基于遺傳算法和BP神經(jīng)網(wǎng)絡(luò)的多維客戶行為細(xì)分模型的研究[J]. 王光輝,張曉光,趙艷芹. 齊齊哈爾大學(xué)學(xué)報(bào)(自然科學(xué)版). 2014(04)
[7]基于改進(jìn)聚類的電信客戶流失預(yù)測分析[J]. 姜曉娟,郭一娜. 太原理工大學(xué)學(xué)報(bào). 2014(04)
[8]一種基于社會網(wǎng)絡(luò)的潛在流失客戶發(fā)現(xiàn)方法[J]. 黃婉秋. 北京交通大學(xué)學(xué)報(bào). 2014(03)
[9]隨機(jī)森林模型在分類與回歸分析中的應(yīng)用[J]. 李欣海. 應(yīng)用昆蟲學(xué)報(bào). 2013(04)
[10]基于樸素貝葉斯算法的證券業(yè)客戶價(jià)值細(xì)分研究[J]. 王園,李少峰,王永梅,歐冰臻,王秋明,林巧明. 科技和產(chǎn)業(yè). 2013(05)
碩士論文
[1]基于Stacking的P2P貸款違約預(yù)測模型構(gòu)建及應(yīng)用[D]. 王竟羽.成都理工大學(xué) 2019
[2]基于Stacking集成學(xué)習(xí)的浙江移動公司客戶流失分層預(yù)測研究[D]. 汪貝貝.浙江工商大學(xué) 2018
[3]移動互聯(lián)網(wǎng)背景下客戶流失預(yù)測研究[D]. 李衍.廈門大學(xué) 2018
[4]基于隨機(jī)森林的電信客戶流失預(yù)測應(yīng)用研究[D]. 邱偉.華南理工大學(xué) 2018
[5]客戶價(jià)值聚類與流失預(yù)測系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 孟翔宇.華中科技大學(xué) 2018
[6]基于數(shù)據(jù)挖掘的煙草零售客戶聚類細(xì)分研究[D]. 林宗.浙江工業(yè)大學(xué) 2016
[7]基于數(shù)據(jù)挖掘方法的客戶細(xì)分及流失預(yù)測[D]. 王喆.北京理工大學(xué) 2016
[8]基于改進(jìn)的K-means算法的銀行客戶聚類研究[D]. 劉玥.吉林大學(xué) 2016
[9]基于神經(jīng)網(wǎng)絡(luò)算法構(gòu)建電信用戶流失預(yù)測模型的研究[D]. 孫碧穎.蘭州大學(xué) 2016
[10]基于大數(shù)據(jù)的客戶細(xì)分模型及精確營銷策略研究[D]. 楊茜.南京郵電大學(xué) 2015
本文編號:3445084
【文章來源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
K-means聚類流程圖
第二章相關(guān)理論問題及技術(shù)概述114.使用投票法計(jì)算每一個(gè)結(jié)果的得票數(shù),將最高票數(shù)的預(yù)測結(jié)果作為隨機(jī)森林的最終預(yù)測。隨機(jī)森林預(yù)測機(jī)制如圖2-3所示。圖2-3隨機(jī)森林預(yù)測機(jī)制隨機(jī)森林算法的優(yōu)點(diǎn)有:可以處理分類和回歸任務(wù),同時(shí)處理分類和數(shù)值特征;通過平均決策樹降低過擬合的風(fēng)險(xiǎn);隨機(jī)森林很穩(wěn)定,數(shù)據(jù)集出現(xiàn)一個(gè)新數(shù)據(jù)點(diǎn)只會影響到一棵決策樹。缺點(diǎn)是在噪音較大的樣本集上易造成過擬合。另外隨機(jī)森林的超參數(shù)可以用來提高模型的預(yù)測能力,也可以用來加快建模的速度。2.2.3基于Boosting方法的算法Boosting屬于有監(jiān)督的分類學(xué)習(xí)方法,它通過組合多個(gè)弱分類器來生成一個(gè)強(qiáng)分類器。Boosting算法比較有代表性的有Adaboost(AdaptiveBoosting)、GBDT(GradientBoostingDecisionTree)、XGBoost和LightGBM。1.Adaboost起初所有樣本的權(quán)重一樣,訓(xùn)練得到第一個(gè)分類器。從第二輪開始,每輪開始前根據(jù)上一輪分類器的分類結(jié)果調(diào)整各個(gè)樣本的權(quán)重,增加錯(cuò)分的樣本權(quán)重,減少正確分類的樣本權(quán)重,更新權(quán)重后繼續(xù)訓(xùn)練本輪分類器,重復(fù)上述操作直到約定的輪數(shù)為止。樣本權(quán)重的調(diào)整可以保證在邊界附近的樣本點(diǎn)在分類時(shí)獲得更多的關(guān)注。Adaboost的優(yōu)點(diǎn)是可以處理連續(xù)值和離散值,無需進(jìn)行參數(shù)的調(diào)整,泛化錯(cuò)誤率較低。缺點(diǎn)是對數(shù)據(jù)樣本的異常樣本比較敏感,容易影響模型效果。2.GBDTGBDT即梯度提升樹,以決策樹為基函數(shù)的提升方法稱為提升樹。Adaboost通過調(diào)整錯(cuò)分樣本點(diǎn)的權(quán)重來改進(jìn)模型,而GBDT則通過計(jì)算負(fù)梯度來改進(jìn)模型。GBDT的每一輪訓(xùn)練會計(jì)算本輪結(jié)果的殘差,下一輪以本輪殘差作為輸入,盡量擬合此殘差,使得
第二章相關(guān)理論問題及技術(shù)概述13如果把訓(xùn)練集讀入內(nèi)存則會限制訓(xùn)練數(shù)據(jù)集的大小,如果不把訓(xùn)練集讀入內(nèi)存,反復(fù)讀取數(shù)據(jù)集則會增加耗時(shí)。因此,當(dāng)面對海量訓(xùn)練數(shù)據(jù)時(shí),LightGBM相比其他模型會更有優(yōu)勢。2.2.4Stacking集成學(xué)習(xí)算法一般來說,融合多個(gè)機(jī)器學(xué)習(xí)模型或多或少都能提高整體的預(yù)測能力,且泛化性能一般不會差于最優(yōu)子模型。在對模型進(jìn)行融合之前需要滿足一定的融合策略,結(jié)合策略主要包含Voting、Stacking、Averaging三種策略,而Stacking策略是這三種方法中更為強(qiáng)大的方法[43]。平均法適用于數(shù)值型的輸出,加權(quán)平均法加入了基學(xué)習(xí)器的權(quán)重。投票法將得票最多的作為標(biāo)記,如果票數(shù)相同則隨機(jī)選擇一個(gè)。Stacking并行地學(xué)習(xí)多個(gè)同質(zhì)弱分類器,并訓(xùn)練一個(gè)元模型將它們組合在一起,根據(jù)多個(gè)弱分類器的結(jié)果輸出一個(gè)最終預(yù)測結(jié)果。Stacking方法會定義一個(gè)新學(xué)習(xí)器對全部基學(xué)習(xí)器的輸出重新訓(xùn)練,基學(xué)習(xí)器稱為初級學(xué)習(xí)器,用于結(jié)合的學(xué)習(xí)器稱為次級學(xué)習(xí)器。Stacking模型多數(shù)情況下分為兩層,首先在第一層訓(xùn)練一組基學(xué)習(xí)器,然后將第一層基學(xué)習(xí)器的輸出和期望的樣本標(biāo)簽看作是新的學(xué)習(xí)任務(wù),通過機(jī)器學(xué)習(xí)或者其他策略訓(xùn)練一個(gè)新的模型,次級學(xué)習(xí)器的輸入是基學(xué)習(xí)器的輸出,最后得到一個(gè)最終輸出。Stacking集成學(xué)習(xí)方法的過程如圖2-4所示。圖2-4Stacking集成學(xué)習(xí)方法示意圖2.2.5類別平衡化算法電信客戶流失預(yù)測的數(shù)據(jù)集會存在類別不平衡的問題。由于大多數(shù)算法是基于統(tǒng)計(jì)學(xué)和概率論的特點(diǎn),導(dǎo)致模型訓(xùn)練時(shí)會偏向類別數(shù)量較多的類,導(dǎo)致學(xué)習(xí)算法不能完整地學(xué)習(xí)到數(shù)據(jù)特征,從而無法提高預(yù)測準(zhǔn)確率。在現(xiàn)有的研究中,類別平衡化的方法大
【參考文獻(xiàn)】:
期刊論文
[1]改進(jìn)的K-means算法研究[J]. 韓琮師,李旭健. 軟件. 2020(03)
[2]基于深度神經(jīng)網(wǎng)絡(luò)的客戶流失預(yù)測模型[J]. 馬文斌,夏國恩. 計(jì)算機(jī)技術(shù)與發(fā)展. 2019(09)
[3]基于評論情感傾向和神經(jīng)網(wǎng)絡(luò)的客戶流失預(yù)測研究[J]. 馮鑫,王晨,劉苑,楊婭,安海崗. 中國電子科學(xué)研究院學(xué)報(bào). 2018(03)
[4]基于聚類中心優(yōu)化的k-means最佳聚類數(shù)確定方法[J]. 賈瑞玉,宋建林. 微電子學(xué)與計(jì)算機(jī). 2016(05)
[5]基于改進(jìn)K-means算法的RFAT客戶細(xì)分研究[J]. 劉芝怡,陳功. 南京理工大學(xué)學(xué)報(bào). 2014(04)
[6]基于遺傳算法和BP神經(jīng)網(wǎng)絡(luò)的多維客戶行為細(xì)分模型的研究[J]. 王光輝,張曉光,趙艷芹. 齊齊哈爾大學(xué)學(xué)報(bào)(自然科學(xué)版). 2014(04)
[7]基于改進(jìn)聚類的電信客戶流失預(yù)測分析[J]. 姜曉娟,郭一娜. 太原理工大學(xué)學(xué)報(bào). 2014(04)
[8]一種基于社會網(wǎng)絡(luò)的潛在流失客戶發(fā)現(xiàn)方法[J]. 黃婉秋. 北京交通大學(xué)學(xué)報(bào). 2014(03)
[9]隨機(jī)森林模型在分類與回歸分析中的應(yīng)用[J]. 李欣海. 應(yīng)用昆蟲學(xué)報(bào). 2013(04)
[10]基于樸素貝葉斯算法的證券業(yè)客戶價(jià)值細(xì)分研究[J]. 王園,李少峰,王永梅,歐冰臻,王秋明,林巧明. 科技和產(chǎn)業(yè). 2013(05)
碩士論文
[1]基于Stacking的P2P貸款違約預(yù)測模型構(gòu)建及應(yīng)用[D]. 王竟羽.成都理工大學(xué) 2019
[2]基于Stacking集成學(xué)習(xí)的浙江移動公司客戶流失分層預(yù)測研究[D]. 汪貝貝.浙江工商大學(xué) 2018
[3]移動互聯(lián)網(wǎng)背景下客戶流失預(yù)測研究[D]. 李衍.廈門大學(xué) 2018
[4]基于隨機(jī)森林的電信客戶流失預(yù)測應(yīng)用研究[D]. 邱偉.華南理工大學(xué) 2018
[5]客戶價(jià)值聚類與流失預(yù)測系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 孟翔宇.華中科技大學(xué) 2018
[6]基于數(shù)據(jù)挖掘的煙草零售客戶聚類細(xì)分研究[D]. 林宗.浙江工業(yè)大學(xué) 2016
[7]基于數(shù)據(jù)挖掘方法的客戶細(xì)分及流失預(yù)測[D]. 王喆.北京理工大學(xué) 2016
[8]基于改進(jìn)的K-means算法的銀行客戶聚類研究[D]. 劉玥.吉林大學(xué) 2016
[9]基于神經(jīng)網(wǎng)絡(luò)算法構(gòu)建電信用戶流失預(yù)測模型的研究[D]. 孫碧穎.蘭州大學(xué) 2016
[10]基于大數(shù)據(jù)的客戶細(xì)分模型及精確營銷策略研究[D]. 楊茜.南京郵電大學(xué) 2015
本文編號:3445084
本文鏈接:http://sikaile.net/jingjilunwen/xmjj/3445084.html
最近更新
教材專著