基于改進(jìn)隨機(jī)森林算法的電信客戶流失預(yù)測及分析
發(fā)布時間:2023-03-23 01:19
近年來電信行業(yè)的發(fā)展非常迅速,2019年全國網(wǎng)民數(shù)已達(dá)9億人,且手機(jī)用戶數(shù)已達(dá)15億,電信市場趨于飽和。在5G通信時代,隨著攜號轉(zhuǎn)網(wǎng)的推行,電信運(yùn)營商為保持市場中的強(qiáng)勢,避免試圖轉(zhuǎn)換電信合作伙伴的客戶流失,因此電信客戶流失預(yù)測對于電信企業(yè)維系和挽留用戶非常重要。通過對電信客戶流失預(yù)測問題的分析,指出構(gòu)建電信客戶流失模型的關(guān)鍵因素在于業(yè)務(wù)理解和數(shù)據(jù)挖掘算法選擇。近年來各類機(jī)器學(xué)習(xí)算法已經(jīng)被大量應(yīng)用到電信企業(yè)數(shù)據(jù)挖掘?qū)嵺`中,通過實現(xiàn)傳統(tǒng)的機(jī)器學(xué)習(xí)算法,指出在標(biāo)準(zhǔn)化輸入數(shù)據(jù)之外,選擇合適的數(shù)據(jù)挖掘方法,可以顯著地提高電信客戶流失預(yù)測成功率。綜合對比,在處理不平衡數(shù)據(jù)集的分類問題上,傳統(tǒng)算法里面隨機(jī)森林算法分類效果優(yōu)于其它算法。在數(shù)據(jù)集采樣階段使用Kmeans-smote融合采樣,比其他采樣方法f1值平均提升3%,特征選擇上采用了新式的彈性網(wǎng)絡(luò)方法,改進(jìn)后的模型較之前的AUC值提高了 5%。在算法層面,本文將聚類算法融合進(jìn)隨機(jī)森林算法構(gòu)造新的隨機(jī)森林模型,其中聚類算法用于挑選隨機(jī)森林的生成子樹。通過實驗證明了算法改進(jìn)的優(yōu)良特性。本課題數(shù)據(jù)使用的是東南亞電信企業(yè)客戶和行為數(shù)據(jù),主要研究高價值客戶...
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景及意義
1.1.1 課題研究背景
1.1.2 課題意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.3 研究內(nèi)容及創(chuàng)新點(diǎn)
1.4 論文框架
第2章 相關(guān)理論技術(shù)綜述
2.1 數(shù)據(jù)挖掘理論
2.1.1 數(shù)據(jù)挖掘的基本理論
2.1.2 數(shù)據(jù)挖掘任務(wù)
2.2 隨機(jī)森林分類算法概述
2.3 聚類算法概念
2.3.1 聚類性能度量
2.3.2 聚類距離計算
2.3.3 原型聚類
2.3.4 層次化聚類
2.3.5 密度聚類
2.4 電信客戶流失概述
2.4.1 客戶流失定義
2.4.2 客戶流失原因
2.4.3 客戶流失預(yù)測面臨的問題和挑戰(zhàn)
2.5 數(shù)據(jù)平衡研究與特征約減
2.5.1 數(shù)據(jù)不平衡問題
2.5.2 數(shù)據(jù)均衡化處理-數(shù)據(jù)層面
2.5.3 數(shù)據(jù)均衡化處理-算法層面
2.5.4 特征約減
2.6 本章小結(jié)
第3章 電信客戶數(shù)據(jù)集相關(guān)處理
3.1 數(shù)據(jù)集采集
3.2 數(shù)據(jù)集分析
3.3 數(shù)據(jù)的清洗及選擇
3.3.1 過濾數(shù)據(jù)
3.3.2 標(biāo)記數(shù)據(jù)
3.3.3 數(shù)據(jù)的特征選擇
3.3.4 數(shù)據(jù)的缺失值處理
3.4 本章小結(jié)
第4章 電信客戶流失模型構(gòu)建
4.1 實驗設(shè)計
4.2 算法模型評估指標(biāo)
4.2.1 混淆矩陣及相關(guān)性能指標(biāo)
4.2.2 ROC曲線和AUC值
4.3 多種算法模型對比
4.4 數(shù)據(jù)平衡化處理
4.4.1 隨機(jī)上采樣方法
4.4.2 少數(shù)類過采樣smote方法
4.4.3 混合采樣smoteEnn方法
4.4.4 基于聚類的融合采樣改進(jìn)方法
4.5 優(yōu)化隨機(jī)森林的設(shè)計及實現(xiàn)
4.5.1 問題的提出
4.5.2 優(yōu)化方案的設(shè)計
4.6 本章小結(jié)
第5章 電信客戶流失預(yù)測結(jié)果分析
5.1 實驗準(zhǔn)備
5.2 優(yōu)化改進(jìn)隨機(jī)森林的結(jié)果對比分析
5.2.1 特征選擇方法的結(jié)果對比分析
5.2.2 多種過采樣方法結(jié)果實證分析
5.2.3 聚類優(yōu)化隨機(jī)森林模型對比分析
5.3 優(yōu)化模型下的高價值客戶分析
5.4 本章小結(jié)
第6章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
致謝
參考文獻(xiàn)
攻讀學(xué)位期間的研究成果
本文編號:3767978
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景及意義
1.1.1 課題研究背景
1.1.2 課題意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.3 研究內(nèi)容及創(chuàng)新點(diǎn)
1.4 論文框架
第2章 相關(guān)理論技術(shù)綜述
2.1 數(shù)據(jù)挖掘理論
2.1.1 數(shù)據(jù)挖掘的基本理論
2.1.2 數(shù)據(jù)挖掘任務(wù)
2.2 隨機(jī)森林分類算法概述
2.3 聚類算法概念
2.3.1 聚類性能度量
2.3.2 聚類距離計算
2.3.3 原型聚類
2.3.4 層次化聚類
2.3.5 密度聚類
2.4 電信客戶流失概述
2.4.1 客戶流失定義
2.4.2 客戶流失原因
2.4.3 客戶流失預(yù)測面臨的問題和挑戰(zhàn)
2.5 數(shù)據(jù)平衡研究與特征約減
2.5.1 數(shù)據(jù)不平衡問題
2.5.2 數(shù)據(jù)均衡化處理-數(shù)據(jù)層面
2.5.3 數(shù)據(jù)均衡化處理-算法層面
2.5.4 特征約減
2.6 本章小結(jié)
第3章 電信客戶數(shù)據(jù)集相關(guān)處理
3.1 數(shù)據(jù)集采集
3.2 數(shù)據(jù)集分析
3.3 數(shù)據(jù)的清洗及選擇
3.3.1 過濾數(shù)據(jù)
3.3.2 標(biāo)記數(shù)據(jù)
3.3.3 數(shù)據(jù)的特征選擇
3.3.4 數(shù)據(jù)的缺失值處理
3.4 本章小結(jié)
第4章 電信客戶流失模型構(gòu)建
4.1 實驗設(shè)計
4.2 算法模型評估指標(biāo)
4.2.1 混淆矩陣及相關(guān)性能指標(biāo)
4.2.2 ROC曲線和AUC值
4.3 多種算法模型對比
4.4 數(shù)據(jù)平衡化處理
4.4.1 隨機(jī)上采樣方法
4.4.2 少數(shù)類過采樣smote方法
4.4.3 混合采樣smoteEnn方法
4.4.4 基于聚類的融合采樣改進(jìn)方法
4.5 優(yōu)化隨機(jī)森林的設(shè)計及實現(xiàn)
4.5.1 問題的提出
4.5.2 優(yōu)化方案的設(shè)計
4.6 本章小結(jié)
第5章 電信客戶流失預(yù)測結(jié)果分析
5.1 實驗準(zhǔn)備
5.2 優(yōu)化改進(jìn)隨機(jī)森林的結(jié)果對比分析
5.2.1 特征選擇方法的結(jié)果對比分析
5.2.2 多種過采樣方法結(jié)果實證分析
5.2.3 聚類優(yōu)化隨機(jī)森林模型對比分析
5.3 優(yōu)化模型下的高價值客戶分析
5.4 本章小結(jié)
第6章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
致謝
參考文獻(xiàn)
攻讀學(xué)位期間的研究成果
本文編號:3767978
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3767978.html
最近更新
教材專著