基于XGBoost的Bagging方法的電信客戶流失預(yù)測應(yīng)用研究
發(fā)布時間:2023-03-26 17:27
近幾年來,隨著移動通訊行業(yè)的不斷發(fā)展,運營商對客戶的管理更加重視。根據(jù)相關(guān)研究表明,開發(fā)一個新用戶的成本是挽留一個老用戶成本的六倍。因此準確預(yù)測流失客戶對運營商來說非常關(guān)鍵。目前,運營商已經(jīng)積累了大量的用戶信息和行為信息,電信大數(shù)據(jù)可以使客戶流失預(yù)測變得更容易。但是總體來說,仍存在一下幾個問題:數(shù)據(jù)體量龐大且來自異構(gòu)數(shù)據(jù)源帶來的數(shù)據(jù)完整性一致性方面問題;電信用戶數(shù)據(jù)維度過高;且流失用戶與非流失用戶之間在數(shù)量上占比極不均衡。這給客戶流失預(yù)測的研究帶來了困難。在本次電信客戶流失預(yù)測的研究中,針對以上問題,提出了如下解決方案:通過Apache Hadoop和Spark的分布式架構(gòu)的大數(shù)據(jù)平臺整合了來自異構(gòu)數(shù)據(jù)源的電信運營數(shù)據(jù);通過圖論、自然語言、棧式自動編碼神經(jīng)網(wǎng)絡(luò)等方法挖掘了電信用戶大數(shù)據(jù)下隱藏的特征信息;對比了幾種針對類不平衡數(shù)據(jù)集的采樣方法和多種采樣方式混合的方法;提出基于XGBoost的Bagging方法結(jié)合混合采樣方法的融合模型,充分利用了不平衡數(shù)據(jù)集,構(gòu)建了二分類模型對電信用戶進行流失預(yù)測。最終在實驗中,通過常用的模型評價指標精確率、召回率、AUC等,并結(jié)合流失客戶挽留活動的期望...
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 不平衡類的算法研究現(xiàn)狀
1.4 研究內(nèi)容
1.5 論文組織結(jié)構(gòu)
第二章 相關(guān)理論介紹與技術(shù)論述
2.1 移動通信行業(yè)客戶流失的概述
2.1.1 客戶流失定義
2.1.2 客戶流失預(yù)測面臨的問題和挑戰(zhàn)
2.2 數(shù)據(jù)樣本處理方法
2.2.1 樣本數(shù)據(jù)缺失值處理
2.2.2 樣本特征值標準化處理
2.3 不平衡分類問題的研究
2.3.1 基于數(shù)據(jù)層面的類平衡化方法
2.3.2 基于算法層面的類平衡化方法
2.3.3 基于集成算法層面的類平衡化方法
2.4 驗證方法
2.5 本章小結(jié)
第三章 客戶流失預(yù)測模型
3.1 數(shù)據(jù)基礎(chǔ)和平臺搭建
3.2 數(shù)據(jù)預(yù)處理
3.3 類不平衡樣本處理
3.3.1 隨機下采樣方法和SMOTE
3.3.2 SMOTE和 Tomek-links方法
3.4 特征工程
3.3.1 基于圖的特征
3.3.2 自然語言相關(guān)特征
3.3.3 特征選擇
3.5 基于xgboost的 bagging模型
3.6 預(yù)流失用戶挽留活動
3.7 本章小結(jié)
第四章 實驗設(shè)計與實驗結(jié)果分析
4.1 實驗環(huán)境
4.2 實驗評價指標
4.3 實驗設(shè)計及結(jié)果分析
4.4 本章小結(jié)
第五章 期望利潤評價的集成學習模型驗證
5.1 期望利潤最大評價指標
5.2 仿真實驗與實驗分析
5.3 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻
攻讀碩士學位期間取得的研究成果
致謝
附件
本文編號:3771383
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 不平衡類的算法研究現(xiàn)狀
1.4 研究內(nèi)容
1.5 論文組織結(jié)構(gòu)
第二章 相關(guān)理論介紹與技術(shù)論述
2.1 移動通信行業(yè)客戶流失的概述
2.1.1 客戶流失定義
2.1.2 客戶流失預(yù)測面臨的問題和挑戰(zhàn)
2.2 數(shù)據(jù)樣本處理方法
2.2.1 樣本數(shù)據(jù)缺失值處理
2.2.2 樣本特征值標準化處理
2.3 不平衡分類問題的研究
2.3.1 基于數(shù)據(jù)層面的類平衡化方法
2.3.2 基于算法層面的類平衡化方法
2.3.3 基于集成算法層面的類平衡化方法
2.4 驗證方法
2.5 本章小結(jié)
第三章 客戶流失預(yù)測模型
3.1 數(shù)據(jù)基礎(chǔ)和平臺搭建
3.2 數(shù)據(jù)預(yù)處理
3.3 類不平衡樣本處理
3.3.1 隨機下采樣方法和SMOTE
3.3.2 SMOTE和 Tomek-links方法
3.4 特征工程
3.3.1 基于圖的特征
3.3.2 自然語言相關(guān)特征
3.3.3 特征選擇
3.5 基于xgboost的 bagging模型
3.6 預(yù)流失用戶挽留活動
3.7 本章小結(jié)
第四章 實驗設(shè)計與實驗結(jié)果分析
4.1 實驗環(huán)境
4.2 實驗評價指標
4.3 實驗設(shè)計及結(jié)果分析
4.4 本章小結(jié)
第五章 期望利潤評價的集成學習模型驗證
5.1 期望利潤最大評價指標
5.2 仿真實驗與實驗分析
5.3 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻
攻讀碩士學位期間取得的研究成果
致謝
附件
本文編號:3771383
本文鏈接:http://sikaile.net/guanlilunwen/sjfx/3771383.html
最近更新
教材專著