基于深度森林的運營商用戶流失預(yù)測應(yīng)用研究
發(fā)布時間:2021-10-12 20:34
現(xiàn)如今,電信運營商市場趨于飽和,攜號轉(zhuǎn)網(wǎng)政策的全面實施無疑加劇了運營商之間的競爭,如何保留老用戶成為了運營商日常業(yè)務(wù)中最為關(guān)注的問題之一。為此,運營商需要對用戶的流失行為進行精準預(yù)測,從而制定相應(yīng)的策略來維系用戶。在此背景下,本文依托數(shù)據(jù)挖掘技術(shù),對運營商用戶數(shù)據(jù)進行分析處理,基于深度森林算法搭建了用戶流失預(yù)測模型。本文的主要研究工作如下:(1)基于數(shù)據(jù)挖掘技術(shù)對運營商后臺系統(tǒng)獲取的真實用戶數(shù)據(jù)進行分析,利用數(shù)據(jù)清洗、數(shù)據(jù)變換以及基于Relief方法的特征選擇來保證數(shù)據(jù)的科學(xué)有效性。根據(jù)最終確定的16個特征變量,本文基于gcForest深度森林算法搭建了用戶流失預(yù)測模型,并同支持向量機、KNN等常見機器學(xué)習(xí)算法進行了對比,結(jié)果表明,基于gcForest算法的用戶流失預(yù)測模型的表現(xiàn)優(yōu)于傳統(tǒng)機器學(xué)習(xí)算法。(2)改進gcForest算法對于類不平衡數(shù)據(jù)的處理方式,基于EasyEnsemble算法的思想,提出了將SMOTE算法和ENN算法融合到gcForest算法框架之中的OSEEN-gcForest算法,并依此搭建了用戶流失預(yù)測模型。(3)在UCI公開數(shù)據(jù)集上對改進算法進行驗證的基礎(chǔ)上,將改...
【文章來源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 用戶流失預(yù)測模型
1.2.2 不平衡數(shù)據(jù)分類問題
1.2.3 特征選擇
1.3 研究目的及創(chuàng)新點
1.3.1 研究目的
1.3.2 創(chuàng)新點
1.4 本文主要研究內(nèi)容及組織架構(gòu)
第二章 相關(guān)理論及技術(shù)基礎(chǔ)
2.1 用戶流失預(yù)測問題定義
2.2 數(shù)據(jù)挖掘
2.2.1 數(shù)據(jù)挖掘概述
2.2.2 數(shù)據(jù)挖掘流程
2.3 不平衡數(shù)據(jù)分類問題的處理方法
2.3.1 數(shù)據(jù)層面--重采樣技術(shù)
2.3.2 算法層面
2.4 常見機器學(xué)習(xí)方法
2.4.1 邏輯回歸
2.4.2 支持向量機
2.4.3 決策樹
2.4.4 KNN
2.4.5 隨機森林
2.5 模型選擇及參數(shù)優(yōu)化
2.6 本章小結(jié)
第三章 實驗數(shù)據(jù)集及特征工程
3.1 實驗數(shù)據(jù)集
3.2 數(shù)據(jù)預(yù)處理
3.2.1 數(shù)據(jù)清洗
3.2.2 數(shù)據(jù)變換
3.3 特征工程
3.3.1 特征構(gòu)建
3.3.2 特征提取
3.3.3 特征選擇
3.4 模型評價指標
3.4.1 準確率、召回率、F1-score
3.4.2 ROC曲線及AUC值
3.5 本章小結(jié)
第四章 基于OSEEN-gcForest算法的用戶流失預(yù)測模型
4.1 gcForest算法
4.1.1 多粒度滑動窗口
4.1.2 級聯(lián)森林
4.2 基于EasyEnsemble思想的OSEEN-gcForest算法
4.2.1 EasyEnsemble算法
4.2.2 SMOTE算法
4.2.3 ENN降噪
4.2.4 OSEEN-gcForest算法
4.3 實驗結(jié)果與分析
4.3.1 基于公開數(shù)據(jù)集
4.3.2 基于運營商用戶流失數(shù)據(jù)集
4.4 本章小結(jié)
第五章 總結(jié)與展望
5.1 本文工作總結(jié)
5.2 未來研究工作展望
參考文獻
致謝
學(xué)位論文評閱及答辯情況表
【參考文獻】:
期刊論文
[1]基于Logistic回歸的通信業(yè)客戶流失預(yù)測與挽留研究[J]. 付杰,方芳,嚴克文. 鄂州大學(xué)學(xué)報. 2015(06)
[2]基于貝葉斯網(wǎng)絡(luò)的客戶流失分析研究[J]. 朱志勇,徐長梅,劉志兵,胡晨剛. 計算機工程與科學(xué). 2013(03)
[3]支持向量機在電信客戶流失預(yù)測中的應(yīng)用研究[J]. 王觀玉,郭勇. 計算機仿真. 2011(04)
[4]基于數(shù)據(jù)挖掘技術(shù)的電信客戶保有研究[J]. 王少芬. 計算機時代. 2007(09)
[5]基于改進支持向量機的客戶流失分析研究[J]. 趙宇,李兵,李秀,劉文煌,任守榘. 計算機集成制造系統(tǒng). 2007(01)
碩士論文
[1]基于不平衡數(shù)據(jù)集的客戶流失預(yù)測研究[D]. 楊智.西南交通大學(xué) 2011
本文編號:3433252
【文章來源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 用戶流失預(yù)測模型
1.2.2 不平衡數(shù)據(jù)分類問題
1.2.3 特征選擇
1.3 研究目的及創(chuàng)新點
1.3.1 研究目的
1.3.2 創(chuàng)新點
1.4 本文主要研究內(nèi)容及組織架構(gòu)
第二章 相關(guān)理論及技術(shù)基礎(chǔ)
2.1 用戶流失預(yù)測問題定義
2.2 數(shù)據(jù)挖掘
2.2.1 數(shù)據(jù)挖掘概述
2.2.2 數(shù)據(jù)挖掘流程
2.3 不平衡數(shù)據(jù)分類問題的處理方法
2.3.1 數(shù)據(jù)層面--重采樣技術(shù)
2.3.2 算法層面
2.4 常見機器學(xué)習(xí)方法
2.4.1 邏輯回歸
2.4.2 支持向量機
2.4.3 決策樹
2.4.4 KNN
2.4.5 隨機森林
2.5 模型選擇及參數(shù)優(yōu)化
2.6 本章小結(jié)
第三章 實驗數(shù)據(jù)集及特征工程
3.1 實驗數(shù)據(jù)集
3.2 數(shù)據(jù)預(yù)處理
3.2.1 數(shù)據(jù)清洗
3.2.2 數(shù)據(jù)變換
3.3 特征工程
3.3.1 特征構(gòu)建
3.3.2 特征提取
3.3.3 特征選擇
3.4 模型評價指標
3.4.1 準確率、召回率、F1-score
3.4.2 ROC曲線及AUC值
3.5 本章小結(jié)
第四章 基于OSEEN-gcForest算法的用戶流失預(yù)測模型
4.1 gcForest算法
4.1.1 多粒度滑動窗口
4.1.2 級聯(lián)森林
4.2 基于EasyEnsemble思想的OSEEN-gcForest算法
4.2.1 EasyEnsemble算法
4.2.2 SMOTE算法
4.2.3 ENN降噪
4.2.4 OSEEN-gcForest算法
4.3 實驗結(jié)果與分析
4.3.1 基于公開數(shù)據(jù)集
4.3.2 基于運營商用戶流失數(shù)據(jù)集
4.4 本章小結(jié)
第五章 總結(jié)與展望
5.1 本文工作總結(jié)
5.2 未來研究工作展望
參考文獻
致謝
學(xué)位論文評閱及答辯情況表
【參考文獻】:
期刊論文
[1]基于Logistic回歸的通信業(yè)客戶流失預(yù)測與挽留研究[J]. 付杰,方芳,嚴克文. 鄂州大學(xué)學(xué)報. 2015(06)
[2]基于貝葉斯網(wǎng)絡(luò)的客戶流失分析研究[J]. 朱志勇,徐長梅,劉志兵,胡晨剛. 計算機工程與科學(xué). 2013(03)
[3]支持向量機在電信客戶流失預(yù)測中的應(yīng)用研究[J]. 王觀玉,郭勇. 計算機仿真. 2011(04)
[4]基于數(shù)據(jù)挖掘技術(shù)的電信客戶保有研究[J]. 王少芬. 計算機時代. 2007(09)
[5]基于改進支持向量機的客戶流失分析研究[J]. 趙宇,李兵,李秀,劉文煌,任守榘. 計算機集成制造系統(tǒng). 2007(01)
碩士論文
[1]基于不平衡數(shù)據(jù)集的客戶流失預(yù)測研究[D]. 楊智.西南交通大學(xué) 2011
本文編號:3433252
本文鏈接:http://sikaile.net/guanlilunwen/sjfx/3433252.html
最近更新
教材專著