基于數(shù)據(jù)挖掘技術構建電信4G客戶預測模型的研究
發(fā)布時間:2017-06-10 14:02
本文關鍵詞:基于數(shù)據(jù)挖掘技術構建電信4G客戶預測模型的研究,由筆耕文化傳播整理發(fā)布。
【摘要】:2013年12月,中國正式進入4G時代。與此同時,運營商之間的4G客戶競爭也進入白熱化階段。隨著數(shù)據(jù)挖掘技術的廣泛應用和運營商積累的越來越多的數(shù)據(jù),如何利用數(shù)據(jù)挖掘技術手段處理電信大數(shù)據(jù),受到越來愈多人的關注與研究。4G時代,針對電信業(yè)客戶關系管理的需要,在現(xiàn)有的數(shù)據(jù)倉庫技術和數(shù)據(jù)挖掘技術基礎上,幫助運營商找出潛在的4G客戶,擴大其市場占有份額,對電信運營商來講具有很重大的現(xiàn)實意義和經(jīng)濟效益。本文研究的4G客戶預測問題正是在這樣一個時代背景下旨在為擴大運營商的4G客戶規(guī)模而提出的。本文所采用的數(shù)據(jù)集來自于某電信公司。最主要的目標是建立一個準確率高的、實用性強的電信4G客戶預測模型。模型的建立以數(shù)據(jù)挖掘的CRISP-DM方法論為基礎。首先,在模型構建的準備階段,本文對原始的電信數(shù)據(jù)進行了集成、清洗、規(guī)約、轉(zhuǎn)換、分割等一系列的數(shù)據(jù)預處理工作,初步篩選并構建了模型的預測指標體系。然后,建立決策樹、Logistics回歸、SVM這三種4G客戶預測模型,經(jīng)過多次的模型訓練與對比,最終選擇出效果最好的決策樹模型應用于電信4G客戶預測。在模型應用階段,參照預測模型計算出的所有客戶得分情況,重點關注的對象是那些得分較高的客戶,對這部分潛在的4G客戶進行有針對性的業(yè)務推廣和精確營銷,從而達到擴大4G客戶規(guī)模的目的。最后,本文還搭建了一個具有9個節(jié)點的Hadoop集群,實現(xiàn)了決策樹C4.5算法的并行化,有效地解決了單機無法處理大規(guī)模數(shù)據(jù)的問題,驗證了Hadoop平臺在處理電信大數(shù)據(jù)方面的高效性與可擴展性。本文是把數(shù)據(jù)挖掘理論和實際項目相結(jié)合一個典型案例,利用數(shù)據(jù)挖掘的相關技術建立了電信4G客戶預測模型。結(jié)果表明,所建立的模型是基本符合電信實際需求的,能夠提供有價值的預測信息給相關的決策人員和市場營銷人員,對電信運營商擴大4G客戶規(guī)模具有重大的現(xiàn)實意義。
【關鍵詞】:數(shù)據(jù)挖掘 電信大數(shù)據(jù) 4G客戶預測模型 決策樹算法 Logistic回歸 SVM算法 Hadoop
【學位授予單位】:蘭州大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:F0;TP311.13
【目錄】:
- 中文摘要3-4
- Abstract4-8
- 第一章 緒論8-15
- 1.1 研究背景8-11
- 1.1.1 大數(shù)據(jù)時代運營商面臨的機遇與挑戰(zhàn)8-9
- 1.1.2 數(shù)據(jù)挖掘技術的興起與應用9-10
- 1.1.3 數(shù)據(jù)挖掘技術在電信業(yè)中的應用10-11
- 1.2 國內(nèi)外研究現(xiàn)狀11-13
- 1.2.1 國外研究現(xiàn)狀11-12
- 1.2.2 國內(nèi)研究現(xiàn)狀12-13
- 1.3 本文主要工作13-14
- 1.4 論文組織機構14-15
- 第二章 相關理論技術概述15-23
- 2.1 數(shù)據(jù)挖掘過程15-16
- 2.2 數(shù)據(jù)挖掘技術16-20
- 2.2.1 決策樹16-18
- 2.2.2 Logistic回歸技術18-19
- 2.2.3 支持向量機SVM19-20
- 2.3 Hadoop介紹20-23
- 2.3.1 分布式文件系統(tǒng)HDFS20-21
- 2.3.2 分布式計算框架MapReduce21-23
- 第三章 模型的樣本數(shù)據(jù)的準備23-42
- 3.1 模型的商業(yè)理解24-25
- 3.2 數(shù)據(jù)理解25-28
- 3.2.1 確定分析窗口25-26
- 3.2.2 確定相關數(shù)據(jù)字段26-28
- 3.3 數(shù)據(jù)準備28-42
- 3.3.1 數(shù)據(jù)集成29-30
- 3.3.2 數(shù)據(jù)清洗30-32
- 3.3.3 數(shù)據(jù)規(guī)約32-34
- 3.3.4 數(shù)據(jù)轉(zhuǎn)換34-35
- 3.3.5 數(shù)據(jù)的平衡問題35-36
- 3.3.6 數(shù)據(jù)預測指標體系的構建36-40
- 3.3.7 拆分數(shù)據(jù)集40-42
- 第四章 預測模型的建立、評估及應用42-48
- 4.1 預測模型的建立42-43
- 4.2 模型評估43-46
- 4.3 模型的部署與應用46-48
- 第五章 基于Hadoop平臺構建電信4G客戶預測模型48-53
- 5.1 Hadoop平臺描述48-49
- 5.2 基于MapReduce實現(xiàn)決策樹C4.5的并行化49-51
- 5.3 實驗結(jié)果對比分析51-53
- 第六章 總結(jié)與展望53-55
- 6.1 本文總結(jié)53-54
- 6.2 未來工作的展望54-55
- 參考文獻55-58
- 研究生期間參與的項目58-59
- 致謝59
【引證文獻】
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 王超;辛陽;;C5.0分類算法在網(wǎng)絡入侵檢測中的應用[A];第十三屆中國科協(xié)年會第11分會場-中國智慧城市論壇論文集[C];2011年
本文關鍵詞:基于數(shù)據(jù)挖掘技術構建電信4G客戶預測模型的研究,,由筆耕文化傳播整理發(fā)布。
本文編號:438701
本文鏈接:http://sikaile.net/jingjilunwen/jingjililun/438701.html
最近更新
教材專著