基于數(shù)據(jù)挖掘的上海電信分公司客戶流失問題實(shí)證研究
本文關(guān)鍵詞:基于數(shù)據(jù)挖掘的上海電信分公司客戶流失問題實(shí)證研究
更多相關(guān)文章: 數(shù)據(jù)挖掘 聚類算法 集成算法 電信數(shù)據(jù) R語言
【摘要】:客戶流失問題一直是電信公司最重視的問題之一,客戶的流失會對企業(yè)造成極大的損失。數(shù)據(jù)挖掘在電信行業(yè)運(yùn)用越來越廣泛,挖掘的方法逐漸豐富,挖掘的深度也正在逐步加深。為減少客戶流失,基于數(shù)據(jù)挖掘知識的精準(zhǔn)營銷備受電信企業(yè)的重視。數(shù)據(jù)量的大爆發(fā)使得數(shù)據(jù)挖掘成為企業(yè)競逐市場的重要手段,本文正式基于此背景下研究電信行業(yè)數(shù)據(jù)挖掘的方法。本文著重研究基于R語言實(shí)現(xiàn)電信數(shù)據(jù)預(yù)處理技術(shù)、高維不平衡數(shù)據(jù)的分類算法、流失客戶聚類技術(shù)并分析流失原因。電信行業(yè)數(shù)據(jù)的高維度性和不平衡性是造成模型不穩(wěn)定,準(zhǔn)確率不高的一個重要原因,一直困擾著挖掘工作者。本文重點(diǎn)研究了處理高維不平衡電信數(shù)據(jù)和建立客戶流失分類模型中的Bagging和Ada Boost以及隨機(jī)森林算法。實(shí)證結(jié)果表明,Ada Boost分類模型較Bagging分類模型的覆蓋率提高6%。優(yōu)化后的隨機(jī)森林模型誤判率由原來的86.96%降低到39.64%,此時模型處于最優(yōu)狀態(tài)。本文研究了流失客戶的指標(biāo)特征,對比分析了流失客戶在通信指標(biāo)上與非流失客戶的區(qū)別,分析了總通話次數(shù)、總計(jì)費(fèi)時長、上網(wǎng)總流量等通信指標(biāo)對流失用戶起到關(guān)鍵性作用,最后從用戶使用的套餐系列角度具體分析了流失原因,為后續(xù)模型研究和公司決策提供了依據(jù)和方向。
【關(guān)鍵詞】:數(shù)據(jù)挖掘 聚類算法 集成算法 電信數(shù)據(jù) R語言
【學(xué)位授予單位】:重慶大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:F274;F626
【目錄】:
- 中文摘要3-4
- 英文摘要4-7
- 1 緒論7-10
- 1.1 論文研究背景7
- 1.2 國內(nèi)外研究現(xiàn)狀7-8
- 1.2.1 國外研究現(xiàn)狀7-8
- 1.2.2 國內(nèi)研究現(xiàn)狀8
- 1.3 本文研究目的與內(nèi)容結(jié)構(gòu)8-10
- 1.3.1 研究目的8-9
- 1.3.2 研究內(nèi)容結(jié)構(gòu)9-10
- 2 數(shù)據(jù)的預(yù)處理技術(shù)10-21
- 2.1 數(shù)據(jù)清洗10-11
- 2.1.1 NA處理10-11
- 2.1.2 噪聲去除11
- 2.1.3 數(shù)據(jù)一致性檢測11
- 2.2 數(shù)據(jù)集成11-12
- 2.3 數(shù)據(jù)轉(zhuǎn)換12
- 2.4 數(shù)據(jù)歸約12
- 2.5 數(shù)據(jù)理解12
- 2.6 數(shù)據(jù)預(yù)處理實(shí)例分析12-21
- 2.6.1 缺失數(shù)據(jù)的檢查14-16
- 2.6.2 相關(guān)性分析16-17
- 2.6.3 主成分分析(PCA)17-19
- 2.6.4 探索性分析19-21
- 3 數(shù)據(jù)挖掘技術(shù)與工具21-29
- 3.1 聚類方法21-25
- 3.1.1 K-Means(K-均值聚類法)21
- 3.1.2 DBSCAN(基于密度聚類)21-22
- 3.1.3 K-Medoids(K-中心點(diǎn)聚類)22
- 3.1.4 EM(期望最大化聚類)22
- 3.1.5 兩步聚類原理22-23
- 3.1.6 聚類實(shí)例分析23-25
- 3.2 分類方法25
- 3.3 關(guān)聯(lián)規(guī)則25
- 3.4 時間序列25-26
- 3.5 數(shù)據(jù)挖掘的一般過程26
- 3.6 R語言-數(shù)據(jù)挖掘工具26-29
- 4 客戶流失分類模型研究29-46
- 4.1 基于數(shù)據(jù)樣本的集成學(xué)習(xí)29-30
- 4.2 基于特征的集成學(xué)習(xí)30-31
- 4.3 高維不平衡數(shù)據(jù)實(shí)驗(yàn)研究31-46
- 4.3.1 Bagging算法實(shí)現(xiàn)32-35
- 4.3.2 基于特征選擇的Adaboost算法實(shí)現(xiàn)35-37
- 4.3.3 隨機(jī)森林的算法實(shí)現(xiàn)37-46
- 5 用戶流失分析與研究46-58
- 5.1 套餐系列(等級)分析46-48
- 5.2 通信指標(biāo)特征研究48-50
- 5.3 指標(biāo)間相關(guān)性分析50-51
- 5.4 流失指標(biāo)的因子分析51-54
- 5.5 流失用戶聚類研究54-56
- 5.6 流失原因分析56-58
- 6 結(jié)論與展望58-60
- 6.1 本文總結(jié)58-59
- 6.2 展望59-60
- 致謝60-61
- 參考文獻(xiàn)61-62
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 韓海萌;信息時代的指南針——數(shù)據(jù)挖掘[J];江蘇統(tǒng)計(jì);2002年05期
2 韓雙霞;李萍;;數(shù)據(jù)挖掘:構(gòu)筑企業(yè)競爭優(yōu)勢[J];金卡工程;2002年08期
3 李菁菁,邵培基,黃亦瀟;數(shù)據(jù)挖掘在中國的現(xiàn)狀和發(fā)展研究[J];管理工程學(xué)報(bào);2004年03期
4 ;中國科學(xué)院數(shù)據(jù)挖掘與知識管理學(xué)術(shù)研討會在京舉行[J];管理評論;2004年07期
5 李峰;數(shù)據(jù)挖掘在企業(yè)中的應(yīng)用[J];商場現(xiàn)代化;2004年15期
6 魏瑜,陸靜;數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)的關(guān)系淺析[J];沿海企業(yè)與科技;2005年09期
7 羅錦珠;數(shù)據(jù)挖掘與知識管理的結(jié)合應(yīng)用[J];技術(shù)經(jīng)濟(jì);2005年10期
8 袁衛(wèi),林楨順,謝邦昌;工業(yè)領(lǐng)域的數(shù)據(jù)挖掘——改善流程,提高效率[J];中國統(tǒng)計(jì);2005年04期
9 王琳;;統(tǒng)計(jì)學(xué)方法在數(shù)據(jù)挖掘中的應(yīng)用[J];當(dāng)代經(jīng)理人;2006年02期
10 劉曉華;;數(shù)據(jù)挖掘在商業(yè)中的應(yīng)用[J];商場現(xiàn)代化;2006年34期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 史東輝;蔡慶生;張春陽;;一種新的數(shù)據(jù)挖掘多策略方法研究[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報(bào)告篇)[C];2000年
2 張弦;;數(shù)據(jù)挖掘在農(nóng)業(yè)中的應(yīng)用[A];紀(jì)念中國農(nóng)業(yè)工程學(xué)會成立30周年暨中國農(nóng)業(yè)工程學(xué)會2009年學(xué)術(shù)年會(CSAE 2009)論文集[C];2009年
3 魏順平;;教育數(shù)據(jù)挖掘:現(xiàn)狀與趨勢[A];信息化、工業(yè)化融合與服務(wù)創(chuàng)新——第十三屆計(jì)算機(jī)模擬與信息技術(shù)學(xué)術(shù)會議論文集[C];2011年
4 關(guān)清平;沉培輝;;概率網(wǎng)絡(luò)在數(shù)據(jù)挖掘上的應(yīng)用[A];科技、工程與經(jīng)濟(jì)社會協(xié)調(diào)發(fā)展——中國科協(xié)第五屆青年學(xué)術(shù)年會論文集[C];2004年
5 丁瑾;;基于Web數(shù)據(jù)挖掘的綜述[A];山西省科學(xué)技術(shù)情報(bào)學(xué)會學(xué)術(shù)年會論文集[C];2004年
6 聶茹;田森平;;Web數(shù)據(jù)挖掘及其在電子商務(wù)中的應(yīng)用[A];中南六。▍^(qū))自動化學(xué)會第24屆學(xué)術(shù)年會會議論文集[C];2006年
7 李菊;王軍;;數(shù)據(jù)挖掘在客戶關(guān)系管理的應(yīng)用[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展·2007——全國第18屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會議論文集[C];2007年
8 肖陽;李啟賢;;數(shù)據(jù)挖掘在中國鋼鐵行業(yè)中的應(yīng)用[A];中國計(jì)量協(xié)會冶金分會2012年會暨能源計(jì)量與節(jié)能降耗經(jīng)驗(yàn)交流會論文集[C];2012年
9 楊磊;王貴成;汪勇;張占勝;;SQL Server 2005在數(shù)據(jù)挖掘中的應(yīng)用[A];2009年中國智能自動化會議論文集(第二分冊)[C];2009年
10 謝中;邱玉輝;;面向商務(wù)網(wǎng)站有效性的數(shù)據(jù)挖掘方法[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2001年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 本報(bào)記者褚寧;數(shù)據(jù)挖掘如“挖金”[N];解放日報(bào);2002年
2 周蓉蓉;數(shù)據(jù)挖掘需要點(diǎn)想像力[N];計(jì)算機(jī)世界;2004年
3 □中國電信股份有限公司北京研究院 張舒博 □北京郵電大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 牛琨;走出數(shù)據(jù)挖掘的誤區(qū)[N];人民郵電;2006年
4 《網(wǎng)絡(luò)世界》記者 王瑩;數(shù)據(jù)挖掘保險(xiǎn)業(yè)的新藍(lán)海[N];網(wǎng)絡(luò)世界;2012年
5 劉俊麗;基于地理化的網(wǎng)絡(luò)數(shù)據(jù)挖掘與分析提升投資有效性[N];人民郵電;2014年
6 本報(bào)記者 連曉東;數(shù)據(jù)挖掘:金融信息化新熱點(diǎn)[N];中國電子報(bào);2002年
7 本報(bào)記者 鳳小華 朱仁康;“數(shù)字挖掘軟件”引領(lǐng)中國信息化新浪潮[N];中國電子報(bào);2003年
8 本報(bào)記者 史延廷;“成功企業(yè)數(shù)據(jù)挖掘暨數(shù)量化管理論壇”在京舉辦[N];中國旅游報(bào);2002年
9 朱小寧;數(shù)據(jù)挖掘:信息化戰(zhàn)爭的基礎(chǔ)工程[N];解放軍報(bào);2005年
10 本報(bào)記者 王小平;從“大集中”走向數(shù)據(jù)挖掘[N];金融時報(bào);2002年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 于自強(qiáng);海量流數(shù)據(jù)挖掘相關(guān)問題研究[D];山東大學(xué);2015年
2 張馨;全基因組SNP芯片應(yīng)用于CNV和L0H分析的軟件比對與數(shù)據(jù)挖掘[D];復(fù)旦大學(xué);2011年
3 彭計(jì)紅;基于數(shù)據(jù)挖掘的癡呆中醫(yī)證的研究[D];南京中醫(yī)藥大學(xué);2015年
4 李秋虹;基于MapReduce的大規(guī)模數(shù)據(jù)挖掘技術(shù)研究[D];復(fù)旦大學(xué);2013年
5 鄔文帥;基于多目標(biāo)決策的數(shù)據(jù)挖掘方法評估與應(yīng)用[D];電子科技大學(xué);2015年
6 謝邦彥;整合數(shù)據(jù)挖掘與TRIZ理論的質(zhì)量管理方法研究[D];首都經(jīng)濟(jì)貿(mào)易大學(xué);2010年
7 李榮;生物信息數(shù)據(jù)挖掘若干關(guān)鍵問題研究與應(yīng)用[D];復(fù)旦大學(xué);2004年
8 李玉華;面向服務(wù)的數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2006年
9 吳少智;時間序列數(shù)據(jù)挖掘在生物醫(yī)學(xué)中的應(yīng)用研究[D];電子科技大學(xué);2010年
10 王珊珊;知識指導(dǎo)下的數(shù)據(jù)挖掘在新聞和金融工具之間因果關(guān)系上的應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 林仁紅;基于數(shù)據(jù)挖掘的機(jī)遇識別與評價(jià)研究[D];首都經(jīng)濟(jì)貿(mào)易大學(xué);2007年
2 張彥俊;游戲運(yùn)營中的數(shù)據(jù)挖掘[D];復(fù)旦大學(xué);2011年
3 焦亞召;基于多核函數(shù)FCM算法在數(shù)據(jù)挖掘聚類中的應(yīng)用研究[D];昆明理工大學(xué);2015年
4 王杰鋒;物聯(lián)網(wǎng)能耗數(shù)據(jù)智能分析及其應(yīng)用平臺設(shè)計(jì)[D];江南大學(xué);2015年
5 劉學(xué)建;數(shù)據(jù)挖掘在電子商務(wù)推薦系統(tǒng)中的應(yīng)用研究[D];昆明理工大學(xué);2015年
6 戴陽陽;基于數(shù)據(jù)挖掘的金融時間序列預(yù)測研究與應(yīng)用[D];江南大學(xué);2015年
7 石思優(yōu);基于主題模型的醫(yī)療數(shù)據(jù)挖掘研究[D];廣東技術(shù)師范學(xué)院;2015年
8 陳丹;移動互聯(lián)網(wǎng)信令挖掘?qū)崿F(xiàn)智慧營銷的設(shè)計(jì)與實(shí)現(xiàn)應(yīng)用研究[D];華南理工大學(xué);2015年
9 陳思;基于數(shù)據(jù)挖掘的大學(xué)生客戶識別模型的研究[D];昆明理工大學(xué);2015年
10 位長帥;基于客戶數(shù)據(jù)挖掘的電信客戶關(guān)系管理研究[D];西南交通大學(xué);2015年
,本文編號:845494
本文鏈接:http://sikaile.net/jingjilunwen/xxjj/845494.html