基于Spark平臺的通信網(wǎng)用戶流失預(yù)測研究
本文關(guān)鍵詞:基于Spark平臺的通信網(wǎng)用戶流失預(yù)測研究 出處:《中國科學(xué)技術(shù)大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 大數(shù)據(jù) 用戶流失預(yù)測 Spark BP神經(jīng)網(wǎng)絡(luò)算法
【摘要】:近幾年,隨著移動通信技術(shù)的高速發(fā)展,移動通信網(wǎng)的通信用戶數(shù)量急劇增長,通信市場接近飽和,電信運(yùn)營商之間的競爭也日益激烈。同時,已經(jīng)接近飽和的市場使得運(yùn)營商們更加關(guān)注用戶資源流失的問題。對于通信運(yùn)營商而言,通過利用通信用戶使用移動終端時產(chǎn)生的各種數(shù)據(jù),可以預(yù)測出潛在的流失用戶,并對這些潛在的流失用戶進(jìn)行挽留,從而可以維持市場份額和利潤。因此,用戶流失預(yù)測問題的研究對于通信運(yùn)營商而言,有著重要意義。本文從神經(jīng)網(wǎng)絡(luò)算法的訓(xùn)練速度和特征的選取兩個方面來對通信網(wǎng)用戶流失預(yù)測問題進(jìn)行深入研究。首先針對BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)算法進(jìn)行研究。BP神經(jīng)網(wǎng)絡(luò)算法有兩種權(quán)重更新策略,單樣本(Individual)更新和批樣本(Full-Batch)更新。對于Full-Batch BP神經(jīng)網(wǎng)絡(luò)算法,每更新一次權(quán)重需要對樣本集中所有的樣本都進(jìn)行計(jì)算,因此,該算法的訓(xùn)練過程非常耗時,但是它可以并行實(shí)現(xiàn)。對于Individual BP神經(jīng)網(wǎng)絡(luò)算法,每更新一次權(quán)重僅需要對樣本集中的某一個樣本進(jìn)行計(jì)算,因此,該算法的權(quán)重更新很快,但它不能并行實(shí)現(xiàn)。通過結(jié)合Full-Batch BP和Individual BP兩種神經(jīng)網(wǎng)絡(luò)算法,我們提出了基于Spark平臺的Mini-Batch BP神經(jīng)網(wǎng)絡(luò)分布式算法來改善傳統(tǒng)的兩種BP神經(jīng)網(wǎng)絡(luò)算法的性能。實(shí)驗(yàn)證明,和Full-Batch BP神經(jīng)網(wǎng)絡(luò)算法相比,Mini-Batch BP神經(jīng)網(wǎng)絡(luò)分布式算法在不失預(yù)測準(zhǔn)確率的情況下,其訓(xùn)練時間大大減小。接下來,對Mini-Batch BP神經(jīng)網(wǎng)絡(luò)分布式算法的參數(shù)K的取值進(jìn)行探討。通過實(shí)驗(yàn)發(fā)現(xiàn)K的取值對訓(xùn)練時間有較大影響,并且得到了一個針對最優(yōu)的K的取值的定性的結(jié)論。然后針對通信網(wǎng)用戶流失預(yù)測問題的特征選取進(jìn)行研究。首先提取了七個特征,其中六個用戶通話行為特征和一個用戶相關(guān)性特征。用戶相關(guān)性特征是流失用戶給他的鄰居用戶帶來的影響。我們使用激活擴(kuò)散算法去提取這個特征。隨后,分別使用前六個通話行為特征和所有的七個特征來作為訓(xùn)練集進(jìn)行訓(xùn)練并預(yù)測。實(shí)驗(yàn)結(jié)果表明,在加上了一個用戶相關(guān)性特征后,預(yù)測性能會有所提升。接下來,從對用戶之間的相關(guān)性統(tǒng)計(jì)和特征的相對重要性兩個方面證實(shí)了用戶相關(guān)性特征的作用。最后,通過結(jié)合兩個研究點(diǎn),針對用戶流失預(yù)測問題提出了一個快速精確的預(yù)測模型。本論文中使用的Mini-Batch BP神經(jīng)網(wǎng)絡(luò)分布式算法可以在實(shí)際訓(xùn)練和預(yù)測的過程中加快速度,幫助快速及時的預(yù)測出流失用戶。同時,用戶相關(guān)性的特征也能有效提高預(yù)測精度。因此,本文提出的快速精確的預(yù)測模型對于流失用戶預(yù)測的實(shí)際應(yīng)用場景具有重要意義。
[Abstract]:In recent years, with the rapid development of mobile communication technology, the number of communication users in mobile communication networks has increased dramatically, the communication market is nearly saturated, and the competition between telecom operators is becoming increasingly fierce. The already saturated market makes operators pay more attention to the problem of the loss of user resources. For communication operators, the data generated by using mobile terminals through the use of communication users. The potential loss of users can be predicted, and these potential lost users can be retained to maintain market share and profits. This paper studies the problem of user churn prediction in communication network from two aspects of training speed and feature selection of neural network algorithm. Back propagation neural network algorithm for research. BP neural network algorithm has two weight updating strategies. Single sample individual update and batch sample Full-Batch update. For Full-Batch BP neural network algorithm. Every update of the weight needs to calculate all the samples in the sample set, so the training process of the algorithm is very time-consuming. However, it can be implemented in parallel. For the Individual BP neural network algorithm, only one sample in the sample set needs to be calculated for each update of the weight. The weight of the algorithm is updated quickly, but it can not be implemented in parallel, by combining Full-Batch BP and Individual BP neural network algorithm. We propose a Mini-Batch BP neural network distributed algorithm based on Spark platform to improve the performance of two traditional BP neural network algorithms. Compared with Full-Batch BP neural network algorithm, the distributed algorithm of Mini-Batch BP neural network has no loss of prediction accuracy. The training time is greatly reduced. Then, the parameter K of the distributed algorithm of Mini-Batch BP neural network is discussed. It is found that the value of K has a great influence on the training time. A qualitative conclusion is obtained for the optimal K value. Then the feature selection of the communication network user churn prediction problem is studied. Firstly seven features are extracted. Among them, six call behavior features and one user correlation feature. The user correlation feature is the influence of the lost user on his neighbor user. We use the activation diffusion algorithm to extract this feature. The first six call behavior features and all seven features are used as training sets for training and prediction. The experimental results show that after adding a user correlation feature. The prediction performance will be improved. Then, from the two aspects of the correlation statistics and the relative importance of the feature, the function of the user correlation feature is confirmed. Finally, by combining the two research points. This paper presents a fast and accurate prediction model for user churn prediction. Mini-Batch used in this paper. BP neural network distributed algorithm can speed up the process of training and prediction. At the same time, the characteristics of user correlation can also effectively improve the prediction accuracy. The fast and accurate prediction model proposed in this paper is of great significance to the practical application of the lost user prediction.
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TN915.0;TP183
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 蔣晨;發(fā)展和留住核心用戶——電信業(yè)用戶流失分析[J];郵電企業(yè)管理;2001年13期
2 方蕾;;用戶流失引發(fā)網(wǎng)游頹勢 提升服務(wù)是唯一救命稻草[J];IT時代周刊;2006年05期
3 肖勝;;準(zhǔn)確計(jì)算與解讀流失率[J];通信企業(yè)管理;2013年01期
4 馬鳳炯;;以優(yōu)質(zhì)服務(wù)推動郵政企業(yè)持續(xù)發(fā)展[J];中國郵政;2009年09期
5 劉光遠(yuǎn);苑森淼;董立巖;李永麗;;基于進(jìn)化理論的用戶流失預(yù)測分析[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2007年02期
6 莊德尚;武艷;;新疆巴州鐵通 建立流失預(yù)警機(jī)制 減少用戶流失[J];通信企業(yè)管理;2007年12期
7 賴院根;劉礪利;;基于客戶價值的信息用戶流失預(yù)測研究[J];情報(bào)理論與實(shí)踐;2011年07期
8 ;為IPOT witter效仿FACEBOOK[J];工業(yè)設(shè)計(jì);2013年08期
9 馬會迎;;移動互聯(lián)網(wǎng)對用戶流失的影響分析——以人人網(wǎng)為例[J];無線互聯(lián)科技;2014年04期
10 宋向東;;IP業(yè)務(wù)推動NTT固話公司走出困境[J];通信世界;2011年05期
相關(guān)會議論文 前2條
1 車平;施剛;;一種基于決策樹的用戶流失預(yù)測分析方法[A];先進(jìn)制造技術(shù)論壇暨第五屆制造業(yè)自動化與信息化技術(shù)交流會論文集[C];2006年
2 俞宙;莫麗珍;;廣東移動天氣短信用戶流失分析及應(yīng)對[A];第31屆中國氣象學(xué)會年會S10 第四屆氣象服務(wù)發(fā)展論壇——提高水文氣象防災(zāi)減災(zāi)水平,,推動氣象服務(wù)社會化發(fā)展[C];2014年
相關(guān)重要報(bào)紙文章 前10條
1 本報(bào)記者 梓莖;用戶流失:一個不容忽視的問題[N];人民郵電;2003年
2 本報(bào)記者 席大偉;中電信手機(jī)用戶流失緩解 天翼彰顯發(fā)展后勁[N];通信信息報(bào);2009年
3 中興通訊 曾志 楊毅;借助大數(shù)據(jù)盤活“存量市場”[N];通信產(chǎn)業(yè)報(bào);2013年
4 ;用戶流失:帶號轉(zhuǎn)移政策的挑戰(zhàn)[N];人民郵電;2008年
5 ;NTTDoCoMo用戶流失加劇[N];人民郵電;2007年
6 李薇;防用戶流失,AT&T推出“免費(fèi)通信”[N];新華每日電訊;2007年
7 本報(bào)記者 于偉;美國有線和衛(wèi)星電視用戶流失加快寬帶互聯(lián)網(wǎng)替代效應(yīng)凸顯[N];通信信息報(bào);2011年
8 李雷 穆童;焦作聯(lián)通建檔維系防用戶流失[N];人民郵電;2010年
9 薛松;用戶流失 電信網(wǎng)通盼發(fā)移動牌[N];廣州日報(bào);2007年
10 本報(bào)記者 張韜;用戶流失股價反漲 重組預(yù)期支撐電信網(wǎng)通[N];上海證券報(bào);2007年
相關(guān)碩士學(xué)位論文 前8條
1 張迪;移動游戲用戶流失因素分析[D];南京大學(xué);2016年
2 代曉菊;基于數(shù)據(jù)挖掘的電信LTE用戶上網(wǎng)數(shù)據(jù)的用戶流失算法研究[D];西南交通大學(xué);2016年
3 尹丹丹;移動通信網(wǎng)用戶流失預(yù)測[D];中國科學(xué)技術(shù)大學(xué);2016年
4 孔立佳;雙邊平臺應(yīng)對用戶流失問題的發(fā)展戰(zhàn)略研究[D];浙江師范大學(xué);2016年
5 鄭杰文;基于Spark平臺的通信網(wǎng)用戶流失預(yù)測研究[D];中國科學(xué)技術(shù)大學(xué);2017年
6 王娟;聯(lián)通某地市分公司用戶流失分析及對策研究[D];北京郵電大學(xué);2010年
7 曹潔;A電信分公司移動用戶流失分析與對策研究[D];山東大學(xué);2011年
8 楊孝成;基于決策樹的移動通信用戶流失預(yù)警模型研究與實(shí)現(xiàn)[D];中國海洋大學(xué);2014年
本文編號:1391935
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1391935.html