基于Hadoop的并行算法在預(yù)測客戶流失中的研究
本文關(guān)鍵詞:基于Hadoop的并行算法在預(yù)測客戶流失中的研究 出處:《江蘇大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 客戶流失 不平衡數(shù)據(jù) 支持向量機 差分進化 Hadoop
【摘要】:隨著通信業(yè)的高速發(fā)展,用戶數(shù)量經(jīng)過一段時間的爆發(fā)性增長,目前新客戶的增加有所放緩。由于各家運營商間激烈的競爭,導(dǎo)致各家運營商都需要考慮如何降低客戶流失率給自身帶來的影響。因此,如何根據(jù)客戶的歷史數(shù)據(jù)預(yù)測出即將有可能流失的客戶并采取有效挽留措施成為各運營商的迫切需求。預(yù)測出有流失傾向的客戶其實是一個二值分類問題,本文所采用的分類算法是支持向量機——SVM,SVM在二值分類學(xué)習(xí)任務(wù)中有著很好的泛化能力。但是有流失傾向的客戶在整個運營商客戶中只占一小部分,屬于不平衡數(shù)據(jù)。這給傳統(tǒng)的分類算法帶來一定的困難,分類結(jié)果會向數(shù)量多的類偏倚。因此,本文所做的工作是改進SVM算法使其適用于不平衡數(shù)據(jù)。同時,為了更好地適應(yīng)今后對大量數(shù)據(jù)的處理,本文基于Hadoop平臺的MapReduce框架對上述算法進行了并行化處理。SVM通過創(chuàng)建一個線性邊界,對數(shù)據(jù)分類。當(dāng)數(shù)據(jù)線性不可分時,SVM利用核函數(shù)將數(shù)據(jù)從低維映射到高維空間,從而將數(shù)據(jù)變得線性可分。然而在面對不平衡數(shù)據(jù)時,即要研究的數(shù)據(jù)在整個數(shù)據(jù)中占比很小的情況下,SVM會向數(shù)量多的類偏倚,分類效果并不是很好。針對這個問題,本文了提出DE-C-SVM算法,結(jié)合代價敏感算法對錯分為不同類別賦予不同的懲罰因子,對少數(shù)類的錯分賦予較高懲罰因子,以最小化全局錯分代價為目標(biāo),再利用差分進化算法對懲罰因子和核函數(shù)參數(shù)進行優(yōu)化得到最佳參數(shù),從而提升算法的分類性能。本文選取UCI數(shù)據(jù)集中的8種不平衡數(shù)據(jù)作為實驗數(shù)據(jù),并驗證了該算法的有效性。接著對該算法進行了并行化處理,在Hadoop平臺和單機下進行可擴展性實驗以及Hadoop平臺下進行加速比實驗,實驗結(jié)果表明基于Hadoop平臺的算法可以很好地提升數(shù)據(jù)處理效率。最后,本文基于Hadoop平臺搭建了預(yù)測客戶流失模型?蛻魯(shù)據(jù)選取自某運營商,在對客戶數(shù)據(jù)進行預(yù)處理之后運用到預(yù)測客戶流失模型中。實驗結(jié)果顯示該模型在得到較好預(yù)測效果的同時可以提升數(shù)據(jù)處理效率,從而提升運營商決策的效率,對運營商的日常運營有重要的現(xiàn)實意義。
【學(xué)位授予單位】:江蘇大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP311.13
【參考文獻】
相關(guān)期刊論文 前10條
1 夏靖波;韋澤鯤;付凱;陳珍;;云計算中Hadoop技術(shù)研究與應(yīng)用綜述[J];計算機科學(xué);2016年11期
2 劉凌;郭劍;韓崇;;面向不平衡數(shù)據(jù)的模糊支持向量機[J];計算機技術(shù)與發(fā)展;2015年11期
3 魏浩;丁要軍;;一種基于相關(guān)的屬性選擇改進算法[J];計算機應(yīng)用與軟件;2014年08期
4 文波;單甘霖;段修生;;基于KKT條件與殼向量的增量學(xué)習(xí)算法研究[J];計算機科學(xué);2013年03期
5 王紅艷;;一種基于Hadoop架構(gòu)的網(wǎng)絡(luò)安全事件分析方法[J];信息網(wǎng)絡(luò)安全;2013年01期
6 孫凱;王穎龍;;支持向量機中Mercer核函數(shù)的構(gòu)造研究[J];兵工自動化;2008年11期
7 陳果;周伽;;小樣本數(shù)據(jù)的支持向量機回歸模型參數(shù)及預(yù)測區(qū)間研究[J];計量學(xué)報;2008年01期
8 夏國恩;金煒東;;基于支持向量機的客戶流失預(yù)測模型[J];系統(tǒng)工程理論與實踐;2008年01期
9 陳果;;一種實現(xiàn)結(jié)構(gòu)風(fēng)險最小化思想的結(jié)構(gòu)自適應(yīng)神經(jīng)網(wǎng)絡(luò)模型[J];儀器儀表學(xué)報;2007年10期
10 劉繼海;陳曉劍;;SVM模型在信用卡申請管理中的創(chuàng)新應(yīng)用[J];哈爾濱工業(yè)大學(xué)學(xué)報(社會科學(xué)版);2007年04期
相關(guān)博士學(xué)位論文 前6條
1 劉國安;基于云理論的差分進化算法改進及應(yīng)用研究[D];哈爾濱工程大學(xué);2012年
2 康寧;航天測控優(yōu)化調(diào)度模型及其拉格朗日松弛求解算法[D];國防科學(xué)技術(shù)大學(xué);2011年
3 師金鋼;基于MapReduce架構(gòu)的實時數(shù)據(jù)倉庫關(guān)鍵技術(shù)研究[D];東北大學(xué);2011年
4 渠瑜;基于SVM的高不平衡分類技術(shù)研究及其在電信業(yè)的應(yīng)用[D];浙江大學(xué);2010年
5 楊智明;面向不平衡數(shù)據(jù)的支持向量機分類方法研究[D];哈爾濱工業(yè)大學(xué);2009年
6 徐圖;超球體多類支持向量機及其在DDoS攻擊檢測中的應(yīng)用[D];西南交通大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 鄒振宇;基于HDFS的云存儲系統(tǒng)的實現(xiàn)與優(yōu)化[D];中國科學(xué)技術(shù)大學(xué);2016年
2 羅偉;前視車輛檢測及定位算法研究與實現(xiàn)[D];電子科技大學(xué);2015年
3 束詩雨;基于集成學(xué)習(xí)的支持向量機預(yù)測優(yōu)化算法及其應(yīng)用[D];東華大學(xué);2015年
4 謝恒;分布式環(huán)境下計算結(jié)果重用的研究與實現(xiàn)[D];東華大學(xué);2015年
5 豐文安;機場噪聲預(yù)測SVR增量模型研究[D];南京航空航天大學(xué);2015年
6 程偉;基于半監(jiān)督SVM的非平衡學(xué)習(xí)[D];西安電子科技大學(xué);2014年
7 陳旭;基于Hadoop的海量小文件處理技術(shù)研究[D];電子科技大學(xué);2014年
8 孫娜娜;拉格朗日乘子估計在MIMO檢測中的應(yīng)用[D];大連理工大學(xué);2014年
9 李延光;基于Hadoop的海量工程數(shù)據(jù)處理技術(shù)研究[D];北京交通大學(xué);2013年
10 趙淑娟;基于非對稱加權(quán)和核方法的不平衡數(shù)據(jù)集算法研究[D];南京郵電大學(xué);2013年
,本文編號:1323075
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1323075.html