天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Spark分布式計算框架的IPTV用戶投訴預(yù)測系統(tǒng)設(shè)計與實現(xiàn)

發(fā)布時間:2020-05-19 23:49
【摘要】:隨著互聯(lián)網(wǎng)時代的發(fā)展,交互式網(wǎng)絡(luò)電視(IPTV)被運營商、互聯(lián)網(wǎng)企業(yè)等迅速推出,但由于IPTV業(yè)務(wù)目前處于推廣階段,存在不少應(yīng)用問題,尤其是用戶體驗不佳。為了提高用戶體驗質(zhì)量并適應(yīng)大數(shù)據(jù)時代的到來,運營商希望利用IPTV機(jī)頂盒采集到的關(guān)鍵績效指標(biāo)(KPI)數(shù)據(jù)建立用戶投訴預(yù)測系統(tǒng),即通過對KPI數(shù)據(jù)進(jìn)行數(shù)據(jù)分析并建立投訴預(yù)測模型,實時預(yù)測出潛在的投訴用戶,方便運營商的運維人員及時聯(lián)系相關(guān)用戶并及時維修,從而提高用戶的體驗質(zhì)量。本文從IPTV應(yīng)用背景出發(fā),結(jié)合報障指標(biāo)數(shù)據(jù)篩選、用戶投訴數(shù)據(jù)建模、投訴預(yù)測系統(tǒng)設(shè)計和實現(xiàn)三個部分,展開一系列的研究。具體研究內(nèi)容如下:(1)首先,針對IPTV的KPI數(shù)據(jù)進(jìn)行初步的數(shù)據(jù)預(yù)處理與指標(biāo)的初步篩選,然后基于PCA降維法提出相關(guān)性指標(biāo)計量值分析法—RePCA,對降維得到的指標(biāo)數(shù)據(jù)進(jìn)行反向分析,從而挑選出對投訴預(yù)測結(jié)果影響最大的指標(biāo)。其目的主要是在初步指標(biāo)篩選的基礎(chǔ)上進(jìn)一步減少數(shù)據(jù)的指標(biāo)數(shù)量,從而能夠減少預(yù)測分類處理時的計算量,使投訴預(yù)測系統(tǒng)具有實時性。(2)其次,針對IPTV機(jī)頂盒KPI數(shù)據(jù)的非均衡性特點,論文從算法層面分別提出EMCNE方法和SVM-KNN方法進(jìn)行數(shù)據(jù)建模。在EMCNE方法中,著重解決了未報障(投訴)數(shù)據(jù)類內(nèi)不均衡問題,并把測試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)之間的空間特性考慮到了集成規(guī)則之中;在SVM-KNN方法中,使用了數(shù)據(jù)的空間距離的特性和報障數(shù)據(jù)權(quán)重相結(jié)合的方法來解決KPI數(shù)據(jù)的非均衡問題。實驗結(jié)果表明,上述兩種方法與傳統(tǒng)的集成規(guī)則相比,在性能評判指標(biāo)使用AUC的情況下均提高了40%,且SVM-KNN效果稍好。(3)最后,將建模部分得到的投訴預(yù)測模型應(yīng)用到Spark平臺并和前端頁面相結(jié)合,構(gòu)成IPTV用戶投訴預(yù)測系統(tǒng),方便運維人員及時發(fā)現(xiàn)預(yù)報障用戶并及時聯(lián)系或者維修,從而促進(jìn)IPTV的市場推廣和提高用戶體驗。
【圖文】:

示意圖,生態(tài)圈,示意圖,大學(xué)專業(yè)


大學(xué)專業(yè)學(xué)位碩士研究生學(xué)位論文 第二章 相關(guān)背景知識介用 SparkSQL時會創(chuàng)建 SQLContext,使用 SparkStreaming 時會創(chuàng)建 StreamingConteontext 在使用時可以通過 SparkConf 配置相關(guān)的使用參數(shù)。SparkContext 的組建主rkConf、SparkEnv、LiveListenerBus、JobProgressListener、SparkUI、TaskScheduheduler 、 ExecutorAllocationManager 、 ContextClearner 、 SparkStatusTrackeConfiguration。

系統(tǒng)圖,系統(tǒng)圖


圖 2.2 Spark MLlib 系統(tǒng)圖 Spark Streaming由于在原始數(shù)據(jù)產(chǎn)生之后立即進(jìn)行分析處理后所產(chǎn)生的使用價值是最大的,數(shù)據(jù)產(chǎn)生置的越久其可利用信息的價值就越低。在實際的業(yè)務(wù)場景之中,有一種流式計算的應(yīng)用要實時對大量的數(shù)據(jù)進(jìn)行快速處理,它最大的特點就是處理周期短,,一般是分鐘級別是秒級或者毫秒級別,并且是 24 小時不停進(jìn)行計算[33]。通常稱這種計算為流式計算。對于實時流式計算,Spark 通過 Spark Streaming 組建提供了相關(guān)的功能支持。Spming 是基于 Spark Core 的,具有高吞吐量、可擴(kuò)展性、自動容錯、實時性等特性,它來源支持 Twitter、Tcp socket、Kafka、Flume 等數(shù)據(jù)源,可以實現(xiàn) map、reduce、join操作來實現(xiàn)復(fù)雜的邏輯關(guān)系,其運算結(jié)果可以寫入文件系統(tǒng)、數(shù)據(jù)庫或者其他的展示同時也可以同時使用 Spark SQL、DataFrame、Spark MLlib 等一系列的 Spark 插件。
【學(xué)位授予單位】:南京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TN949.292

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 陳小燕;;機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用[J];現(xiàn)代電子技術(shù);2015年20期

2 董微;劉學(xué);倪宏;;基于信息增益的自適應(yīng)特征選擇方法[J];計算機(jī)工程與設(shè)計;2014年08期

3 何清;李寧;羅文娟;史忠植;;大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[J];模式識別與人工智能;2014年04期

4 宋小敏;張國防;邢淑蘭;汪鎖田;;基于數(shù)據(jù)挖掘的課程相關(guān)性分析方法[J];山西財經(jīng)大學(xué)學(xué)報;2012年S3期

5 李卓然;張永;;基于集成的非均衡數(shù)據(jù)分類主動學(xué)習(xí)算法[J];計算機(jī)應(yīng)用與軟件;2012年06期

6 谷瓊;袁磊;熊啟軍;寧彬;李文新;;基于非均衡數(shù)據(jù)集的代價敏感學(xué)習(xí)算法比較研究[J];微電子學(xué)與計算機(jī);2011年08期

7 劉婷婷;;IPTV常用故障判斷分析[J];科協(xié)論壇(下半月);2011年07期

8 靳燕;;基于權(quán)值控制的誤分類算法研究[J];山西師范大學(xué)學(xué)報(自然科學(xué)版);2010年02期

9 林海明;;對主成分分析法運用中十個問題的解析[J];統(tǒng)計與決策;2007年16期

10 王玨,石純一;機(jī)器學(xué)習(xí)研究[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2003年02期

相關(guān)博士學(xué)位論文 前1條

1 錢云;非均衡數(shù)據(jù)分類算法若干應(yīng)用研究[D];吉林大學(xué);2014年

相關(guān)碩士學(xué)位論文 前1條

1 翟永東;Hadoop分布式文件系統(tǒng)(HDFS)可靠性的研究與優(yōu)化[D];華中科技大學(xué);2011年



本文編號:2671669

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/wltx/2671669.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ef0eb***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com