天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于PU學(xué)習(xí)的分布式移動(dòng)互聯(lián)網(wǎng)流量分析與預(yù)測

發(fā)布時(shí)間:2020-10-13 00:05
   近年來,隨著移動(dòng)通信技術(shù)的發(fā)展和移動(dòng)終端的普及,移動(dòng)用戶數(shù)量激增,數(shù)以億計(jì)的用戶每天產(chǎn)生海量的移動(dòng)流量記錄。如何對如此大量的數(shù)據(jù)進(jìn)行高效和準(zhǔn)確的分析,從而充分理解移動(dòng)互聯(lián)網(wǎng)流量特性,掌握移動(dòng)用戶的上網(wǎng)行為,為用戶提供更加優(yōu)質(zhì)的移動(dòng)網(wǎng)絡(luò)服務(wù),成為了移動(dòng)運(yùn)營商和互聯(lián)網(wǎng)內(nèi)容提供商都非常關(guān)心的研究課題。本文研究通過分布式大數(shù)據(jù)處理技術(shù)和機(jī)器學(xué)習(xí)方法相結(jié)合的方式來對海量移動(dòng)互聯(lián)網(wǎng)流量數(shù)據(jù)進(jìn)行分析和預(yù)測。重點(diǎn)研究了其中的兩個(gè)問題,一個(gè)是移動(dòng)用戶和服務(wù)器的交互行為預(yù)測,另一個(gè)是移動(dòng)視頻流量識別。通過分析發(fā)現(xiàn),這兩個(gè)問題都有著相同的特性:都可以當(dāng)做二分類問題來處理,以及數(shù)據(jù)都只有少量正例樣本和大量無標(biāo)記樣本。因此,本課題嘗試?yán)迷谖谋痉诸悊栴}中使用較多的PU學(xué)習(xí)算法來解決。本文的主要?jiǎng)?chuàng)新點(diǎn)如下:(1)針對移動(dòng)用戶和服務(wù)器交互預(yù)測問題,設(shè)計(jì)了 194維的特征來表征每一條用戶和服務(wù)器連接記錄,并提出了改進(jìn)的基于Spy的PU學(xué)習(xí)算法。在Spark平臺上,基于MLlib機(jī)器學(xué)習(xí)庫設(shè)計(jì)并實(shí)現(xiàn)了基于K-means的PU學(xué)習(xí)算法、基于Biased-SVM的PU學(xué)習(xí)算法以及改進(jìn)的基于Spy的PU學(xué)習(xí)算法。通過在真實(shí)移動(dòng)流量數(shù)據(jù)上的實(shí)驗(yàn),驗(yàn)證了基于PU學(xué)習(xí)算法來預(yù)測用戶的服務(wù)器交互行為具有良好的性能。(2)針對移動(dòng)視頻流量識別問題,設(shè)計(jì)了 105維的特征向量來表示每一條移動(dòng)流量記錄,并從真實(shí)的移動(dòng)流量數(shù)據(jù)中過濾了部分移動(dòng)視頻相關(guān)的數(shù)據(jù)作為該任務(wù)的實(shí)驗(yàn)數(shù)據(jù)集。通過實(shí)驗(yàn)分析了 Spark平臺上設(shè)計(jì)并實(shí)現(xiàn)的三種PU學(xué)習(xí)算法的性能,驗(yàn)證了基于PU學(xué)習(xí)算法進(jìn)行移動(dòng)視頻流量識別具有較好的準(zhǔn)確性。這對于更加高效準(zhǔn)確地對移動(dòng)互聯(lián)網(wǎng)流量進(jìn)行分析,提升網(wǎng)絡(luò)服務(wù)質(zhì)量具有很大幫助。
【學(xué)位單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TN929.5;TP393.06
【部分圖文】:

總體結(jié)構(gòu),平臺,處理平臺,結(jié)構(gòu)化數(shù)據(jù)


為了提供一體化的大數(shù)據(jù)處理平臺,Spark不僅向用戶提供了類MapReduce??編程模型,還向用戶提供了一組工具集,以滿足不同場景下的大數(shù)據(jù)處理需求。??Spark的總體結(jié)構(gòu)圖如圖2-1所示[3]。??Spark?SQL?c?Spark?MLlib?GraphX??Streaming??Apache?Spark??Standalone?YARN?Mesos??圖2-1?Spark平臺總體結(jié)構(gòu)圖??1.?Spark?SQL是Spark中用來處理結(jié)構(gòu)化數(shù)據(jù)的一個(gè)模塊,主要用于結(jié)構(gòu)化??數(shù)據(jù)的處理和對Spark數(shù)據(jù)執(zhí)行類SQL的查詢。通過SparkSQL,可以針對不同??格式的數(shù)據(jù)執(zhí)行ETL操作(如JSON,?Parquet,數(shù)據(jù)庫)然后完成特定的查詢操??8??

移動(dòng)互聯(lián)網(wǎng),省會城市,數(shù)據(jù)采集,流量


圖2-2移動(dòng)互聯(lián)網(wǎng)流量采集??本文所使用的移動(dòng)互聯(lián)網(wǎng)流量記錄數(shù)據(jù)采集自中國南方某省會城市連續(xù)7??天的移動(dòng)上網(wǎng)流量,平均每天有近10億條流量記錄,其中每一條流量記錄都包??含了時(shí)間,加密的用戶手機(jī)號,服務(wù)器IP地址,服務(wù)類型,連接時(shí)長,上下行??報(bào)文數(shù)等八十多個(gè)字段。其中主要的一些字段信息如表2-2所示,本文將基于這??些數(shù)據(jù)進(jìn)行后續(xù)的研宄。??表2-2?—些重要的信息字段說明??字段名?字段含義或格式?t?舉例??手機(jī)號碼?用戶上網(wǎng)的手機(jī)號碼,加密處理?86138****0000??流開始時(shí)間?連接開始時(shí)間,UTC格式?|?1388170565.446000??流結(jié)束時(shí)間?連接結(jié)束時(shí)間,UTC格式?1388170578.241000??服務(wù)器IP地址?點(diǎn)分十進(jìn)制IP?111.30.123.11??業(yè)務(wù)類型?web/wapl/wap2/mms/txt?等?web??WEB/WAP?請求.?士??H〇ST?子?W?串?isdspeed.qq.com??

樣本數(shù)據(jù),無標(biāo)記,學(xué)習(xí)算法,過程


?對有間諜的無標(biāo)記數(shù)據(jù)進(jìn)行分類,選取被分類為負(fù)例的概率大于某個(gè)閾值的樣??本作為可靠的負(fù)例樣本。具體的流程如圖3-4所示。??Positive?Positive?Likely?Positive??y7py\?f?VoyA?V777-??織?p*p〇Sit叫赫滅??關(guān)?fad??Unlabeled?Negative?^^^^Likely?Negative??Spy=(l-P)*Positive/??I?izz^??i?a*Unlabeled^?:.:父:??、、Un??>〇〇-?S^??/?v^v^s/V?:????b^jj??V?VV'??v>-'W??cx':':.??f.vV'v..::??圖3-4改進(jìn)的基于Spy的PU學(xué)習(xí)算法提取可靠負(fù)例的過程??假設(shè)我們的正例樣本數(shù)據(jù)集為P,抽樣a后的無標(biāo)記樣本數(shù)據(jù)集為U,從正例??樣本中抽取Spy的比例為P,抽取后的Spy集合為S,由于無標(biāo)記樣本數(shù)據(jù)集遠(yuǎn)??大于有標(biāo)記的正例樣本數(shù)據(jù)集,我們選擇從無標(biāo)記樣本中隨機(jī)抽取一部分來進(jìn)行??下一步的操作,抽取比例為a。整個(gè)改進(jìn)的基于Spy的PU學(xué)習(xí)算法可以描述為:??首先,從正例樣本集合中抽取比例為P的Spy樣本集合S,將S加入到無標(biāo)記樣本??集U中,構(gòu)成集合U?+?S,利用P-S和U?+?S訓(xùn)練二分類器q,這里的分類器可以??采用多種分類算法,比如SVM,樸素貝葉斯,邏輯回歸,隨機(jī)森林等等,然后??利用分類器(:1對1]?+?5進(jìn)行分類
【參考文獻(xiàn)】

相關(guān)博士學(xué)位論文 前2條

1 任亞峰;基于標(biāo)注和未標(biāo)注數(shù)椐的虛假評論識別研究[D];武漢大學(xué);2015年

2 可婷;部分監(jiān)督分類問題的研究[D];中國農(nóng)業(yè)大學(xué);2014年


相關(guān)碩士學(xué)位論文 前4條

1 高鵬;大規(guī)模PU學(xué)習(xí)[D];南京大學(xué);2017年

2 張荷;基于PU學(xué)習(xí)的軟件故障檢測方法研究[D];西北農(nóng)林科技大學(xué);2015年

3 孫科;基于Spark的機(jī)器學(xué)習(xí)應(yīng)用框架研究與實(shí)現(xiàn)[D];上海交通大學(xué);2015年

4 李晨;PU數(shù)據(jù)流挖掘研究[D];西北農(nóng)林科技大學(xué);2011年



本文編號:2838469

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2838469.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶504ef***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com