天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于大規(guī)模圖譜分析的海量網(wǎng)絡(luò)流量數(shù)據(jù)挖掘

發(fā)布時間:2018-11-14 17:02
【摘要】:得益于以3G/4G為代表的無線通信技術(shù)的發(fā)展與普及、個人移動網(wǎng)絡(luò)終端處理能力的增強以及個性化網(wǎng)絡(luò)應(yīng)用的日益豐富,移動互聯(lián)網(wǎng)已經(jīng)成為人們?nèi)粘I钪兄匾慕M成部分,以及獲取、分享信息的主要渠道。這使得移動互聯(lián)網(wǎng)業(yè)務(wù)流量在無線通信網(wǎng)絡(luò)流量中所占的比例快速增加。在語音通信業(yè)務(wù)逐漸飽和的情況下,面臨利潤增長壓力的移動網(wǎng)絡(luò)運營商和服務(wù)提供商必須通過精細化的互聯(lián)網(wǎng)業(yè)務(wù)流量經(jīng)營,以達到提高用戶ARPU (Average Revenue Per User用戶平均收入)值,實現(xiàn)收入持續(xù)增長的目標。但目前網(wǎng)絡(luò)運營商無論是用戶量還是業(yè)務(wù)數(shù)據(jù)量都進入了一個海量數(shù)據(jù)時代,動輒以億為單位計算的用戶規(guī)模,結(jié)合早已超出語音、短信等傳統(tǒng)業(yè)務(wù)范疇的豐富互聯(lián)網(wǎng)業(yè)務(wù),當今的無線通信網(wǎng)絡(luò)時時刻刻都在產(chǎn)生著海量的流量數(shù)據(jù),這些數(shù)據(jù)包括移動互聯(lián)網(wǎng)網(wǎng)頁數(shù)據(jù)、用戶交互數(shù)據(jù)、設(shè)備產(chǎn)生的活動數(shù)據(jù)、DNS查詢數(shù)據(jù)等等。這些數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)在三個不同的維度上呈現(xiàn)出了顯著的不同特征:(1)數(shù)據(jù)量大小-大容量;(2)數(shù)據(jù)類型-多類型;(3)數(shù)據(jù)時效性-高時效。面對大容量、多類型、高時效的流量數(shù)據(jù),傳統(tǒng)的流量分析技術(shù)已經(jīng)不能滿足網(wǎng)絡(luò)運營商的需求,需要采用面向海量數(shù)據(jù)處理的并行算法。在此背景下,本文提出了處理海量網(wǎng)絡(luò)流量的分布式并行計算分析解決方法。分布式并行計算方法主要使用目前比較流行的Hadoop技術(shù)框架和Spark技術(shù)框架。Hadoop技術(shù)框架揭開了海量數(shù)據(jù)處理的新篇章,而Spark技術(shù)框架可以說是Hadoop技術(shù)框架的升級版本。Spark技術(shù)框架通過使用內(nèi)存計算,使得對海量數(shù)據(jù)的處理更加快捷。本文根據(jù)不同的應(yīng)用場景和問題需求使用不同的技術(shù)框架。同時,由于互聯(lián)網(wǎng)應(yīng)用爆炸性的增長,網(wǎng)絡(luò)流量變得異常復(fù)雜。僅僅通過簡單流量統(tǒng)計分析已經(jīng)不能很好的揭示網(wǎng)絡(luò)流量的內(nèi)在特征。為了精細分析網(wǎng)絡(luò)流量,揭示網(wǎng)絡(luò)中各個功能實體間的復(fù)雜關(guān)系,本文將網(wǎng)絡(luò)分析問題進行圖譜建模,運用多種圖譜分析方法來解決網(wǎng)絡(luò)流量分析的實際問題,并將分析結(jié)果用圖形進行可視化呈現(xiàn)。本文的主要研究內(nèi)容和創(chuàng)新點如下:(1)根據(jù)用戶網(wǎng)頁瀏覽行為以及網(wǎng)頁加載過程,對網(wǎng)頁中的單元實體進行圖形建模,并對該圖模型進行分析,以便了解互聯(lián)網(wǎng)實體間的關(guān)系。該模型構(gòu)建系統(tǒng)具有以下三個特色:第一個特色為,對真實移動網(wǎng)絡(luò)環(huán)境下的互聯(lián)網(wǎng)實體進行統(tǒng)一的圖形建模。如實反映互聯(lián)網(wǎng)實體間的結(jié)構(gòu)和關(guān)系。第二個特色為,基于該圖模型可以進行多種應(yīng)用分析,其中一個主要應(yīng)用就是用戶的點擊請求識別。設(shè)計實現(xiàn)了一個并行的點擊識別算法,算法可以從海量流量數(shù)據(jù)中準確的識別出用戶的點擊請求。第三個特色為,使用實驗室自主研發(fā)的TMS (Traffic Monitoring System)來采集真實移動網(wǎng)絡(luò)中的海量鏡像報文數(shù)據(jù)進行實驗。在實驗參數(shù)的選擇上,設(shè)計了一種自學習參數(shù)選擇方法。實驗驗證了模型的可行性和模型應(yīng)用的準確性。(2)整個互聯(lián)網(wǎng)實體圖是一個巨大的、稀疏、復(fù)雜圖,為了揭示網(wǎng)絡(luò)實體間的內(nèi)部結(jié)構(gòu),以及對實體間的內(nèi)部結(jié)構(gòu)進行可視化,設(shè)計提出了基于依賴圖的Web實體連接結(jié)構(gòu)模式分析方法。對運營商真實網(wǎng)絡(luò)環(huán)境下的海量流量數(shù)據(jù)進行圖形建模,模型的規(guī)模是巨大的,不適合直接觀察和分析,為此設(shè)計了基于依賴圖的Web實體連接結(jié)構(gòu)模式分析方法,來將圖模型進行分解。分解的結(jié)果是具有緊密連接結(jié)構(gòu)的、便于觀察的小圖。(3)圖模型是物理實體的一種數(shù)學抽象形式,圖模型的分析需要運用大量的數(shù)學計算和圖形算法,為此設(shè)計了基于Spark計算框架的海量數(shù)據(jù)處理算法庫,以此作為其他流量分析算法的基礎(chǔ)。Spark計算框架相比于Hadoop計算框架具有更豐富的計算表達能力,因此設(shè)計實施了多種基于Spark計算框架的基本數(shù)學算法,包括矩陣乘法、矩陣求逆等。(4) DNS查詢數(shù)據(jù)是網(wǎng)絡(luò)流量分析的重要數(shù)據(jù)之一。將查詢記錄和返回結(jié)果進行圖形建模,并將圖形屬性信息應(yīng)用于惡意域名識別中。惡意域名識別是網(wǎng)絡(luò)監(jiān)管部門和網(wǎng)絡(luò)運營商都十分關(guān)心的問題,但惡意域名隱蔽性極強、難于發(fā)現(xiàn),需要綜合惡意域名多方面的特性,通過有效的分類方法將其與正常域名進行分離,才能達到惡意域名識別的目的。為此設(shè)計使用了 DNS圖模型的多個屬性值,例如出度、入度、中心性等,作為域名分類的屬性值,結(jié)合域名自身的特性對域名進行分類處理,最終發(fā)現(xiàn)DNS查詢記錄中的惡意域名。(5)對于移動網(wǎng)絡(luò)運營商環(huán)境下的超高速流式數(shù)據(jù),采用并行流式算法,對流量數(shù)據(jù)進行精細化分析。網(wǎng)絡(luò)運營商的流量分析任務(wù)可以分為兩大類:1.網(wǎng)絡(luò)流量數(shù)據(jù)靜態(tài)存儲后的批量分析。2.超高速流式數(shù)據(jù)的實時在線分析。近年來隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,運營商骨干網(wǎng)的鏈路已經(jīng)大量采用1OOGbps端口。這給網(wǎng)絡(luò)流量數(shù)據(jù)的實時性分析帶來新的技術(shù)挑戰(zhàn),為此設(shè)計了快速流式流量分析算法,對運營商環(huán)境下的超高速流式數(shù)據(jù)進行分析,并對移動網(wǎng)頁流量進行了精細化分析。
[Abstract]:......
【學位授予單位】:北京郵電大學
【學位級別】:博士
【學位授予年份】:2016
【分類號】:TP393.0;TP311.13

【相似文獻】

相關(guān)期刊論文 前10條

1 曹云海,熊華平,吳鈞,杜召;網(wǎng)絡(luò)流量數(shù)據(jù)管理系統(tǒng)的開發(fā)與應(yīng)用[J];計算機系統(tǒng)應(yīng)用;2002年06期

2 張大方;沈永堅;黎文偉;;一種基于歷史記錄的網(wǎng)絡(luò)流量數(shù)據(jù)采樣方法[J];湖南大學學報(自然科學版);2005年06期

3 吳亞東,孫世新;低分辨率小規(guī)模網(wǎng)絡(luò)流量數(shù)據(jù)的混沌特性鑒別[J];計算機應(yīng)用研究;2005年09期

4 楊波;劉淵;;基于算術(shù)平均值的網(wǎng)絡(luò)流量數(shù)據(jù)采樣方法[J];微計算機信息;2007年24期

5 張瑞;胡蓉;;基于季節(jié)時間序列模型的網(wǎng)絡(luò)流量實證分析[J];四川文理學院學報;2012年05期

6 唐紅,吳勇軍;利用數(shù)據(jù)倉庫技術(shù)實現(xiàn)網(wǎng)絡(luò)流量數(shù)據(jù)分析[J];華中科技大學學報(自然科學版);2003年11期

7 歐陽e,

本文編號:2331773


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2331773.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶22001***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com