基于Hadoop的網(wǎng)絡(luò)流量分析系統(tǒng)的研究與應(yīng)用
本文關(guān)鍵詞:基于Hadoop的網(wǎng)絡(luò)流量分析系統(tǒng)的研究與應(yīng)用,,由筆耕文化傳播整理發(fā)布。
【摘要】:移動互聯(lián)網(wǎng)時代為人們的信息交流提供了極大的便利,也在深刻地改變著人們的社交方式。分析移動用戶的上網(wǎng)數(shù)據(jù)可以幫助我們了解用戶的喜好、預(yù)測用戶的行為、理解移動網(wǎng)絡(luò)的特點并預(yù)測移動互聯(lián)網(wǎng)的發(fā)展。隨著網(wǎng)絡(luò)帶寬的提高,移動資費的下調(diào),用戶使用移動互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)越來越多,傳統(tǒng)的流量分析技術(shù)已無法滿足要求,如何采集、存儲和分析這些海量的信息是一個非常大的挑戰(zhàn),需要引入更高效、更可靠的面向大數(shù)據(jù)的處理方式和方法。對于海量流量數(shù)據(jù),使用云計算技術(shù)來存儲和處理數(shù)據(jù)是一個最優(yōu)的解決方案,Hadoop是當(dāng)前使用最為廣泛的云計算技術(shù)實現(xiàn)框架。 在此背景下,本文基于移動互聯(lián)網(wǎng)真實海量用戶數(shù)據(jù),提出海量流量分析的云計算解決方案—基于Hadoop的流量分析系統(tǒng)—FLAS,以解決海量流量數(shù)據(jù)的存儲和分析難題;為了優(yōu)化系統(tǒng)和保持系統(tǒng)穩(wěn)定運行,我們提出了Hadoop集群監(jiān)控機(jī)制-ZooManager系統(tǒng),以解決分布式集群的管理、監(jiān)控、告警及優(yōu)化等問題;為了進(jìn)一步優(yōu)化Hadoop集群,提出了一種在云計算環(huán)境下預(yù)測MapReduce作業(yè)運行時間與CPU資源消耗的模型,該模型可以在云計算環(huán)境下預(yù)測系統(tǒng)性能。在設(shè)計和實現(xiàn)了分析海量數(shù)據(jù)的FLAS系統(tǒng)和監(jiān)控Hadoop集群的ZooManager系統(tǒng),并從云計算資源角度優(yōu)化集群后,我們將研究成果應(yīng)用于實際流量分析環(huán)境中,深入研究了移動互聯(lián)網(wǎng)流量與用戶特性,以及移動互聯(lián)網(wǎng)的復(fù)雜網(wǎng)絡(luò)特性。 本文的主要研究內(nèi)容和創(chuàng)新點如下: (1)根據(jù)實際離線流量分析特點,使用云計算技術(shù)設(shè)計基于Hadoop的離線流量分析系統(tǒng)解決海量流量數(shù)據(jù)的存儲和分析難題 為了解決移動互聯(lián)網(wǎng)海量用戶流量數(shù)據(jù)的存儲和分析難題,所提出的基于Hadoop的離線流量分析系統(tǒng)有以下三個特色: 第一個特色為,適用于結(jié)構(gòu)化/半結(jié)構(gòu)化(比如流記錄)類型文件的分析和處理。 第二個特色為,在數(shù)據(jù)上傳模塊,使用自行研發(fā)的TMS(Traffic Monitoring System)來采集鏡像報文數(shù)據(jù),并生成流記錄,并由UpLoader上傳至HDFS。 第三個特色為,在數(shù)據(jù)分析模塊,為了簡化代碼開發(fā)流程,自行開發(fā)了一套用于表示數(shù)據(jù)分析程序的高級語言,只需要輸入簡單的類似SQL的語句就可以輕松完成各類流量分析工作。 最后從作業(yè)效率和容錯能力驗證了整個系統(tǒng)的可用性,并總結(jié)了當(dāng)前系統(tǒng)的瓶頸與缺陷。 (2)為提高流量分析系統(tǒng)可用性,設(shè)計分布式集群的管理、監(jiān)控、告警和優(yōu)化系統(tǒng),以保證基于Hadoop的流量分析系統(tǒng)的穩(wěn)定和高效運行 Hadoop集群的運營與維護(hù)對使用者來說一直是極大的挑戰(zhàn)。為了保證集群正常、穩(wěn)定和高效的運行,我們設(shè)計和開發(fā)了一個Hadoop集群監(jiān)控系統(tǒng)—ZooManager,提供分布式集群的管理、監(jiān)控、告警和優(yōu)化功能,該系統(tǒng)可以采集基礎(chǔ)數(shù)據(jù),使用不同算法將其轉(zhuǎn)化為直觀的便于理解的指標(biāo),自行存儲監(jiān)控數(shù)據(jù),分析數(shù)據(jù),發(fā)現(xiàn)異常,并告警。同時還開發(fā)了展示告警和監(jiān)控指標(biāo)以及圖形的界面供管理人員使用。監(jiān)控系統(tǒng)可以幫助我們從資源的角度了解整個系統(tǒng)當(dāng)前和歷史的運行情況,發(fā)現(xiàn)資源運行瓶頸,為優(yōu)化作業(yè)提出合理的建議。 (3)根據(jù)云計算作業(yè)資源消耗模式,提出了一種可以在云計算環(huán)境下預(yù)測MapReduce作業(yè)運行時間與CPU資源消耗的模型,以預(yù)測云計算環(huán)境下作業(yè)的資源消耗 為了進(jìn)一步優(yōu)化Hadoop集群和FLAS系統(tǒng),研究了MapReduce的資源消耗模式,并提出了一種預(yù)估Hadoop的MapReduce作業(yè)的CPU利用率和運行時間的模型。該模型使用多項式回歸的方法,可以在云計算環(huán)境下,對不同配置的MapReduce作業(yè)的CPU利用率和運行時間做出預(yù)判。我們使用不同配置條件下CPU密集型的Hadoop基準(zhǔn)測試驗證了該模型的有效性,最后使用SSE,MAPE,RMSE和R2四種評估方法計算了模型預(yù)測的精準(zhǔn)度。 (4)使用真實海量移動互聯(lián)網(wǎng)用戶數(shù)據(jù),深入分析移動互聯(lián)網(wǎng)流量與用戶特性,從多個維度理解用戶行為特征 當(dāng)前使用真實海量移動互聯(lián)網(wǎng)數(shù)據(jù)分析國內(nèi)移動網(wǎng)絡(luò)流量特性的研究非常少,我們使用中國某典型城市全市連續(xù)一周的數(shù)據(jù),所分析的數(shù)據(jù)量超過10TB,研究結(jié)果具有可靠性、實用性與真實性。 從時間、流特征和用戶特性三個維度開展研究。對流特征維度的用戶達(dá)到訪問數(shù)分布使用泊松回歸模型擬合。然后,從數(shù)據(jù)使用、移動性和Web服務(wù)使用三個角度研究用戶特性:在數(shù)據(jù)使用方面,重點研究了heavy user的行為;在移動性方面,將移動范圍大小不同的用戶分為不同的組并分別進(jìn)行研究;在Web服務(wù)使用方面,將Web服務(wù)按類型分為11種類別,并分析用戶的使用情況。之后對數(shù)據(jù)使用、移動性和Web服務(wù)使用三個方面進(jìn)行兩兩關(guān)系的分析,從數(shù)據(jù)資源和無線資源消耗的角度發(fā)現(xiàn)了很多有意義的結(jié)論。最后對于用戶使用Web服務(wù)行為進(jìn)行了更深入的分析,創(chuàng)新性地提出“興趣簇”概念,并使用“歸一化熵”來衡量用戶訪問興趣的分散程度。 (5)從復(fù)雜網(wǎng)絡(luò)角度,構(gòu)建移動互聯(lián)網(wǎng)網(wǎng)絡(luò)結(jié)構(gòu),研究其復(fù)雜網(wǎng)絡(luò)特性 構(gòu)建移動互聯(lián)網(wǎng)的拓?fù)浣Y(jié)構(gòu)是網(wǎng)絡(luò)建模的關(guān)鍵,之前傳統(tǒng)線網(wǎng)的相關(guān)研究并不能應(yīng)用于移動互聯(lián)網(wǎng)之中,需要我們針對移動互聯(lián)網(wǎng)開展深入的研究。本文使用移動互聯(lián)網(wǎng)的海量和真實流數(shù)據(jù),從復(fù)雜網(wǎng)絡(luò)角度深入研究移動互聯(lián)網(wǎng)及其典型應(yīng)用的結(jié)構(gòu)和特性,發(fā)現(xiàn)其一般規(guī)律并建模。首先我們根據(jù)移動互聯(lián)網(wǎng)內(nèi)用戶端和服務(wù)端所承擔(dān)的不同角色構(gòu)造了一個用戶-服務(wù)端網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),并分別構(gòu)建了全網(wǎng)、瀏覽類應(yīng)用和即時通信類應(yīng)用的網(wǎng)絡(luò)拓?fù)鋱D,分析了節(jié)點度分布和節(jié)點權(quán)值分布。之后我們單獨研究了瀏覽類不同類別網(wǎng)站的復(fù)雜網(wǎng)絡(luò)特性以及BA模型特性。
【關(guān)鍵詞】:云計算 Hadoop 移動互聯(lián)網(wǎng) 流量特性研究
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2014
【分類號】:TP393.06
【目錄】:
- 摘要4-7
- ABSTRACT7-14
- 第一章 緒論14-28
- 1.1 大數(shù)據(jù)時代14-16
- 1.1.1 大數(shù)據(jù)的發(fā)展——From Big Data to Rich Data14-15
- 1.1.2 計算的發(fā)展歷史15-16
- 1.2 Hadoop的簡介16-20
- 1.2.1 Hadoop的架構(gòu)16-19
- 1.2.2 Hadoop存在的主要問題19-20
- 1.3 大數(shù)據(jù)背景下的移動互聯(lián)網(wǎng)20-23
- 1.3.1 移動互聯(lián)網(wǎng)發(fā)展歷史20-21
- 1.3.2 全球移動數(shù)據(jù)流量發(fā)展趨勢21-23
- 1.3.3 國內(nèi)移動互聯(lián)網(wǎng)現(xiàn)狀23
- 1.4 論文主要內(nèi)容和創(chuàng)新點23-25
- 1.5 論文結(jié)構(gòu)25-28
- 第二章 基于Hadoop的流量分析系統(tǒng)28-50
- 2.1 背景知識28-33
- 2.1.1 Hadoop分析移動流量數(shù)據(jù)的可行性29-31
- 2.1.2 Hadoop在國內(nèi)外的使用情況31-32
- 2.1.3 Hadoop在流量分析領(lǐng)域的應(yīng)用32-33
- 2.1.4 小結(jié)33
- 2.2 FLAS系統(tǒng)設(shè)計33-35
- 2.2.1 整體需求33-34
- 2.2.2 系統(tǒng)設(shè)計34-35
- 2.3 FLAS系統(tǒng)模塊實現(xiàn)35-40
- 2.3.1 數(shù)據(jù)采集與存儲35-36
- 2.3.2 數(shù)據(jù)上傳模塊36-37
- 2.3.3 數(shù)據(jù)分析模塊37-40
- 2.4 系統(tǒng)效率測試40-45
- 2.4.1 實驗環(huán)境40
- 2.4.2 TopN算法40-42
- 2.4.3 節(jié)點、數(shù)據(jù)量與作業(yè)效率研究42-43
- 2.4.4 容錯能力分析43-45
- 2.5 FLAS系統(tǒng)存在的問題45-47
- 2.5.1 Hadoop的瓶頸46-47
- 2.5.2 流量分析系統(tǒng)存在的問題47
- 2.6 本章總結(jié)47-50
- 第三章 面向Hadoop集群的管理系統(tǒng)50-64
- 3.1 Hadoop管理和監(jiān)控工具簡介50-54
- 3.1.1 Zookeeper50
- 3.1.2 Ganglia50-51
- 3.1.3 Nagios51
- 3.1.4 JMX51-52
- 3.1.5 Cacti52
- 3.1.6 Ambari52-53
- 3.1.7 Chukwa53
- 3.1.8 小結(jié)53-54
- 3.2 基于Hadoop的流量分析系統(tǒng)的監(jiān)控需求概述54
- 3.3 監(jiān)控系統(tǒng)ZooManager的基礎(chǔ)監(jiān)控數(shù)據(jù)54-55
- 3.4 監(jiān)控系統(tǒng)ZooManager整體架構(gòu)55-57
- 3.4.1 被監(jiān)控節(jié)點55-56
- 3.4.2 監(jiān)控節(jié)點56-57
- 3.5 監(jiān)控系統(tǒng)ZooManager的數(shù)據(jù)存儲57
- 3.6 數(shù)據(jù)獲取與計算57-60
- 3.6.1 數(shù)據(jù)采集57-58
- 3.6.2 數(shù)據(jù)計算58-60
- 3.7 數(shù)據(jù)呈現(xiàn)60-62
- 3.8 本章總結(jié)62-64
- 第四章 基于Hadoop的流量分析系統(tǒng)的資源預(yù)測與優(yōu)化64-80
- 4.1 概述64-68
- 4.1.1 Hadoop參數(shù)64-65
- 4.1.2 Hadoop工作負(fù)載指標(biāo)65-66
- 4.1.3 國內(nèi)外研究現(xiàn)狀66-68
- 4.2 基準(zhǔn)測試介紹68-69
- 4.3 MapReduce框架的資源使用69-74
- 4.3.1 WordCount作業(yè)69-71
- 4.3.2 TestDFSIO讀作業(yè)71-72
- 4.3.3 TestDFSIO寫作業(yè)72-74
- 4.4 計算環(huán)境下的資源和時間建模74-76
- 4.4.1 參數(shù)選擇74
- 4.4.2 資源提取74-75
- 4.4.3 多項式回歸建模75-76
- 4.5 計算環(huán)境下的資源和時間預(yù)測與實驗分析76-78
- 4.5.1 實驗環(huán)境77
- 4.5.2 實驗結(jié)果與分析77
- 4.5.3 結(jié)果評估77-78
- 4.6 本章總結(jié)78-80
- 第五章 移動互聯(lián)網(wǎng)流量與用戶特征分析80-108
- 5.1 概述80-83
- 5.1.1 移動互聯(lián)網(wǎng)流量分析80-81
- 5.1.2 國內(nèi)外相關(guān)研究81-83
- 5.2 數(shù)據(jù)描述與分析方法簡介83-86
- 5.2.1 數(shù)據(jù)描述84-85
- 5.2.2 分析方法介紹85-86
- 5.3 用戶到達(dá)訪問數(shù)分布與建模86-89
- 5.3.1 用戶到達(dá)特征分析86-87
- 5.3.2 泊松回歸過程介紹87
- 5.3.3 用戶到達(dá)訪問數(shù)分布模型建立87-88
- 5.3.4 模型評估88-89
- 5.4 用戶特征單維度分析89-94
- 5.4.1 用戶數(shù)據(jù)使用行為分析89-90
- 5.4.2 用戶移動性分析90-92
- 5.4.3 用戶Web服務(wù)訪問行為偏好分析92-94
- 5.5 用戶喜好行為多維度關(guān)系分析94-98
- 5.5.1 用戶數(shù)據(jù)使用與移動性關(guān)系94-95
- 5.5.2 用戶Web服務(wù)使用與移動性關(guān)系95-97
- 5.5.3 用戶數(shù)據(jù)使用與Web服務(wù)使用關(guān)系97-98
- 5.6 用戶訪問行為分類98-103
- 5.6.1 算法描述98-100
- 5.6.2 用戶訪問Web服務(wù)的行為分類100-101
- 5.6.3 分類結(jié)果分析101-103
- 5.7 不同Web服務(wù)類別的用戶訪問行為103-105
- 5.8 本章總結(jié)105-108
- 第六章 移動互聯(lián)網(wǎng)的復(fù)雜網(wǎng)絡(luò)特性研究108-130
- 6.1 背景108-110
- 6.1.1 復(fù)雜網(wǎng)絡(luò)的特性108-109
- 6.1.2 復(fù)雜網(wǎng)絡(luò)的基本概念109-110
- 6.2 復(fù)雜網(wǎng)絡(luò)的應(yīng)用110-112
- 6.2.1 復(fù)雜網(wǎng)絡(luò)模型110-111
- 6.2.2 復(fù)雜網(wǎng)絡(luò)與互聯(lián)網(wǎng)111
- 6.2.3 相關(guān)研究111-112
- 6.3 構(gòu)造移動互聯(lián)網(wǎng)的網(wǎng)絡(luò)結(jié)構(gòu)112-114
- 6.4 移動互聯(lián)網(wǎng)典型應(yīng)用復(fù)雜網(wǎng)絡(luò)特征114-121
- 6.4.1 移動互聯(lián)網(wǎng)應(yīng)用分布114-115
- 6.4.2 網(wǎng)絡(luò)拓?fù)浠緟?shù)分析115-117
- 6.4.3 典型應(yīng)用的網(wǎng)絡(luò)節(jié)點度分布117-119
- 6.4.4 網(wǎng)絡(luò)節(jié)點單邊平均權(quán)值分布119-121
- 6.5 瀏覽類應(yīng)用特征深入研究121-128
- 6.5.1 網(wǎng)站分類121-122
- 6.5.2 網(wǎng)絡(luò)節(jié)點的度分布122-123
- 6.5.3 網(wǎng)絡(luò)節(jié)點的權(quán)值分布123-125
- 6.5.4 BA模型125-128
- 6.6 本章總結(jié)128-130
- 結(jié)束語:總結(jié)與展望130-132
- 參考文獻(xiàn)132-140
- 附錄:縮寫詞說明140-142
- 致謝142-144
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄144
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 李紅;;基于Google Bigtable的海量數(shù)據(jù)存儲探索[J];鞍山師范學(xué)院學(xué)報;2013年04期
2 葉強(qiáng);孫忠林;魏永山;;一種基于Hadoop的大規(guī)模圖直徑算法[J];電腦開發(fā)與應(yīng)用;2013年12期
3 郎波;張博宇;;面向大數(shù)據(jù)的非結(jié)構(gòu)化數(shù)據(jù)管理平臺關(guān)鍵技術(shù)[J];信息技術(shù)與標(biāo)準(zhǔn)化;2013年10期
4 孫成強(qiáng);Yongseong Cho;Jongsun Choi;Jaeyoung Choi;;Towards delivery of situational information in distributed environments[J];Journal of Measurement Science and Instrumentation;2013年03期
5 邵景峰;崔尊民;王進(jìn)富;白曉波;;大數(shù)據(jù)下紡織制造執(zhí)行系統(tǒng)的構(gòu)建[J];紡織器材;2013年06期
6 張亞楠;譚躍生;;基于MapReduce的并行遮蓋文本聚類算法[J];內(nèi)蒙古科技大學(xué)學(xué)報;2013年03期
7 張毅;曹晶晶;齊莉娜;吳必虎;;旅游目的地虛擬網(wǎng)絡(luò)結(jié)構(gòu)特征研究——以黃山市為例[J];北京大學(xué)學(xué)報(自然科學(xué)版);2013年06期
8 周國亮;朱永利;王桂蘭;;CC-MRSJ:Hadoop平臺下緩存敏感的星型聯(lián)接算法[J];電信科學(xué);2013年10期
9 熊金石;李建華;沈迪;郭威武;;節(jié)點崩潰條件下信息系統(tǒng)安全風(fēng)險傳播[J];電光與控制;2014年01期
10 唐宏;;基于MapReduce的大規(guī)模流量分析系統(tǒng)的設(shè)計[J];電信科學(xué);2013年12期
中國重要會議論文全文數(shù)據(jù)庫 前7條
1 祁昊穎;;大數(shù)據(jù)時代電信運營商文件系統(tǒng)新思考[A];2013年中國信息通信研究新進(jìn)展論文集[C];2014年
2 喬媛媛;劉芳;凌艷;尹勁松;;云計算環(huán)境下MapReduce的資源建模與性能預(yù)測[A];2013年全國通信軟件學(xué)術(shù)會議論文集[C];2013年
3 Xiaoguang Han;Jigang Sun;Wu Qu;Xuanxia Yao;;Distributed Malware Detection based on Binary File Features in Cloud Computing Environment[A];第26屆中國控制與決策會議論文集[C];2014年
4 陳佐旗;余柏蒗;吳健平;;基于GPU通用計算的遙感數(shù)據(jù)處理——以計算地表太陽輻射值為例[A];第十八屆中國環(huán)境遙感應(yīng)用技術(shù)論壇論文集[C];2014年
5 白永超;付偉;辛陽;;基于Hadoop和Nutch的分布式搜索引擎研究與仿真[A];第十九屆全國青年通信學(xué)術(shù)年會論文集[C];2014年
6 李超越;徐國勝;;Hadoop公平調(diào)度算法的改進(jìn)[A];第十九屆全國青年通信學(xué)術(shù)年會論文集[C];2014年
7 汪中琳;喬自知;郭景贊;;移動運維支撐系統(tǒng)的互聯(lián)網(wǎng)思維重構(gòu)[A];2014全國無線及移動通信學(xué)術(shù)大會論文集[C];2014年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 劉瑤;社會網(wǎng)絡(luò)特征分析與社團(tuán)結(jié)構(gòu)挖掘[D];電子科技大學(xué);2013年
2 樂冠;面向服務(wù)系統(tǒng)的自適應(yīng)資源管理技術(shù)研究[D];北京郵電大學(xué);2013年
3 楊雅君;動態(tài)圖數(shù)據(jù)挖掘與查詢算法的研究[D];哈爾濱工業(yè)大學(xué);2013年
4 陳t
本文編號:448100
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/448100.html