基于即時通信業(yè)務的時空特征研究與分析平臺實現(xiàn)
發(fā)布時間:2021-09-25 09:51
近年來我國科學技術和信息化產(chǎn)業(yè)高速發(fā)展,以手機為代表的移動設備快速普及,移動互聯(lián)網(wǎng)業(yè)務涉及到生活的各個方面,人類對手機等移動設備的依賴程度不斷提高。移動網(wǎng)絡運營商收集的流量數(shù)據(jù)是關于人類習慣的豐富信息源,對其進行分析與研究,一方面可以了解城市特征,促進城市規(guī)劃,幫助移動運營商進行蜂窩基站的規(guī)劃與建設等;另一方面,研究人員通過挖掘互聯(lián)網(wǎng)業(yè)務信息及用戶行為特征,可以幫助企業(yè)發(fā)掘更多的潛在用戶。本論文中,主要利用從移動運營商提供的深度包解析數(shù)據(jù)中解析出的即時通信數(shù)據(jù),搭建大數(shù)據(jù)分析處理平臺,分析即時通信業(yè)務的用戶的行為特征,以及從時空維度進行城市網(wǎng)絡活動和地理區(qū)域分析,主要內容包括:一、蜂窩無線網(wǎng)絡大數(shù)據(jù)平臺的搭建;谀壳爸髁鞯暮A繑(shù)據(jù)處理技術Hadoop和Spark,并依據(jù)移動蜂窩小區(qū)數(shù)據(jù)的存儲及計算的需求,搭建了一套用于存儲和處理分析蜂窩移動數(shù)據(jù)的大數(shù)據(jù)平臺。本文將大數(shù)據(jù)處理平臺劃分為數(shù)據(jù)存儲與傳輸模塊、數(shù)據(jù)處理模塊及數(shù)據(jù)工作流模塊三個模塊,在開源的大數(shù)據(jù)組件的基礎上進行二次開發(fā),實現(xiàn)了Spark Query、Job Submit、Autoflow和Data Transfer等工具。大...
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
圖2-2?Spark相關功能??
Spark是由加州伯克利大學開發(fā)的分布式計算引擎,Spark幾乎繼承了??MapReduce的全部優(yōu)點,并在具有比MapReduce更快的處理速度和更能豐富的??功能,Spark的主要功能如圖2-2所示,包括了進行流計算的Spark?Streaming、??機器學習庫MLlib、圖計算GraphX等。??:";:;;:;';;;::..:??圖2-2?Spark相關功能??Spark為用戶提供了以彈性分布式數(shù)據(jù)集(Resillient?Distributed?Dataset,RDD)??為基礎的規(guī)范編程結構。RDD實現(xiàn)了以類似本地操作數(shù)據(jù)集的方式對分布式數(shù)??據(jù)集進行操作,它表示的是不可變的、已被分區(qū)并能被并行處理的數(shù)據(jù)集合,每??個分區(qū)(Partition)作為對RDD操作的最小數(shù)據(jù)單位。??用戶對RDD的操作一般分為兩種,分別是轉換操作(Transformations)和行??動操作(Actions),轉換操作的返回值還是一個RDD,使用了鏈式調用的設計模??式,常見的轉換操作有map、filter、flatmap等;行動操作返回的結果一般是一個??集合或者一個值等,常見的行動操作有count、reduce、collect等。??對RDD進行不同的轉換操作,可能會產(chǎn)生RDD之間不同的依賴關系,RDD??的依賴關系包括窄依賴(Narrow?Dependency)和寬依賴(Wide?Dependency)兩??種
?J??圖2-4大數(shù)據(jù)分析平臺邏輯架構??圖2-4展示了大數(shù)據(jù)分析平臺的邏輯架構,邏輯上將平臺分為三部分:數(shù)據(jù)??存儲和傳輸模塊、數(shù)據(jù)工作流模塊和數(shù)據(jù)分析模塊,物理上可以分為遠程的分布??10??
本文編號:3409497
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
圖2-2?Spark相關功能??
Spark是由加州伯克利大學開發(fā)的分布式計算引擎,Spark幾乎繼承了??MapReduce的全部優(yōu)點,并在具有比MapReduce更快的處理速度和更能豐富的??功能,Spark的主要功能如圖2-2所示,包括了進行流計算的Spark?Streaming、??機器學習庫MLlib、圖計算GraphX等。??:";:;;:;';;;::..:??圖2-2?Spark相關功能??Spark為用戶提供了以彈性分布式數(shù)據(jù)集(Resillient?Distributed?Dataset,RDD)??為基礎的規(guī)范編程結構。RDD實現(xiàn)了以類似本地操作數(shù)據(jù)集的方式對分布式數(shù)??據(jù)集進行操作,它表示的是不可變的、已被分區(qū)并能被并行處理的數(shù)據(jù)集合,每??個分區(qū)(Partition)作為對RDD操作的最小數(shù)據(jù)單位。??用戶對RDD的操作一般分為兩種,分別是轉換操作(Transformations)和行??動操作(Actions),轉換操作的返回值還是一個RDD,使用了鏈式調用的設計模??式,常見的轉換操作有map、filter、flatmap等;行動操作返回的結果一般是一個??集合或者一個值等,常見的行動操作有count、reduce、collect等。??對RDD進行不同的轉換操作,可能會產(chǎn)生RDD之間不同的依賴關系,RDD??的依賴關系包括窄依賴(Narrow?Dependency)和寬依賴(Wide?Dependency)兩??種
?J??圖2-4大數(shù)據(jù)分析平臺邏輯架構??圖2-4展示了大數(shù)據(jù)分析平臺的邏輯架構,邏輯上將平臺分為三部分:數(shù)據(jù)??存儲和傳輸模塊、數(shù)據(jù)工作流模塊和數(shù)據(jù)分析模塊,物理上可以分為遠程的分布??10??
本文編號:3409497
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3409497.html
最近更新
教材專著