基于Hadoop的圖算法在電信社會網(wǎng)絡(luò)分析中的應(yīng)用
發(fā)布時間:2019-09-03 15:50
【摘要】:大數(shù)據(jù)處理技術(shù)在當(dāng)今數(shù)據(jù)時代應(yīng)運(yùn)而生并以飛一般的速度進(jìn)步和發(fā)展著,各行各業(yè)也無一例外迫不及待地將這項技術(shù)引入到各自的領(lǐng)域中。電信行業(yè)掌握著人們?nèi)粘Mㄐ诺拿}搏,擁有著數(shù)以億計的用戶,時時刻刻都在產(chǎn)生著用戶的通話、消費(fèi)、上網(wǎng)等數(shù)據(jù)。運(yùn)營商從不同的角度深入分析,以得到支撐它們商業(yè)運(yùn)營的數(shù)據(jù)基礎(chǔ)。其中非常重要的一種應(yīng)用就是對其用戶所形成的社會網(wǎng)絡(luò)進(jìn)行分析。而運(yùn)用大數(shù)據(jù)處理技術(shù)可以極大提高運(yùn)營商獲取數(shù)據(jù)分析結(jié)論的速度,F(xiàn)今Hadoop MapReduce可謂是公認(rèn)的大數(shù)據(jù)處理的翹楚,本文借助該計算框架來進(jìn)行社會網(wǎng)絡(luò)分析算法的并行化。首先,基于要確定電信運(yùn)營商網(wǎng)絡(luò)中用戶傳播價值的需求,本文結(jié)合集中式計算時代被廣為認(rèn)可的快速中介中心度算法設(shè)計了 MR-BC算法,并針對此算法的高迭代復(fù)雜度、高數(shù)據(jù)空間復(fù)雜度等問題,結(jié)合MapReduce編程框架的原理和優(yōu)化策略,實現(xiàn)了 MR-BC算法的優(yōu)化。社區(qū)是社會網(wǎng)絡(luò)分析中另一十分重要的研究要點(diǎn)。電信運(yùn)營商可以通過這種分析手段,了解其用戶的通信行為,模擬用戶在實際生活中的人際關(guān)系,便于進(jìn)行用戶的定位。本文深入學(xué)習(xí)研究了最為流行的被應(yīng)用在不同類型網(wǎng)絡(luò)中來進(jìn)行的社區(qū)發(fā)現(xiàn)的方法——派系過濾算法的原理,分析了該算法對存儲、IO等方面的計算需求,以算法可以基于本地網(wǎng)絡(luò)拓?fù)溥壿嫗橐罁?jù),確定該算法并行化的可行性,以解決派系過濾算法的計算挑戰(zhàn)為目的,結(jié)合MapReduce計算框架設(shè)計并實現(xiàn)并行計算模型下的MR-CPM算法,對該算法的分布式設(shè)計思想和算法流程進(jìn)行了詳細(xì)的闡述。
【圖文】:
式通常就是由數(shù)據(jù)元素或記錄以一定的結(jié)果重復(fù)組成,例如,大量重復(fù)性的訪問逡逑日志構(gòu)成了邋Web訪問日志數(shù)據(jù)文件,順序式的掃描處理方式正好適合于用來對逡逑這種順序式數(shù)據(jù)形式進(jìn)行處理。圖3-1展示了上述典型的順序式大數(shù)據(jù)處理過程逡逑的抽象以及特征:逡逑對欠最順序式數(shù)據(jù)元素/記最進(jìn)行掃描邐"]邐邐逡逑b)對每個數(shù)據(jù)元素/記錄做感興趣的處理,獲取感興趣的i=C>邋Map逡逑中間結(jié)果信息邐邐逡逑V邐邋y逡逑C>排序和整理中間結(jié)果以利后續(xù)處理逡逑—逡逑d)收集整理中岤邐Reduce逡逑e>產(chǎn)生最終結(jié)果輸出邐邐逡逑\邐邋邋邋y逡逑圖3-]大數(shù)據(jù)的處理過程的抽象逡逑MapReduce將圖3-1中的兩個處理過程進(jìn)行了抽象,把圖3-1中展示處理過逡逑程中的前兩步在Map操作中完成,而Reduce操作承擔(dān)后兩步的處理任務(wù)。具體逡逑來說,在Map0方法中,計算框架會以某種重復(fù)的方式主對一組數(shù)據(jù)記錄進(jìn)行某逡逑種處理,,而在Reduce()方法階段,就需要以某種方式整理Map()方法輸出的中間逡逑結(jié)果,并輸出進(jìn)一步的結(jié)果。逡逑3.2邋Hadoop邋MapReduce的主要功能和技術(shù)特征逡逑3.2.1邋MapReduce的主要功能逡逑通過數(shù)據(jù)處理模型的抽象和計算框架的分布式自動化,MapReduce把做什逡逑么與怎么做解耦開
邋pd]逡逑將Value結(jié)構(gòu)抽象成實現(xiàn)Hadoop序列化框架Writable的類型Node,其UML逡逑及字段解釋如圖4-2所示:逡逑令逡逑i逡逑-dest:目的節(jié)點(diǎn)id邐BBS逡逑—麗:研辱涵吾——逡逑.......邋邐邐邐邐邐邐邐邐邐邐逡逑?pmcessjtatus:節(jié)廉處理狀態(tài)邋邐邐邐邐—邋?邋p?邋Pending逡逑 ̄邋predecessors:自_節(jié)點(diǎn)扢前福邐-#海rP茫酰潁潁澹睿簦rP校恚悖恚螅]3?^邋^邐--—*—邋邐邐逡逑邐朱口邐邋-D:邋Done逡逑-distance:目的節(jié)點(diǎn)與_節(jié)點(diǎn)間:逡逑邐邐邐的距?邋邐逡逑-n曬:自的令點(diǎn)與源節(jié)點(diǎn)間的逡逑邐最短路徑數(shù)邐——逡逑-pd:逡逑圖4-2單源MR-BC算法的Value數(shù)據(jù)結(jié)構(gòu)定義逡逑4.2.2.2前向遍歷的MapReduce算法逡逑前向遍歷即是用BFS算法來實現(xiàn)圖的遍歷,并記錄下作為反向回溯是計算逡逑依據(jù)的必要信息。在前向遍歷過程正式開始之前,需要對圖中所有的節(jié)點(diǎn)進(jìn)行初逡逑始化,以得到MapReduce作業(yè)所需的輸入形式。輸入的鍵即為各個用戶的手機(jī)逡逑號碼;Value中各個字段的初始化規(guī)則如下:逡逑>邐Node.dest初始化為節(jié)點(diǎn)本身的ID,即與鍵相同的用戶電話號碼;逡逑Node.nbrs初始化為前一節(jié)中的關(guān)系過濾算法的到的結(jié)果;逡逑>邐Node.process_status初始化為尚未處理
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13
本文編號:2531444
【圖文】:
式通常就是由數(shù)據(jù)元素或記錄以一定的結(jié)果重復(fù)組成,例如,大量重復(fù)性的訪問逡逑日志構(gòu)成了邋Web訪問日志數(shù)據(jù)文件,順序式的掃描處理方式正好適合于用來對逡逑這種順序式數(shù)據(jù)形式進(jìn)行處理。圖3-1展示了上述典型的順序式大數(shù)據(jù)處理過程逡逑的抽象以及特征:逡逑對欠最順序式數(shù)據(jù)元素/記最進(jìn)行掃描邐"]邐邐逡逑b)對每個數(shù)據(jù)元素/記錄做感興趣的處理,獲取感興趣的i=C>邋Map逡逑中間結(jié)果信息邐邐逡逑V邐邋y逡逑C>排序和整理中間結(jié)果以利后續(xù)處理逡逑—逡逑d)收集整理中岤邐Reduce逡逑e>產(chǎn)生最終結(jié)果輸出邐邐逡逑\邐邋邋邋y逡逑圖3-]大數(shù)據(jù)的處理過程的抽象逡逑MapReduce將圖3-1中的兩個處理過程進(jìn)行了抽象,把圖3-1中展示處理過逡逑程中的前兩步在Map操作中完成,而Reduce操作承擔(dān)后兩步的處理任務(wù)。具體逡逑來說,在Map0方法中,計算框架會以某種重復(fù)的方式主對一組數(shù)據(jù)記錄進(jìn)行某逡逑種處理,,而在Reduce()方法階段,就需要以某種方式整理Map()方法輸出的中間逡逑結(jié)果,并輸出進(jìn)一步的結(jié)果。逡逑3.2邋Hadoop邋MapReduce的主要功能和技術(shù)特征逡逑3.2.1邋MapReduce的主要功能逡逑通過數(shù)據(jù)處理模型的抽象和計算框架的分布式自動化,MapReduce把做什逡逑么與怎么做解耦開
邋pd]逡逑將Value結(jié)構(gòu)抽象成實現(xiàn)Hadoop序列化框架Writable的類型Node,其UML逡逑及字段解釋如圖4-2所示:逡逑令逡逑i逡逑-dest:目的節(jié)點(diǎn)id邐BBS逡逑—麗:研辱涵吾——逡逑.......邋邐邐邐邐邐邐邐邐邐邐逡逑?pmcessjtatus:節(jié)廉處理狀態(tài)邋邐邐邐邐—邋?邋p?邋Pending逡逑 ̄邋predecessors:自_節(jié)點(diǎn)扢前福邐-#海rP茫酰潁潁澹睿簦rP校恚悖恚螅]3?^邋^邐--—*—邋邐邐逡逑邐朱口邐邋-D:邋Done逡逑-distance:目的節(jié)點(diǎn)與_節(jié)點(diǎn)間:逡逑邐邐邐的距?邋邐逡逑-n曬:自的令點(diǎn)與源節(jié)點(diǎn)間的逡逑邐最短路徑數(shù)邐——逡逑-pd:逡逑圖4-2單源MR-BC算法的Value數(shù)據(jù)結(jié)構(gòu)定義逡逑4.2.2.2前向遍歷的MapReduce算法逡逑前向遍歷即是用BFS算法來實現(xiàn)圖的遍歷,并記錄下作為反向回溯是計算逡逑依據(jù)的必要信息。在前向遍歷過程正式開始之前,需要對圖中所有的節(jié)點(diǎn)進(jìn)行初逡逑始化,以得到MapReduce作業(yè)所需的輸入形式。輸入的鍵即為各個用戶的手機(jī)逡逑號碼;Value中各個字段的初始化規(guī)則如下:逡逑>邐Node.dest初始化為節(jié)點(diǎn)本身的ID,即與鍵相同的用戶電話號碼;逡逑Node.nbrs初始化為前一節(jié)中的關(guān)系過濾算法的到的結(jié)果;逡逑>邐Node.process_status初始化為尚未處理
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13
【參考文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前1條
1 張戰(zhàn)勝;復(fù)雜網(wǎng)絡(luò)特征分析及其在電信客戶流失分析中的應(yīng)用[D];北京郵電大學(xué);2007年
本文編號:2531444
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2531444.html
最近更新
教材專著