基于Spark的社區(qū)發(fā)現(xiàn)算法并行化的研究及應(yīng)用
發(fā)布時間:2021-02-28 00:11
家庭用戶市場是通信行業(yè)重點競爭的市場,運營商急需一種家庭關(guān)系識別模型,能夠在海量的用戶歷史通話記錄中準確地識別出家庭用戶。隨著智能手機迅速普及,通話社交網(wǎng)絡(luò)不僅成為最大的社交網(wǎng)絡(luò),而且還映射了現(xiàn)實世界中不同用戶間的親密關(guān)系,因此通話社交網(wǎng)絡(luò)呈現(xiàn)出了一定的社區(qū)結(jié)構(gòu)。針對這一特征,本文提出利用社區(qū)發(fā)現(xiàn)算法構(gòu)建通話社交網(wǎng)絡(luò)上的家庭關(guān)系識別模型。綜合考慮時間、模塊度等要素,本文選擇Louvain算法作為家庭關(guān)系識別模型的社區(qū)發(fā)現(xiàn)算法。目前,真實世界的社交網(wǎng)絡(luò)規(guī)模早已達到億級別,對家庭關(guān)系識別模型構(gòu)建帶來了嚴峻的計算挑戰(zhàn)。由于通話數(shù)據(jù)集呈現(xiàn)出網(wǎng)狀式圖結(jié)構(gòu)特征,并且Spark分布式并行計算平臺提供了用于圖分析和圖計算的GraphX組件,所以本文在Spark平臺上構(gòu)建家庭關(guān)系識別模型以及重點研究基于GraphX的Louvain算法并行化,主要工作與創(chuàng)新點包括以下幾個部分:1.基于GraphX實現(xiàn)Louvain算法并行化。本文分析Louvain算法的基本原理,通過GraphX的發(fā)送、聚合消息機制完成Louvain算法的核心計算步驟,在GraphX上實現(xiàn)Louvain算法的并行化。為了解決并行化后出現(xiàn)的...
【文章來源】:河北師范大學(xué)河北省
【文章頁數(shù)】:83 頁
【學(xué)位級別】:碩士
【部分圖文】:
不同算法的模塊度比較
37由圖3.6和表3.18可知,PLL算法和單機的Louvain算法在不同數(shù)據(jù)集上模塊度的值是一樣的。表明PLL算法和單機Louvain算法相比,PLL算法沒有降低社區(qū)劃分結(jié)果的準確度。CGL算法則在每個數(shù)據(jù)集上,比其他兩種算法的模塊度值低,但是最大差值僅為0.08,說明這三種算法在模塊度指標上差異不大。圖3.7不同算法的NMI比較圖3.7為PLL算法、CGL算法、單機的Louvain算法的劃分結(jié)果的與真實網(wǎng)絡(luò)劃分的NMI值比較。NMI的值越接近1,表明劃分的結(jié)果與真實結(jié)果越相近。由表3.18中的數(shù)據(jù)可知,PLL算法和單機的Louvain算法在不同數(shù)據(jù)集上NMI的值是一樣的,表明PLL算法和單機Louvain算法相比,PLL算法擁有和單機Louvain算法同等能力的社區(qū)劃分效果。CGL算法在每個數(shù)據(jù)集上,比其他兩種算法的NMI值低。說明CGL算法在NMI指標上不如其他兩種算法。圖3.8不同算法的運行時間比較圖3.8為PLL算法、CGL算法、單機的Louvain算法的運行時間比較,由表3.18中的數(shù)據(jù)可知,PLL算法在不同數(shù)據(jù)集上運行時間都是最長的,且在DBLP數(shù)據(jù)集上運行時間超過24小時,遠超其他算法運行時間。說明PLL算法在運行時間指標上不如其他
37由圖3.6和表3.18可知,PLL算法和單機的Louvain算法在不同數(shù)據(jù)集上模塊度的值是一樣的。表明PLL算法和單機Louvain算法相比,PLL算法沒有降低社區(qū)劃分結(jié)果的準確度。CGL算法則在每個數(shù)據(jù)集上,比其他兩種算法的模塊度值低,但是最大差值僅為0.08,說明這三種算法在模塊度指標上差異不大。圖3.7不同算法的NMI比較圖3.7為PLL算法、CGL算法、單機的Louvain算法的劃分結(jié)果的與真實網(wǎng)絡(luò)劃分的NMI值比較。NMI的值越接近1,表明劃分的結(jié)果與真實結(jié)果越相近。由表3.18中的數(shù)據(jù)可知,PLL算法和單機的Louvain算法在不同數(shù)據(jù)集上NMI的值是一樣的,表明PLL算法和單機Louvain算法相比,PLL算法擁有和單機Louvain算法同等能力的社區(qū)劃分效果。CGL算法在每個數(shù)據(jù)集上,比其他兩種算法的NMI值低。說明CGL算法在NMI指標上不如其他兩種算法。圖3.8不同算法的運行時間比較圖3.8為PLL算法、CGL算法、單機的Louvain算法的運行時間比較,由表3.18中的數(shù)據(jù)可知,PLL算法在不同數(shù)據(jù)集上運行時間都是最長的,且在DBLP數(shù)據(jù)集上運行時間超過24小時,遠超其他算法運行時間。說明PLL算法在運行時間指標上不如其他
【參考文獻】:
期刊論文
[1]基于Hadoop和Spark的雷達數(shù)據(jù)序列模式挖掘系統(tǒng)[J]. 羅祖兵,楊曉敏,嚴斌宇. 計算機應(yīng)用. 2019(S2)
[2]基于網(wǎng)絡(luò)表示學(xué)習(xí)的非單一維度的社區(qū)發(fā)現(xiàn)算法[J]. 陳婉杰,盛益強. 計算機應(yīng)用. 2019(12)
[3]基于維基百科類別圖的推特用戶興趣挖掘[J]. 劉小捷,呂曉強,王曉玲,張偉,趙安. 計算機科學(xué). 2019(09)
[4]基于Hadoop的Web日志分析系統(tǒng)的設(shè)計[J]. 何璇,馬佳琳. 軟件工程. 2019(02)
[5]Spark性能優(yōu)化技術(shù)研究綜述[J]. 廖湖聲,黃珊珊,徐俊剛,劉仁峰. 計算機科學(xué). 2018(07)
[6]融合拓撲勢的社交網(wǎng)絡(luò)層次化社區(qū)發(fā)現(xiàn)算法[J]. 候夢男,王志曉,何婧,芮曉彬,高菊遠. 計算機工程與應(yīng)用. 2019(01)
[7]基于Hadoop平臺的相關(guān)性權(quán)重算法設(shè)計與實現(xiàn)[J]. 高軍,黃獻策. 計算機工程. 2019(03)
[8]MapReduce與Spark用于大數(shù)據(jù)分析之比較[J]. 吳信東,嵇圣硙. 軟件學(xué)報. 2018(06)
[9]Hadoop與Spark應(yīng)用場景研究[J]. 馮興杰,王文超. 計算機應(yīng)用研究. 2018(09)
[10]基于并行圖計算的社區(qū)劃分方法[J]. 譚敢鋒,劉群. 計算機應(yīng)用研究. 2018(08)
博士論文
[1]基于統(tǒng)計推理的復(fù)雜網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)分析[D]. 陳毅.哈爾濱工業(yè)大學(xué) 2016
碩士論文
[1]基于移動通信社會化網(wǎng)絡(luò)的家庭關(guān)系識別[D]. 李飛成.北京郵電大學(xué) 2019
[2]Louvain算法在社區(qū)挖掘中的研究與實現(xiàn)[D]. 李沐南.中國石油大學(xué)(北京) 2016
[3]基于移動通信交往圈的家庭用戶識別研究[D]. 陸菁.上海交通大學(xué) 2014
本文編號:3055009
【文章來源】:河北師范大學(xué)河北省
【文章頁數(shù)】:83 頁
【學(xué)位級別】:碩士
【部分圖文】:
不同算法的模塊度比較
37由圖3.6和表3.18可知,PLL算法和單機的Louvain算法在不同數(shù)據(jù)集上模塊度的值是一樣的。表明PLL算法和單機Louvain算法相比,PLL算法沒有降低社區(qū)劃分結(jié)果的準確度。CGL算法則在每個數(shù)據(jù)集上,比其他兩種算法的模塊度值低,但是最大差值僅為0.08,說明這三種算法在模塊度指標上差異不大。圖3.7不同算法的NMI比較圖3.7為PLL算法、CGL算法、單機的Louvain算法的劃分結(jié)果的與真實網(wǎng)絡(luò)劃分的NMI值比較。NMI的值越接近1,表明劃分的結(jié)果與真實結(jié)果越相近。由表3.18中的數(shù)據(jù)可知,PLL算法和單機的Louvain算法在不同數(shù)據(jù)集上NMI的值是一樣的,表明PLL算法和單機Louvain算法相比,PLL算法擁有和單機Louvain算法同等能力的社區(qū)劃分效果。CGL算法在每個數(shù)據(jù)集上,比其他兩種算法的NMI值低。說明CGL算法在NMI指標上不如其他兩種算法。圖3.8不同算法的運行時間比較圖3.8為PLL算法、CGL算法、單機的Louvain算法的運行時間比較,由表3.18中的數(shù)據(jù)可知,PLL算法在不同數(shù)據(jù)集上運行時間都是最長的,且在DBLP數(shù)據(jù)集上運行時間超過24小時,遠超其他算法運行時間。說明PLL算法在運行時間指標上不如其他
37由圖3.6和表3.18可知,PLL算法和單機的Louvain算法在不同數(shù)據(jù)集上模塊度的值是一樣的。表明PLL算法和單機Louvain算法相比,PLL算法沒有降低社區(qū)劃分結(jié)果的準確度。CGL算法則在每個數(shù)據(jù)集上,比其他兩種算法的模塊度值低,但是最大差值僅為0.08,說明這三種算法在模塊度指標上差異不大。圖3.7不同算法的NMI比較圖3.7為PLL算法、CGL算法、單機的Louvain算法的劃分結(jié)果的與真實網(wǎng)絡(luò)劃分的NMI值比較。NMI的值越接近1,表明劃分的結(jié)果與真實結(jié)果越相近。由表3.18中的數(shù)據(jù)可知,PLL算法和單機的Louvain算法在不同數(shù)據(jù)集上NMI的值是一樣的,表明PLL算法和單機Louvain算法相比,PLL算法擁有和單機Louvain算法同等能力的社區(qū)劃分效果。CGL算法在每個數(shù)據(jù)集上,比其他兩種算法的NMI值低。說明CGL算法在NMI指標上不如其他兩種算法。圖3.8不同算法的運行時間比較圖3.8為PLL算法、CGL算法、單機的Louvain算法的運行時間比較,由表3.18中的數(shù)據(jù)可知,PLL算法在不同數(shù)據(jù)集上運行時間都是最長的,且在DBLP數(shù)據(jù)集上運行時間超過24小時,遠超其他算法運行時間。說明PLL算法在運行時間指標上不如其他
【參考文獻】:
期刊論文
[1]基于Hadoop和Spark的雷達數(shù)據(jù)序列模式挖掘系統(tǒng)[J]. 羅祖兵,楊曉敏,嚴斌宇. 計算機應(yīng)用. 2019(S2)
[2]基于網(wǎng)絡(luò)表示學(xué)習(xí)的非單一維度的社區(qū)發(fā)現(xiàn)算法[J]. 陳婉杰,盛益強. 計算機應(yīng)用. 2019(12)
[3]基于維基百科類別圖的推特用戶興趣挖掘[J]. 劉小捷,呂曉強,王曉玲,張偉,趙安. 計算機科學(xué). 2019(09)
[4]基于Hadoop的Web日志分析系統(tǒng)的設(shè)計[J]. 何璇,馬佳琳. 軟件工程. 2019(02)
[5]Spark性能優(yōu)化技術(shù)研究綜述[J]. 廖湖聲,黃珊珊,徐俊剛,劉仁峰. 計算機科學(xué). 2018(07)
[6]融合拓撲勢的社交網(wǎng)絡(luò)層次化社區(qū)發(fā)現(xiàn)算法[J]. 候夢男,王志曉,何婧,芮曉彬,高菊遠. 計算機工程與應(yīng)用. 2019(01)
[7]基于Hadoop平臺的相關(guān)性權(quán)重算法設(shè)計與實現(xiàn)[J]. 高軍,黃獻策. 計算機工程. 2019(03)
[8]MapReduce與Spark用于大數(shù)據(jù)分析之比較[J]. 吳信東,嵇圣硙. 軟件學(xué)報. 2018(06)
[9]Hadoop與Spark應(yīng)用場景研究[J]. 馮興杰,王文超. 計算機應(yīng)用研究. 2018(09)
[10]基于并行圖計算的社區(qū)劃分方法[J]. 譚敢鋒,劉群. 計算機應(yīng)用研究. 2018(08)
博士論文
[1]基于統(tǒng)計推理的復(fù)雜網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)分析[D]. 陳毅.哈爾濱工業(yè)大學(xué) 2016
碩士論文
[1]基于移動通信社會化網(wǎng)絡(luò)的家庭關(guān)系識別[D]. 李飛成.北京郵電大學(xué) 2019
[2]Louvain算法在社區(qū)挖掘中的研究與實現(xiàn)[D]. 李沐南.中國石油大學(xué)(北京) 2016
[3]基于移動通信交往圈的家庭用戶識別研究[D]. 陸菁.上海交通大學(xué) 2014
本文編號:3055009
本文鏈接:http://sikaile.net/shekelunwen/shgj/3055009.html
最近更新
教材專著