當(dāng)前位置：主頁 > 社科論文 > 社會(huì)學(xué)論文 >

基于Spark的社區(qū)發(fā)現(xiàn)算法并行化的研究及應(yīng)用

發(fā)布時(shí)間：2021-02-28 00:11

　　家庭用戶市場是通信行業(yè)重點(diǎn)競爭的市場,運(yùn)營商急需一種家庭關(guān)系識(shí)別模型,能夠在海量的用戶歷史通話記錄中準(zhǔn)確地識(shí)別出家庭用戶。隨著智能手機(jī)迅速普及,通話社交網(wǎng)絡(luò)不僅成為最大的社交網(wǎng)絡(luò),而且還映射了現(xiàn)實(shí)世界中不同用戶間的親密關(guān)系,因此通話社交網(wǎng)絡(luò)呈現(xiàn)出了一定的社區(qū)結(jié)構(gòu)。針對這一特征,本文提出利用社區(qū)發(fā)現(xiàn)算法構(gòu)建通話社交網(wǎng)絡(luò)上的家庭關(guān)系識(shí)別模型。綜合考慮時(shí)間、模塊度等要素,本文選擇Louvain算法作為家庭關(guān)系識(shí)別模型的社區(qū)發(fā)現(xiàn)算法。目前,真實(shí)世界的社交網(wǎng)絡(luò)規(guī)模早已達(dá)到億級(jí)別,對家庭關(guān)系識(shí)別模型構(gòu)建帶來了嚴(yán)峻的計(jì)算挑戰(zhàn)。由于通話數(shù)據(jù)集呈現(xiàn)出網(wǎng)狀式圖結(jié)構(gòu)特征,并且Spark分布式并行計(jì)算平臺(tái)提供了用于圖分析和圖計(jì)算的GraphX組件,所以本文在Spark平臺(tái)上構(gòu)建家庭關(guān)系識(shí)別模型以及重點(diǎn)研究基于GraphX的Louvain算法并行化,主要工作與創(chuàng)新點(diǎn)包括以下幾個(gè)部分:1.基于GraphX實(shí)現(xiàn)Louvain算法并行化。本文分析Louvain算法的基本原理,通過GraphX的發(fā)送、聚合消息機(jī)制完成Louvain算法的核心計(jì)算步驟,在GraphX上實(shí)現(xiàn)Louvain算法的并行化。為了解決并行化后出現(xiàn)的...

【文章來源】：河北師范大學(xué)河北省

【文章頁數(shù)】：83 頁

【學(xué)位級(jí)別】：碩士

【部分圖文】：

不同算法的模塊度比較

比較圖,算法,單機(jī),數(shù)據(jù)集

37由圖3.6和表3.18可知，PLL算法和單機(jī)的Louvain算法在不同數(shù)據(jù)集上模塊度的值是一樣的。表明PLL算法和單機(jī)Louvain算法相比，PLL算法沒有降低社區(qū)劃分結(jié)果的準(zhǔn)確度。CGL算法則在每個(gè)數(shù)據(jù)集上，比其他兩種算法的模塊度值低，但是最大差值僅為0.08，說明這三種算法在模塊度指標(biāo)上差異不大。圖3.7不同算法的NMI比較圖3.7為PLL算法、CGL算法、單機(jī)的Louvain算法的劃分結(jié)果的與真實(shí)網(wǎng)絡(luò)劃分的NMI值比較。NMI的值越接近1，表明劃分的結(jié)果與真實(shí)結(jié)果越相近。由表3.18中的數(shù)據(jù)可知，PLL算法和單機(jī)的Louvain算法在不同數(shù)據(jù)集上NMI的值是一樣的，表明PLL算法和單機(jī)Louvain算法相比，PLL算法擁有和單機(jī)Louvain算法同等能力的社區(qū)劃分效果。CGL算法在每個(gè)數(shù)據(jù)集上，比其他兩種算法的NMI值低。說明CGL算法在NMI指標(biāo)上不如其他兩種算法。圖3.8不同算法的運(yùn)行時(shí)間比較圖3.8為PLL算法、CGL算法、單機(jī)的Louvain算法的運(yùn)行時(shí)間比較，由表3.18中的數(shù)據(jù)可知，PLL算法在不同數(shù)據(jù)集上運(yùn)行時(shí)間都是最長的，且在DBLP數(shù)據(jù)集上運(yùn)行時(shí)間超過24小時(shí)，遠(yuǎn)超其他算法運(yùn)行時(shí)間。說明PLL算法在運(yùn)行時(shí)間指標(biāo)上不如其他

【參考文獻(xiàn)】：
期刊論文
[1]基于Hadoop和Spark的雷達(dá)數(shù)據(jù)序列模式挖掘系統(tǒng)[J]. 羅祖兵,楊曉敏,嚴(yán)斌宇.  計(jì)算機(jī)應(yīng)用. 2019(S2)
[2]基于網(wǎng)絡(luò)表示學(xué)習(xí)的非單一維度的社區(qū)發(fā)現(xiàn)算法[J]. 陳婉杰,盛益強(qiáng).  計(jì)算機(jī)應(yīng)用. 2019(12)
[3]基于維基百科類別圖的推特用戶興趣挖掘[J]. 劉小捷,呂曉強(qiáng),王曉玲,張偉,趙安.  計(jì)算機(jī)科學(xué). 2019(09)
[4]基于Hadoop的Web日志分析系統(tǒng)的設(shè)計(jì)[J]. 何璇,馬佳琳.  軟件工程. 2019(02)
[5]Spark性能優(yōu)化技術(shù)研究綜述[J]. 廖湖聲,黃珊珊,徐俊剛,劉仁峰.  計(jì)算機(jī)科學(xué). 2018(07)
[6]融合拓?fù)鋭莸纳缃痪W(wǎng)絡(luò)層次化社區(qū)發(fā)現(xiàn)算法[J]. 候夢男,王志曉,何婧,芮曉彬,高菊遠(yuǎn).  計(jì)算機(jī)工程與應(yīng)用. 2019(01)
[7]基于Hadoop平臺(tái)的相關(guān)性權(quán)重算法設(shè)計(jì)與實(shí)現(xiàn)[J]. 高軍,黃獻(xiàn)策.  計(jì)算機(jī)工程. 2019(03)
[8]MapReduce與Spark用于大數(shù)據(jù)分析之比較[J]. 吳信東,嵇圣硙.  軟件學(xué)報(bào). 2018(06)
[9]Hadoop與Spark應(yīng)用場景研究[J]. 馮興杰,王文超.  計(jì)算機(jī)應(yīng)用研究. 2018(09)
[10]基于并行圖計(jì)算的社區(qū)劃分方法[J]. 譚敢鋒,劉群.  計(jì)算機(jī)應(yīng)用研究. 2018(08)

博士論文
[1]基于統(tǒng)計(jì)推理的復(fù)雜網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)分析[D]. 陳毅.哈爾濱工業(yè)大學(xué) 2016

碩士論文
[1]基于移動(dòng)通信社會(huì)化網(wǎng)絡(luò)的家庭關(guān)系識(shí)別[D]. 李飛成.北京郵電大學(xué) 2019
[2]Louvain算法在社區(qū)挖掘中的研究與實(shí)現(xiàn)[D]. 李沐南.中國石油大學(xué)(北京) 2016
[3]基于移動(dòng)通信交往圈的家庭用戶識(shí)別研究[D]. 陸菁.上海交通大學(xué) 2014

本文編號(hào)：3055009

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/shekelunwen/shgj/3055009.html

上一篇：把握重大危機(jī)“窗口期”推進(jìn)社交網(wǎng)絡(luò)輿情治理創(chuàng)新——基于新冠肺炎疫情防控重點(diǎn)地區(qū)輿情數(shù)據(jù)的分析
下一篇：超越社會(huì)科學(xué)方法論二元對立的新嘗試——對索耶社會(huì)突現(xiàn)論的研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Spark的社區(qū)發(fā)現(xiàn)算法并行化的研究及應(yīng)用