基于MapReduce模型的大規(guī)模社交網(wǎng)絡(luò)高效分析算法研究
本文選題:在線社交網(wǎng)絡(luò) + MapReduce ; 參考:《上海交通大學(xué)》2014年碩士論文
【摘要】:自從Web2.0的興起,在線社交網(wǎng)絡(luò)吸引了許多國內(nèi)外研究者的興趣。這些社交網(wǎng)絡(luò)有許多獨(dú)特的結(jié)構(gòu)性質(zhì)如度的冪律分布、極短的網(wǎng)絡(luò)半徑和較明顯的社區(qū)聚集特性。這些結(jié)構(gòu)方面獨(dú)特的性質(zhì)直接或間接影響著網(wǎng)絡(luò)中的信息傳播以及人與人之間的交流互動(dòng),對(duì)于研究人類社會(huì)的組織架構(gòu)形式以及人際關(guān)系的演化方式有著極為重要的作用。目前主流的社交網(wǎng)絡(luò)的用戶數(shù)已達(dá)到上億規(guī)模,而用戶之間的關(guān)系則達(dá)到了幾十億甚至上百億的數(shù)量級(jí)。傳統(tǒng)的工具(如關(guān)系型數(shù)據(jù)庫)以及傳統(tǒng)的算法(基于單CPU的串行算法)已無法勝任。 針對(duì)探索在線社交網(wǎng)絡(luò)結(jié)構(gòu)的問題,本文主要以新浪微博和Twitter為例,并參照對(duì)比了其他有向社交網(wǎng)絡(luò)的測(cè)量結(jié)果,全面探究了在線社交網(wǎng)絡(luò)的結(jié)構(gòu)特征,包括度的分布、關(guān)系的相互性、聚集性、度的相關(guān)性、路徑長度和社區(qū)等。其中,新浪微博的數(shù)據(jù)集是本文通過一個(gè)分布式爬蟲,經(jīng)過3個(gè)月的時(shí)間從其網(wǎng)站爬取的結(jié)果,包含了1.35億個(gè)用戶和104億條關(guān)系。 針對(duì)大規(guī)模在線社交網(wǎng)絡(luò)數(shù)據(jù)的處理問題,本文提出了若干種基于MapReduce模型的社交網(wǎng)絡(luò)分析算法。其中最基礎(chǔ)最核心的是半并行廣度優(yōu)先搜索算法。該算法在運(yùn)算量和I/O負(fù)載等性能方面都要遠(yuǎn)遠(yuǎn)優(yōu)于業(yè)界公認(rèn)的圖的挖掘算法類庫——Pegasus。本文給出了所提出算法的理論性能分析結(jié)果,,同時(shí)基于新浪微博的網(wǎng)絡(luò)結(jié)構(gòu)特征給出了經(jīng)驗(yàn)性能分析結(jié)果和實(shí)測(cè)結(jié)果。
[Abstract]:Since the emergence of Web 2.0, online social networks have attracted the interest of many researchers at home and abroad. These social networks have many unique structural properties such as power law distribution of degree, very short radius of network and obvious community aggregation. The unique nature of these structures directly or indirectly affects the information dissemination and the interaction between people in the network, and plays an extremely important role in the study of the organizational structure of human society and the evolution of interpersonal relationships. The number of users of mainstream social networks has reached hundreds of millions, while the relationship between users has reached billions or even tens of billions of orders of magnitude. Traditional tools (such as relational databases) and traditional algorithms (single CPU based serial algorithms) have been incompetent. Aiming at the problem of exploring the network structure of online social networks, this paper mainly takes Sina Weibo and Twitter as examples, and compares the measurement results of other directed social networks, and probes into the structural characteristics of online social networks, including the distribution of degrees. Interactivity, agglomeration, correlation of degree, path length, community, etc. Among them, the data set of Sina Weibo is the result of a distributed crawler crawling from its website in three months. It contains 135 million users and 10.4 billion relationships. Aiming at the problem of data processing of large-scale online social networks, this paper presents several analysis algorithms of social networks based on MapReduce model. The most basic and core is the half parallel breadth-first search algorithm. The algorithm is much better than the class library of graph mining in terms of computation and I / O load. In this paper, the theoretical performance analysis results of the proposed algorithm are given, and the empirical performance analysis results and the measured results are given based on the network structure characteristics of Sina Weibo.
【學(xué)位授予單位】:上海交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP393.092
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 劉滿鳳;唐厚興;;基于社會(huì)網(wǎng)絡(luò)模型的知識(shí)溢出傳導(dǎo)過程研究[J];當(dāng)代財(cái)經(jīng);2010年05期
2 張廷;高寶俊;宣慧玉;;基于元胞自動(dòng)機(jī)的創(chuàng)新擴(kuò)散模型綜述[J];系統(tǒng)工程;2006年12期
3 段文奇;陳忠;惠淑敏;;基于復(fù)雜網(wǎng)絡(luò)的網(wǎng)絡(luò)市場(chǎng)新產(chǎn)品擴(kuò)散:采用網(wǎng)絡(luò)和初始條件的作用[J];系統(tǒng)工程;2007年05期
4 張青敏;胡斌;劉婉;;信息傳播及其生命周期對(duì)移動(dòng)商務(wù)價(jià)值鏈運(yùn)行的影響研究[J];管理學(xué)報(bào);2012年04期
5 朱志國;;基于在線社會(huì)網(wǎng)絡(luò)的病毒性營銷傳播機(jī)理研究[J];圖書與情報(bào);2012年06期
6 張靜遠(yuǎn);孫偉剛;童麗艷;李常品;;Topological Properties of Fibonacci Networks[J];Communications in Theoretical Physics;2013年09期
7 陳國強(qiáng);王宇平;劉盛華;;Centrality measure of complex networks based on resource flow[J];Journal of Beijing Institute of Technology;2013年03期
8 陳斌;徐志明;張永超;;基于微博社交網(wǎng)絡(luò)的信息傳播分析[J];智能計(jì)算機(jī)與應(yīng)用;2013年05期
9 葉強(qiáng);孫忠林;魏永山;;一種基于Hadoop的大規(guī)模圖直徑算法[J];電腦開發(fā)與應(yīng)用;2013年12期
10 郎波;張博宇;;面向大數(shù)據(jù)的非結(jié)構(gòu)化數(shù)據(jù)管理平臺(tái)關(guān)鍵技術(shù)[J];信息技術(shù)與標(biāo)準(zhǔn)化;2013年10期
相關(guān)會(huì)議論文 前10條
1 ;Minimizing the Complete Influence Time of a Social Network with Limited Resource[A];第七屆中國不確定系統(tǒng)年會(huì)論文集[C];2009年
2 Qiu Xinyun;Wang Lifu;GaoYuan;Wu Yaping;;The Optimal Synchronizability of a Class Network[A];第25屆中國控制與決策會(huì)議論文集[C];2013年
3 Zhanshan Wang;Chao Cai;Junyi Wang;Hongjing Liang;;Design of State Observer for Discrete-time Fault Complex Interconnected Networks with Different Nodes[A];第25屆中國控制與決策會(huì)議論文集[C];2013年
4 喬媛媛;劉芳;凌艷;尹勁松;;云計(jì)算環(huán)境下MapReduce的資源建模與性能預(yù)測(cè)[A];2013年全國通信軟件學(xué)術(shù)會(huì)議論文集[C];2013年
5 Bin Ye;Kangwei Zuo;Jiajia Jia;;Random Matrix Analysis of Spectral Properties in Directed Complex Networks[A];第26屆中國控制與決策會(huì)議論文集[C];2014年
6 Bin Ye;Shuai Xu;;A Quantum Dynamics Approach to Spectral Analysis in Small-World Complex Networks[A];第26屆中國控制與決策會(huì)議論文集[C];2014年
7 HAN Zhen;LU Yu;GU Ping;;Research on the Test of Maintenance Support Force System Based on the Theory of Complex Network[A];第26屆中國控制與決策會(huì)議論文集[C];2014年
8 Xiaoguang Han;Jigang Sun;Wu Qu;Xuanxia Yao;;Distributed Malware Detection based on Binary File Features in Cloud Computing Environment[A];第26屆中國控制與決策會(huì)議論文集[C];2014年
9 Zhou Hong;Li Wei;Qin Yu-Zhen;Feng Kuo;Liu Zhi-Wei;;Projective Synchronization of Two Time-delay Impulsive Coupling Complex Networks[A];第26屆中國控制與決策會(huì)議論文集[C];2014年
10 Anding Dai;Wuneng Zhou;Yichao Zheng;Shengchao Su;;Exponential synchronization of stochastic complex dynamical networks with impulsive perturbations and Markovian switching[A];第26屆中國控制與決策會(huì)議論文集[C];2014年
相關(guān)博士學(xué)位論文 前10條
1 劉天印;基于系統(tǒng)模擬的高校教師工作壓力研究[D];華中科技大學(xué);2010年
2 顏海興;基于創(chuàng)新擴(kuò)散模型的市場(chǎng)營銷組合策略研究[D];東華大學(xué);2010年
3 苗旺;消費(fèi)者視角的創(chuàng)新產(chǎn)品擴(kuò)散研究[D];山東大學(xué);2011年
4 柴海燕;旅游目的地網(wǎng)絡(luò)口碑傳播研究[D];武漢大學(xué);2011年
5 張青敏;移動(dòng)商務(wù)信息擴(kuò)散及其對(duì)價(jià)值鏈的影響研究[D];武漢大學(xué);2011年
6 程秀芳;虛擬社區(qū)網(wǎng)絡(luò)口碑對(duì)消費(fèi)者決策行為影響研究[D];中國礦業(yè)大學(xué);2011年
7 黃瑋強(qiáng);基于復(fù)雜社會(huì)網(wǎng)絡(luò)的創(chuàng)新擴(kuò)散研究[D];東北大學(xué);2009年
8 于宇梅;兩個(gè)高維競爭模型的全局性態(tài)分析[D];蘇州大學(xué);2006年
9 趙正龍;基于復(fù)雜社會(huì)網(wǎng)絡(luò)的創(chuàng)新擴(kuò)散模型研究[D];上海交通大學(xué);2008年
10 吳江;組織—信息系統(tǒng)互動(dòng)動(dòng)態(tài)網(wǎng)絡(luò)模擬研究[D];華中科技大學(xué);2009年
相關(guān)碩士學(xué)位論文 前10條
1 吳昊;網(wǎng)絡(luò)論壇中的用戶主題討論建模及應(yīng)用[D];浙江大學(xué);2011年
2 蘭如欽;社會(huì)網(wǎng)絡(luò)上的影響力最大化算法研究[D];北京交通大學(xué);2011年
3 梁雁;男士潔面產(chǎn)品購買者的自我形象對(duì)口碑傳播效果的影響研究[D];華南理工大學(xué);2011年
4 姜秀芳;面向復(fù)雜網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)算法研究[D];中國科學(xué)技術(shù)大學(xué);2011年
5 元文娟;面向在線用戶評(píng)論的管理反饋實(shí)證研究[D];哈爾濱工業(yè)大學(xué);2011年
6 宋曉龍;突發(fā)事件的互聯(lián)網(wǎng)信息傳播規(guī)律研究[D];哈爾濱工業(yè)大學(xué);2011年
7 李玄;企業(yè)間相互作用下中小企業(yè)集群技術(shù)擴(kuò)散實(shí)證研究[D];河北工業(yè)大學(xué);2011年
8 劉婉;電子商務(wù)環(huán)境下供應(yīng)鏈運(yùn)行規(guī)律的集成模擬研究[D];華中科技大學(xué);2011年
9 鄭蕾;面向社會(huì)網(wǎng)絡(luò)的信息傳播模型研究[D];上海交通大學(xué);2011年
10 章云龍;社交網(wǎng)絡(luò)中基于話題的影響最大化問題研究[D];上海交通大學(xué);2012年
本文編號(hào):2118055
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2118055.html