【摘要】:微博客的出現(xiàn)形成了一種新的媒介現(xiàn)象,使得人們對當下的政治、經(jīng)濟、體育、娛樂等方面的消息有了更及時、更深刻的了解。四面八方的言論更對受眾的思想行為產(chǎn)生了巨大的導向作用,其中受大V用戶的影響最為明顯,這里的大V用戶所指的是具有很高影響力的用戶,該類用戶所發(fā)起的討論和話題極具影響力在社會上,甚至可以這么說,這些大V用戶極大程度上的引領(lǐng)并制造了當下社會的熱門話題。因此,對微博用戶影響力的探究是個值得深入的研究方向。本文將分析用戶影響力評估標準指出傳統(tǒng)的用戶影響力Page Rank算法在計算微博用戶影響力中的不足,并提出了一個新的影響力WB-UR算法;ヂ(lián)網(wǎng)的高速發(fā)展讓世界進入了大數(shù)據(jù)時代,“大數(shù)據(jù)”一詞在各行各業(yè)的領(lǐng)域中都是被討論的話題,而本文研究所需要的數(shù)據(jù)來源于新浪微博中海量用戶數(shù)據(jù),從而進行微博用戶影響力的研究。本文將使用便捷、高效的Hadoop分布式計算平臺進行數(shù)據(jù)處理和算法實現(xiàn)的。本文首先對Hadoop平臺及其相關(guān)技術(shù)理論進行了詳細介紹,如:HDFS、Map Reduce、HBase。接著講述了目前評估微博用戶影響力的Page Rank算法背景應(yīng)用和算法原理,然后本文通過詳細分析微博網(wǎng)絡(luò)的用戶和行為特性,發(fā)現(xiàn)只考慮了追隨者數(shù)量這個因素的Page Rank算法在微博用戶影響力的評估中存在著很大的缺陷,Page Rank算法在用戶分配影響力值的過程中是以粉絲的關(guān)注數(shù)進行均分,卻忽略了用戶之間的行為,如:轉(zhuǎn)發(fā)、評論、點贊,這三個因素對用戶的影響力有著不同大小的作用,因此僵尸粉的存在使得Page Rank算法難以有效、合理的對用戶影響力進行排名。本文則以微博用戶關(guān)注、轉(zhuǎn)發(fā)、點贊、評論這四個主要行為因素在用戶之間影響力分配過程中的所占權(quán)重作為切入點,提出了一種基于Page Rank算法改進的算法—WB-UR(Wei Bo-User Rank)算法。本文是使用Hadoop平臺實現(xiàn)WB-UR算法,在HBase中設(shè)計了兩張數(shù)據(jù)表,存放的是本文算法所涉及到的數(shù)據(jù)。接著使用Sqoop工具將數(shù)據(jù)導入HBase設(shè)計好的表中以便于高效提出實現(xiàn)算法所需數(shù)據(jù)。最后,本文在搭建成功的Hadoop平臺上分別實現(xiàn)Page Rank算法和WB-UR算法,接著分別對Page Rank算法和WB-UR算法的實驗結(jié)果進行對比分析后,驗證了WB-UR算法相對于Page Rank算法的用戶影響力排名更加符合實際情況,優(yōu)化后的WB-UR算法在用戶影響力的評估上比Page Rank算法有著更全面、有效、可靠性高的優(yōu)點。
【學位授予單位】:廣東工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP393.092
【參考文獻】
相關(guān)期刊論文 前10條
1 王姣;徐海霞;;搜索引擎工作原理再探究[J];電腦知識與技術(shù);2016年25期
2 郭強;;基于Hadoop分布式文件系統(tǒng)的模型分析[J];電腦知識與技術(shù);2016年17期
3 于金良;朱志祥;梁小江;;一種基于Sqoop的數(shù)據(jù)交換系統(tǒng)[J];物聯(lián)網(wǎng)技術(shù);2016年03期
4 劉亞尚;陳波;朱漢;于泠;;微博僵尸粉演化特征實證研究[J];情報探索;2015年12期
5 張亞莉;魯夢華;徐yN飛;;基于文本分析的微博博文影響力實證研究[J];現(xiàn)代情報;2015年02期
6 李春艷;姚君蘭;;基于Hadoop的實驗平臺構(gòu)建[J];數(shù)字技術(shù)與應(yīng)用;2014年10期
7 王立峰;;HBase數(shù)據(jù)庫中大對象存儲方案的研究[J];電腦知識與技術(shù);2014年23期
8 任仁;;Hadoop在大數(shù)據(jù)處理中的應(yīng)用優(yōu)勢分析[J];電子技術(shù)與軟件工程;2014年15期
9 盧慧鋒;趙文濤;孫志峰;游超;;社會化網(wǎng)絡(luò)服務(wù)中OAuth2.0的應(yīng)用研究與實現(xiàn)[J];計算機應(yīng)用;2014年S1期
10 龔建華;;JSON格式數(shù)據(jù)在Web開發(fā)中的應(yīng)用[J];辦公自動化;2013年20期
相關(guān)博士學位論文 前1條
1 任薇;基于微博的社會網(wǎng)絡(luò)特征研究[D];西南大學;2014年
相關(guān)碩士學位論文 前5條
1 陳智;集群計算效率約束下的HADOOP魯棒性優(yōu)化研究[D];遼寧大學;2014年
2 邰建華;Hadoop平臺下的海量數(shù)據(jù)存儲技術(shù)研究[D];東北石油大學;2012年
3 楊愛民;并行廣度優(yōu)先搜索算法研究[D];西安電子科技大學;2012年
4 鄭博文;基于Hadoop的分布式網(wǎng)絡(luò)爬蟲技術(shù)[D];哈爾濱工業(yè)大學;2011年
5 李寬;基于HDFS的分布式Namenode節(jié)點模型的研究[D];華南理工大學;2011年
,
本文編號:
2545878
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2545878.html