大規(guī)模社交網(wǎng)絡(luò)中局部興趣社區(qū)發(fā)現(xiàn)研究
本文選題:社交網(wǎng)絡(luò) + 興趣建模。 參考:《中國科學(xué)技術(shù)大學(xué)》2014年博士論文
【摘要】:隨著web2.0時代的到來,越來越多的數(shù)據(jù)呈現(xiàn)在互聯(lián)網(wǎng)上,更多的體現(xiàn)用戶在網(wǎng)絡(luò)上的互相交互。人們既生產(chǎn)大量網(wǎng)絡(luò)數(shù)據(jù)、又同時對其進(jìn)行消費(fèi)。人們的生產(chǎn)、生活、學(xué)習(xí)、娛樂也越來越離不開互聯(lián)網(wǎng)。社交網(wǎng)絡(luò)把現(xiàn)實(shí)中人與人之間的關(guān)系建立在互聯(lián)網(wǎng)上,加強(qiáng)人們之間的交流和互動,促進(jìn)信息更快的在世界范圍內(nèi)流動。隨著Facebook上市,社交網(wǎng)絡(luò)也越來越多的受到人們的關(guān)注。Facebook是一種強(qiáng)關(guān)系的社交網(wǎng)絡(luò),用戶可以利用其進(jìn)行朋友之間的關(guān)系的促進(jìn)改善和維護(hù);微博Twitter是一種弱關(guān)系的社交網(wǎng)絡(luò),在其上容易形成意見領(lǐng)袖和信息快速傳播,有利于社交網(wǎng)絡(luò)的廣告推廣和營銷;Linkedin是專注于商務(wù)人士拓展業(yè)務(wù),求職招聘等進(jìn)行商務(wù)交流的專業(yè)社交平臺。國內(nèi)也有很多社交網(wǎng)絡(luò)如騰訊微博、嘀咕、9911、隨心微博、新浪微博、搜狐微博、Follow5、網(wǎng)易微博、品品米、MySpace聚友網(wǎng)、百度i貼、同學(xué)網(wǎng)、飯否等,其中比較知名的新浪微博比較類似于Twitter。 截至2012年12月份,國內(nèi)知名社交網(wǎng)絡(luò)新浪微博用戶規(guī)模達(dá)到5億;時至2012年7月國外著名社交網(wǎng)絡(luò)Twitter用戶數(shù)量超過5億;另外一個世界知名社交網(wǎng)站FaceBook用戶數(shù)量達(dá)到10億以上。據(jù)國外知名數(shù)據(jù)公司PingDorn的數(shù)據(jù)顯示,全球已有幾十億社交網(wǎng)絡(luò)用戶,同時社交網(wǎng)絡(luò)鏈接和網(wǎng)頁插件已經(jīng)占據(jù)全世界所有網(wǎng)站的四分之一。對社交網(wǎng)絡(luò)進(jìn)行分析,發(fā)現(xiàn)社交網(wǎng)絡(luò)中各種社區(qū)對于商品推薦、廣告推送、朋友推薦以及對社交網(wǎng)絡(luò)進(jìn)行劃分具有十分重要的意義。 本文在調(diào)研分析大規(guī)模社交網(wǎng)絡(luò)發(fā)展和研究的基礎(chǔ)上,主要就如何有效挖掘社交網(wǎng)絡(luò)中興趣社區(qū)做了深入研究。本文先就其兩個子問題社交網(wǎng)絡(luò)中個性化興趣的建模和個性化PageRank高效計(jì)算進(jìn)行研究。在完成興趣建模和個性化PageRank高效計(jì)算的基礎(chǔ)上,進(jìn)行大規(guī)模社交網(wǎng)絡(luò)的興趣社區(qū)探測。 首先,采用用戶好友關(guān)系信息、用戶發(fā)布和轉(zhuǎn)發(fā)微博信息作為興趣信息,針對普通用戶和特殊用戶的不同,分別提出以關(guān)注對象為興趣的三層模型和以發(fā)布微博為興趣的兩層模型的模型表示方法。針對微博內(nèi)容為興趣建模,提出基于LDA改進(jìn)的微博興趣分類方法。針對用戶興趣改變的問題,提出基于用戶微博內(nèi)容為反饋的貝葉斯方法,同時還提出基于興趣社區(qū)發(fā)現(xiàn)為目的的用戶興趣偏好模型。最后通過以用戶標(biāo)簽作為參考對模型進(jìn)行評估,得出模型在標(biāo)簽較充足時能有80%以上的查準(zhǔn)率和查全率。 其次,個性化PageRank作為信息檢索和數(shù)據(jù)挖掘領(lǐng)域的重要算法,隨著數(shù)據(jù)規(guī)模的不斷增大,有必要對其進(jìn)行優(yōu)化和加速。傳統(tǒng)迭代方法比較耗費(fèi)時間和空間,本文使用基于Monte Carlo隨機(jī)步方法。MapReduce適合數(shù)據(jù)密集型計(jì)算,不適合大量的迭代,本文提出基于MPI的分布式算法。改進(jìn)先前的二路合并方法到基于Fibonacci的方法,從理論上性能有30%左右的提高,在大量真實(shí)數(shù)據(jù)的實(shí)驗(yàn)上得出該方法相對基礎(chǔ)方法性能提高10%到40%。 最后,由于社區(qū)結(jié)構(gòu)信息包含成員關(guān)系連接信息和成員本身的個性化信息,提出考慮結(jié)構(gòu)信息和節(jié)點(diǎn)自身屬性特征的基于個性化PageRank的社區(qū)發(fā)現(xiàn)方法。針對日益發(fā)展的社交網(wǎng)絡(luò)的數(shù)據(jù)大規(guī)模性,提出局部的社區(qū)分析方法和將算法改進(jìn)適應(yīng)在分布式計(jì)算架構(gòu)MapReduce之上。由于大部分社區(qū)探測方法不適合用在具有千萬級甚至更大用戶規(guī)模的社區(qū)分析,而Metis方法是少有的能處理如此大規(guī)模的網(wǎng)絡(luò)分析工具,本文將所提出的基于個性化PageRank方法與Metis方法進(jìn)行比較,凸顯本文提出方法具有更好的社區(qū)探測能力,能找到聚簇性很強(qiáng)的局部社區(qū)。另外,本文通過MapReduce擴(kuò)展實(shí)驗(yàn)說明了方法的可擴(kuò)展性和高效性。
[Abstract]:With the advent of web2.0 , more and more data are presented on the Internet . More and more users interact with each other on the Internet . People produce large amounts of network data and consume them . People ' s production , life , study and recreation are increasingly inseparable from the Internet . Social networks are increasingly concerned about the relationship between people and people . Facebook is a strong social network that users can use to promote improved and maintenance relationships among friends .
Twitter is a kind of weak relationship social network , it is easy to form the opinion leader and the information fast spread , is beneficial to the advertising promotion and marketing of social network ;
Linkedin is a professional social platform focusing on business people to expand business , job seeking , etc . There are many social networks such as Tencent Weibo , mumbling , 9911 , casual Weibo , Sina Weibo , Sohu Micro - blog , Follow5 , NetEase Micro - blog , product rice , myspace gathering net , Baidu i paste , classmate network , meal , etc . , among which the relatively well - known Sina Weibo is similar to Twitter .
As of December 2012 , the number of Sina Weibo users in China ' s well - known social networks reached 500 million ;
By July 2012 , the number of Twitter users of social networks abroad exceeded 500 million ;
Another world - renowned social networking site FaceBook users have more than 1 billion users . According to PingDorn , a foreign - known data company , the world has billions of social networking users , while social networking links and web - based plug - ins have taken up a quarter of all the world ' s Web sites . Analyzing social networks , finding a wide range of communities in social networks is of great importance for commodity recommendations , advertising push , friend recommendations , and division of social networks .
Based on the research and analysis of large - scale social network development and research , this paper makes a thorough study on how to effectively exploit the community of interest in social networks . In this paper , we study the modeling of personalized interest in social networks and the efficient calculation of personalized PageRank in social networks . On the basis of completing interest modeling and personalized PageRank high - efficiency computing , the interest community detection of large - scale social networks is carried out .
First , by using the user ' s friend relationship information , the user releases and forwards the microblog information as the interest information , and presents a three - layer model with the interest of the object of interest and a model representation method of the two - layer model interested in publishing the microblog , aiming at the problem of changing the interest of the user , and then puts forward a user interest preference model based on the user micro - blog content as feedback .
Secondly , personalized PageRank is an important algorithm in the field of information retrieval and data mining . With the increasing data scale , it is necessary to optimize and accelerate it . Traditional iteration method is suitable for data - intensive computing and is not suitable for large number of iterations .
Finally , because the community structure information includes member relation connection information and personalized information of the member itself , the community discovery method based on personalized PageRank considering the structure information and the attribute characteristics of the node is proposed . In view of the large scale of the growing social network , the local community analysis method and the improvement of the algorithm are applied to the distributed computing architecture MapReduce .
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2014
【分類號】:TP393.092
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 謝新洲;張煬;;我國網(wǎng)民網(wǎng)絡(luò)社交行為調(diào)查[J];圖書情報(bào)工作;2011年06期
2 劉曉麗;宋朝霞;;SNS網(wǎng)站與搜索引擎融合的可能性和策略探討[J];電子商務(wù);2011年09期
3 楊建永;張成波;鄒宇瑞;;關(guān)于圖書館社交網(wǎng)絡(luò)(Lib-SNS)構(gòu)建的研究[J];圖書館學(xué)研究;2010年15期
4 王淑敏;李軍豪;;蜜罐技術(shù)在社交網(wǎng)絡(luò)反垃圾信息中應(yīng)用[J];煤炭技術(shù);2011年07期
5 吳成鋼;楊光;張翔;王曉歡;;推薦系統(tǒng)的應(yīng)用及其安全性研究[J];信息網(wǎng)絡(luò)安全;2011年08期
6 楊媛媛;;SNS社交網(wǎng)絡(luò)的圖像顯示概述[J];計(jì)算機(jī)與信息技術(shù);2009年09期
7 錢國富;周群;;基于SNS的Living Library虛擬社區(qū)構(gòu)建研究[J];大學(xué)圖書館學(xué)報(bào);2011年02期
8 梁力予;任露凌;萬艷華;;“基于LBS的社交網(wǎng)絡(luò)”在城市公共空間管理與運(yùn)營中的應(yīng)用[J];信息安全與技術(shù);2011年07期
9 劉恕;;試論傳統(tǒng)媒體與社交網(wǎng)絡(luò)的交互融合——從新華社電視進(jìn)駐開心網(wǎng)說起[J];科技傳播;2009年02期
10 董素芬;滕桂法;楊媛媛;;社會和心理因素在社交網(wǎng)絡(luò)交互中的作用[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2010年08期
相關(guān)會議論文 前4條
1 劉恕;;試論傳統(tǒng)媒體與社交網(wǎng)絡(luò)的交互融合——從新華社電視進(jìn)駐開心網(wǎng)說起[A];第十一屆中國科協(xié)年會第33分會場新媒體與科技傳播研討會論文集[C];2009年
2 劉恕;;試論傳統(tǒng)媒體與社交網(wǎng)絡(luò)的交互融合——從新華社電視進(jìn)駐開心網(wǎng)說起[A];自主創(chuàng)新與持續(xù)增長第十一屆中國科協(xié)年會論文集(4)[C];2009年
3 姚群峰;張玉瑩;;搶占融合通信高地,領(lǐng)先移動互聯(lián)網(wǎng)時代——電信運(yùn)營商發(fā)展融合通信的戰(zhàn)略思考[A];中國通信學(xué)會信息通信網(wǎng)絡(luò)技術(shù)委員會2011年年會論文集(上冊)[C];2011年
4 張瀚予;;數(shù)字博物館新應(yīng)用——美國的案例[A];創(chuàng)意科技助力數(shù)字博物館[C];2011年
相關(guān)博士學(xué)位論文 前6條
1 尹紅軍;大規(guī)模社交網(wǎng)絡(luò)中局部興趣社區(qū)發(fā)現(xiàn)研究[D];中國科學(xué)技術(shù)大學(xué);2014年
2 鄭夏冰;探討過量使用移動社交網(wǎng)絡(luò)Apps對個人用戶的負(fù)面影響[D];中國科學(xué)技術(shù)大學(xué);2014年
3 郭龍飛;社交網(wǎng)絡(luò)用戶隱私關(guān)注動態(tài)影響因素及行為規(guī)律研究[D];北京郵電大學(xué);2013年
4 劉芳;信息可視化技術(shù)及應(yīng)用研究[D];浙江大學(xué);2013年
5 吳保來;基于互聯(lián)網(wǎng)的社交網(wǎng)絡(luò)研究[D];中共中央黨校;2013年
6 程振宇;社交網(wǎng)絡(luò)下網(wǎng)絡(luò)互動對購買意愿影響及信任保障機(jī)制研究[D];北京郵電大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 陸璜;企業(yè)在線社交網(wǎng)絡(luò)應(yīng)用研究[D];華東理工大學(xué);2014年
2 李影;社交網(wǎng)絡(luò)在高校圖書館信息服務(wù)中的應(yīng)用研究[D];吉林大學(xué);2014年
3 劉曉曼;社交網(wǎng)絡(luò)數(shù)據(jù)獲取與結(jié)構(gòu)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];安徽大學(xué);2014年
4 陳鶴;基于語義本體的社交網(wǎng)絡(luò)服務(wù)推薦系統(tǒng)[D];吉林大學(xué);2014年
5 吳婧媛;《名譽(yù)的未來—網(wǎng)絡(luò)緋聞、謠言和隱私》(第二章)翻譯報(bào)告[D];四川外國語大學(xué);2014年
6 王嘵琳;社交網(wǎng)絡(luò)社區(qū)劃分算法的研究[D];燕山大學(xué);2013年
7 王戴鈺;基于Android平臺移動社交網(wǎng)絡(luò)的設(shè)計(jì)與實(shí)現(xiàn)[D];大連海事大學(xué);2014年
8 林小楠;基于MapReduce的分布式聚類算法在社交網(wǎng)絡(luò)上的應(yīng)用研究[D];廈門大學(xué);2014年
9 王冰;社交網(wǎng)絡(luò)電子商務(wù)應(yīng)用用戶研究與交互設(shè)計(jì)[D];大連海事大學(xué);2009年
10 匡仁玉;泰和的宗族與區(qū)域社會[D];南昌大學(xué);2007年
,本文編號:2003051
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2003051.html