天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于社團(tuán)發(fā)現(xiàn)的微博群體劃分與特征提取

發(fā)布時(shí)間:2017-12-19 11:43

  本文關(guān)鍵詞:基于社團(tuán)發(fā)現(xiàn)的微博群體劃分與特征提取 出處:《北京郵電大學(xué)》2015年碩士論文 論文類型:學(xué)位論文


  更多相關(guān)文章: 社會化信息網(wǎng)絡(luò) Logistic回歸 特征提取 群體劃分


【摘要】:在互聯(lián)網(wǎng)技術(shù)蓬勃發(fā)展的今天,微博是一個(gè)全民織網(wǎng)的社會化信息平臺。微博個(gè)性化服務(wù)的關(guān)鍵是將微博用戶劃分成具有共同特征的群體。如何進(jìn)行微博用戶群體劃分?針對這個(gè)問題,本文提出了微博用戶的上下層模型和用戶相似性模型,從模型中提取有價(jià)值的特征,在此基礎(chǔ)上提出微博群體劃分的方法。 首先,本文結(jié)合統(tǒng)計(jì)數(shù)據(jù)論證了微博屬于社會化信息網(wǎng)絡(luò)、微博的結(jié)構(gòu)符合冪律分布,并基于微博信息的有向性提出了不同于關(guān)系網(wǎng)絡(luò)的抽象上下層模型。由于微博網(wǎng)絡(luò)的冪律性,研究上層網(wǎng)絡(luò)的用戶可以帶來更大的效益,我們選取PageRank值最高的前10%的節(jié)點(diǎn)作為抽象上層用戶,針對這些用戶進(jìn)行群體劃分和特征提取。其次,綜合考慮用戶之間的靜態(tài)特征相似性、拓?fù)浣Y(jié)構(gòu)相似性和微博文本相似性,建立Logistc Regression (LR)模型,提出了用戶相似性的計(jì)算方法,利用L1正則化進(jìn)行特征提取,得到對用戶相似性有價(jià)值的特征。最后,定義一種有效的節(jié)點(diǎn)距離計(jì)算方法,利用K-Means算法對微博用戶進(jìn)行群體劃分。 本文在提取的新浪微博10萬用戶構(gòu)成的完備圖上利用Spark平臺對模型的結(jié)果進(jìn)行了驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,用戶相關(guān)性模型預(yù)測兩個(gè)用戶是否處于同一個(gè)圈子的準(zhǔn)確率達(dá)82.98%;L1正則化的Logistic回歸模型的在測試集上的預(yù)測準(zhǔn)確率達(dá)77.27%;基于本文的微博群體劃分算法,對于本數(shù)據(jù)集使用K-means聚類時(shí)的最佳社團(tuán)數(shù)為460,此時(shí)得到的RJ值約為0.69。
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前5條

1 閆強(qiáng);吳聯(lián)仁;鄭蘭;;微博社區(qū)中用戶行為特征及其機(jī)理研究[J];電子科技大學(xué)學(xué)報(bào);2013年03期

2 黃健斌;鐘翔;孫鶴立;茆婉婷;;基于相似性模塊度最大約束標(biāo)記傳播的網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)算法[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年03期

3 趙之瀅;于海;朱志良;汪小帆;;基于網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)的節(jié)點(diǎn)傳播影響力分析[J];計(jì)算機(jī)學(xué)報(bào);2014年04期

4 王s,

本文編號:1307797


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1307797.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶63636***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com