超大規(guī)模社交網(wǎng)絡(luò)中基于結(jié)構(gòu)與主題的社團(tuán)挖掘
發(fā)布時間:2017-04-26 20:05
本文關(guān)鍵詞:超大規(guī)模社交網(wǎng)絡(luò)中基于結(jié)構(gòu)與主題的社團(tuán)挖掘,,由筆耕文化傳播整理發(fā)布。
【摘要】:社團(tuán)挖掘作為復(fù)雜網(wǎng)絡(luò)分析中的一個重要方法,近年來越來越多的研究者將其應(yīng)用到社交網(wǎng)絡(luò)分析、萬維網(wǎng)服務(wù)、網(wǎng)絡(luò)可視化等具體問題中。目前許多社團(tuán)挖掘算法復(fù)雜度高,難以處理大規(guī)模網(wǎng)絡(luò),本文利用Graphlab平臺分布式實(shí)現(xiàn)社團(tuán)挖掘算法以適用于大規(guī)模網(wǎng)絡(luò)分析。本文的主要工作包括如下三個方面:(1)提出了基于初始社團(tuán)和可信度的改進(jìn)標(biāo)簽傳播(LPA)算法。傳統(tǒng)的標(biāo)簽傳播算法在Graphlab平臺上存在不收斂和劃分不穩(wěn)定等問題。為了解決這些問題,本文從如下兩個方面對LPA算法進(jìn)行改進(jìn):首先選擇網(wǎng)絡(luò)部分節(jié)點(diǎn)作為中心節(jié)點(diǎn),將中心節(jié)點(diǎn)及其一階鄰居初始化為同一社團(tuán),從而大幅降低了標(biāo)簽傳播算法的初始社團(tuán)數(shù)目;然后為網(wǎng)絡(luò)中每條邊定義一個可信度,可信度越高表明鄰居節(jié)點(diǎn)的標(biāo)簽越可信,在標(biāo)簽傳播過程中根據(jù)可信度改進(jìn)隨機(jī)選擇策略。在仿真網(wǎng)絡(luò)和真實(shí)網(wǎng)絡(luò)上,對改進(jìn)LPA算法進(jìn)行了測試,實(shí)驗(yàn)表明改進(jìn)LPA算法的劃分結(jié)果更加穩(wěn)定和準(zhǔn)確。(2)在BIGCLAM算法基礎(chǔ)上提出了結(jié)合網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和用戶主題信息的社團(tuán)生成模型。web 2.0技術(shù)催生了大量用戶生成內(nèi)容的網(wǎng)絡(luò)(如Facebook、Twitter、GooglePlus),用戶在這些網(wǎng)絡(luò)上留下了大量主題信息,本文將這些信息引入到社團(tuán)挖掘中。在社團(tuán)生成模型中,假設(shè)社團(tuán)生成了網(wǎng)絡(luò)連邊和節(jié)點(diǎn)主題,進(jìn)而建立網(wǎng)絡(luò)的似然函數(shù),利用鄰接矩陣和節(jié)點(diǎn)主題極大化似然函數(shù),最后得到節(jié)點(diǎn)所屬的社團(tuán)。在主題社交網(wǎng)絡(luò)上對社團(tuán)生成模型進(jìn)行測試,實(shí)驗(yàn)結(jié)果表明引入主題信息對社團(tuán)劃分性能有所提升。(3)在由4臺普通PC組成的Graphlab集群上實(shí)現(xiàn)本文改進(jìn)的算法,并對比分析了算法在Graphlab集群上的性能。實(shí)驗(yàn)結(jié)果表明算法在Graphlab集群上取得了較高的加速比。本文的社團(tuán)生成模型輸入?yún)?shù)為網(wǎng)絡(luò)的社團(tuán)數(shù)目,而社團(tuán)數(shù)目通常是未知的,雖然可以通過不斷迭代求得網(wǎng)絡(luò)最有可能的社團(tuán)數(shù)目,但計(jì)算開銷很大。因此將社團(tuán)生成模型改造為無參數(shù)算法是下一步需要研究的工作。
【關(guān)鍵詞】:社團(tuán)挖掘 結(jié)構(gòu)與主題 復(fù)雜網(wǎng)絡(luò) Graphlab
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.02
本文關(guān)鍵詞:超大規(guī)模社交網(wǎng)絡(luò)中基于結(jié)構(gòu)與主題的社團(tuán)挖掘,由筆耕文化傳播整理發(fā)布。
本文編號:329120
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/329120.html
最近更新
教材專著