基于圖結(jié)構(gòu)聚類的社區(qū)搜索算法的研究
發(fā)布時間:2020-05-20 11:51
【摘要】:近年來,隨著信息技術(shù)的快速發(fā)展,各個行業(yè)都形成了自身的海量數(shù)據(jù),在電信行業(yè)形成的海量通話數(shù)據(jù)、生物化學(xué)中分子之間的關(guān)系數(shù)據(jù)、交通網(wǎng)路的架構(gòu)信息以及社交網(wǎng)絡(luò)中形成的數(shù)據(jù)信息。如何充分的挖掘這些數(shù)據(jù)的潛在價值是目前學(xué)術(shù)界和工業(yè)界探討的熱點(diǎn)問題。對于這些數(shù)據(jù)形成的巨大的復(fù)雜網(wǎng)絡(luò)系統(tǒng),可以用圖結(jié)構(gòu)清晰地表示,而對圖中的數(shù)據(jù)進(jìn)行聚類操作是挖掘圖數(shù)據(jù)信息的一個基本工具。然而,現(xiàn)實中的數(shù)據(jù)總是在不斷地動態(tài)更新,傳統(tǒng)的基于圖結(jié)構(gòu)的聚類算法SCAN(A Structural Clustering Algorithm for Networks)并不能有效地處理和維護(hù)實時更新的數(shù)據(jù)信息。因此本文提出了一種基于廣度優(yōu)先樹BFS-tree(Breadth First Search-tree)的增量圖結(jié)構(gòu)聚類算法ISCAN(Incremental Structural Clustering for Dynamic Networks)。當(dāng)數(shù)據(jù)更新時,利用該算法無需重新計算整個圖,只需更新少量的邊,通過廣度優(yōu)先樹的斷裂以及合并來維護(hù)已有的聚類結(jié)果。此外,為了減少在計算圖中頂點(diǎn)之間相似性所消耗的時間,本文提出了如何利用多核進(jìn)行結(jié)構(gòu)相似性的計算,并且提出了兩種有效的負(fù)載均衡策略。傳統(tǒng)的結(jié)構(gòu)聚類算法,對給定的閾值參數(shù)非常的敏感,細(xì)微的變化都會對聚類結(jié)果產(chǎn)生較大的影響,本文提出了一種基于三角形的結(jié)構(gòu)聚類模型,相對于傳統(tǒng)的結(jié)構(gòu)聚類算法,不僅能夠降低聚類結(jié)果對參數(shù)的敏感性,而且能夠得到更加緊密的社區(qū)。最后,以現(xiàn)實世界中形成的量圖數(shù)據(jù)為依據(jù)做了大量的對比試驗。實驗結(jié)果證明了提出的增量圖結(jié)構(gòu)聚類算法和并行計算結(jié)構(gòu)相似性的有效性、正確性,以此同時,通過實驗發(fā)現(xiàn),我們提出的基于三角形的結(jié)構(gòu)聚類,不僅能夠得到更加緊密的社區(qū),而且當(dāng)閾值發(fā)生改變時,聚類的結(jié)構(gòu)更加的穩(wěn)定。
【圖文】:
22圖 3.6 不同負(fù)載均衡策略的運(yùn)行效率對比觀察圖 3.6,發(fā)現(xiàn)隨著 CPU 核心數(shù)的線性升高,系統(tǒng)的運(yùn)行時間幾乎是線性降低的;,根據(jù)實驗結(jié)果,,可以發(fā)現(xiàn)基于切片的負(fù)載均衡策略的運(yùn)行效率普遍高于基于邊度行效率。這是由于計算有邊頂點(diǎn)之間的結(jié)構(gòu)相似性的過程中,當(dāng)且僅當(dāng)在完全理想下時間復(fù)雜度是: d(u) d(v),但是,由于硬件因素以及算法運(yùn)行過程中的線程的同步問題,從而造成一些誤差,使得程序不能達(dá)到完全理想的理論運(yùn)行時間。但
構(gòu)聚類處理動態(tài)更新的數(shù)據(jù)。接下來,將在具體的實驗結(jié)果中分析傳統(tǒng)的結(jié)構(gòu)聚類模型和本文提出的基于三角形的圖結(jié)構(gòu)聚類模型的效果,更具實驗結(jié)果對數(shù)據(jù)集中的部分聚類結(jié)果進(jìn)行對比分析。具體如下圖所示。(a)SCAN( 2, 0 4) (b)TSCAN( 2, 0 4)
【學(xué)位授予單位】:深圳大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP311.13
本文編號:2672581
【圖文】:
22圖 3.6 不同負(fù)載均衡策略的運(yùn)行效率對比觀察圖 3.6,發(fā)現(xiàn)隨著 CPU 核心數(shù)的線性升高,系統(tǒng)的運(yùn)行時間幾乎是線性降低的;,根據(jù)實驗結(jié)果,,可以發(fā)現(xiàn)基于切片的負(fù)載均衡策略的運(yùn)行效率普遍高于基于邊度行效率。這是由于計算有邊頂點(diǎn)之間的結(jié)構(gòu)相似性的過程中,當(dāng)且僅當(dāng)在完全理想下時間復(fù)雜度是: d(u) d(v),但是,由于硬件因素以及算法運(yùn)行過程中的線程的同步問題,從而造成一些誤差,使得程序不能達(dá)到完全理想的理論運(yùn)行時間。但
構(gòu)聚類處理動態(tài)更新的數(shù)據(jù)。接下來,將在具體的實驗結(jié)果中分析傳統(tǒng)的結(jié)構(gòu)聚類模型和本文提出的基于三角形的圖結(jié)構(gòu)聚類模型的效果,更具實驗結(jié)果對數(shù)據(jù)集中的部分聚類結(jié)果進(jìn)行對比分析。具體如下圖所示。(a)SCAN( 2, 0 4) (b)TSCAN( 2, 0 4)
【學(xué)位授予單位】:深圳大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP311.13
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 李桃陶;周斌;王忠振;;基于社交網(wǎng)絡(luò)的圖數(shù)據(jù)挖掘應(yīng)用研究[J];計算機(jī)技術(shù)與發(fā)展;2014年10期
2 丁悅;張陽;李戰(zhàn)懷;王勇;;圖數(shù)據(jù)挖掘技術(shù)的研究與進(jìn)展[J];計算機(jī)應(yīng)用;2012年01期
3 王建新;蔡釗;李敏;;一種基于極大團(tuán)的蛋白質(zhì)相互作用預(yù)測方法[J];高技術(shù)通訊;2009年01期
本文編號:2672581
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2672581.html
最近更新
教材專著