面向新浪微博的鏈接和內(nèi)容相結(jié)合的社區(qū)劃分方法
發(fā)布時間:2017-04-24 19:14
本文關(guān)鍵詞:面向新浪微博的鏈接和內(nèi)容相結(jié)合的社區(qū)劃分方法,由筆耕文化傳播整理發(fā)布。
【摘要】:現(xiàn)實世界中的很多系統(tǒng)都可以抽象為網(wǎng)絡(luò),如人際關(guān)系網(wǎng)、論文引證網(wǎng)、科學(xué)家合作關(guān)系網(wǎng)、微博用戶關(guān)系網(wǎng)、互聯(lián)網(wǎng)等。這些網(wǎng)絡(luò)都具有共同特點:即復(fù)雜的內(nèi)部結(jié)構(gòu),因此被稱為復(fù)雜網(wǎng)絡(luò)。已有研究表明:這些網(wǎng)絡(luò)中包含著一些潛在的社區(qū)結(jié)構(gòu),具有社區(qū)內(nèi)部節(jié)點鏈接稠密、社區(qū)之間節(jié)點鏈接稀疏的特點。通常,社區(qū)內(nèi)的節(jié)點具有相似的特性,在網(wǎng)絡(luò)中扮演著相似的角色。通過社區(qū)劃分來識別網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu),有助于人們更深入的理解網(wǎng)絡(luò)的本質(zhì),認識網(wǎng)絡(luò)結(jié)構(gòu)與其功能的之間的關(guān)系。 然而,傳統(tǒng)的復(fù)雜網(wǎng)絡(luò)社區(qū)劃分算法普遍缺乏對鏈接結(jié)構(gòu)和節(jié)點內(nèi)容的綜合考慮。現(xiàn)有的鏈接結(jié)構(gòu)與節(jié)點內(nèi)容相結(jié)合的社區(qū)劃分方法大多是基于概率模型的方法。這類方法有著數(shù)學(xué)形式優(yōu)美、可解釋性強的優(yōu)點,但也存在著時間復(fù)雜度高、不易理解、應(yīng)用實現(xiàn)較為困難的缺點。 本文針對這方面的研究不足提出了鏈接結(jié)構(gòu)與節(jié)點內(nèi)容相結(jié)合的快速社區(qū)劃分算法KRLC及其改進算法2KRLC以及CKRLC算法,其中KRLC2KRLC適合對指定了社團數(shù)K的網(wǎng)絡(luò)數(shù)據(jù)集進行社區(qū)劃分,CKRLC適合對K未知的網(wǎng)絡(luò)進行社區(qū)劃分。這幾種算法以K-Means算法為核心思想,綜合考慮了節(jié)點的內(nèi)容相似性和節(jié)點的鏈接結(jié)構(gòu)相似性,融合了幾種優(yōu)秀的初始節(jié)點選取方法,有效地實現(xiàn)了對節(jié)點含有屬性信息的內(nèi)容網(wǎng)絡(luò)進行社區(qū)劃分。 另外本文還從社會網(wǎng)絡(luò)的角度,實現(xiàn)了包括數(shù)據(jù)采集、文本預(yù)處理、網(wǎng)絡(luò)建模、社區(qū)劃分四個部分的微博數(shù)據(jù)分析框架。通過該框架的前三個部分,建立了真實的網(wǎng)絡(luò)數(shù)據(jù)集:新浪微博用戶關(guān)系網(wǎng)。最后利用本文設(shè)計的鏈接結(jié)構(gòu)與節(jié)點內(nèi)容相結(jié)合的社區(qū)劃分算法來研究了新浪微博用戶關(guān)系網(wǎng)的社團結(jié)構(gòu)。
【關(guān)鍵詞】:復(fù)雜網(wǎng)絡(luò) 社區(qū)劃分 鏈接相似度 內(nèi)容相似度 K-Means 新浪微博
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092;O157.5
【目錄】:
- 致謝5-6
- 摘要6-7
- ABSTRACT7-10
- 1 引言10-14
- 1.1 研究背景10-12
- 1.1.1 復(fù)雜網(wǎng)絡(luò)學(xué)科簡介10-11
- 1.1.2 復(fù)雜網(wǎng)絡(luò)社區(qū)劃分11-12
- 1.2 研究現(xiàn)狀12-13
- 1.3 本文的主要研究內(nèi)容13-14
- 2 K-MEANS型社區(qū)劃分算法的研究14-26
- 2.1 初始中心節(jié)點選取策略15-20
- 2.1.1 基于最遠距離的初始中心節(jié)點選取策略16
- 2.1.2 基于PageRank算法的初始中心點選取策略16-19
- 2.1.3 基于層次聚類思想的初始中心節(jié)點選取策略19-20
- 2.2 節(jié)點相似度構(gòu)造方式20-24
- 2.2.1 基于網(wǎng)絡(luò)節(jié)點局部信息的鏈接屬性相似度度量21
- 2.2.2 基于網(wǎng)絡(luò)全局拓撲信息的鏈接屬性相似度度量21-22
- 2.2.3 節(jié)點內(nèi)容屬性相似度度量22-24
- 2.2.4 相似度計算公式24
- 2.3 本章小結(jié)24-26
- 3 新的鏈接與內(nèi)容相結(jié)合的K-MEANS型社區(qū)劃分算法26-43
- 3.1 鏈接相似度與內(nèi)容相似度相結(jié)合的解決方案26-28
- 3.2 KRLC算法28-30
- 3.3 2KRLC算法30-31
- 3.4 CKRLC算法31-32
- 3.5 KRLC&2KRLC算法的實驗32-39
- 3.5.1 實驗數(shù)據(jù)集33
- 3.5.2 評價指標33-35
- 3.5.3 實驗結(jié)果及分析35-37
- 3.5.4 2KRLC算法中參數(shù)n的影響37-39
- 3.6 CKRLC算法實驗39-42
- 3.6.1 實驗數(shù)據(jù)集40
- 3.6.2 實驗結(jié)果及分析40-42
- 3.7 本章小結(jié)42-43
- 4 新浪微博用戶關(guān)系網(wǎng)研究43-61
- 4.1 微博用戶數(shù)據(jù)分析框架44-45
- 4.2 數(shù)據(jù)采集45-50
- 4.2.1 面向新浪微博的網(wǎng)絡(luò)爬蟲45-48
- 4.2.2 采集流程48-49
- 4.2.3 原始數(shù)據(jù)結(jié)構(gòu)49-50
- 4.3 數(shù)據(jù)預(yù)處理50-53
- 4.3.1 微博文本預(yù)處理相關(guān)技術(shù)介紹51-52
- 4.3.2 文本預(yù)處理相關(guān)流程52-53
- 4.4 網(wǎng)絡(luò)建模53
- 4.5 社區(qū)劃分53-59
- 4.5.1 KRLC&2KRLC劃分結(jié)果以及分析54-56
- 4.5.2 CKRLC劃分結(jié)果及其分析56-59
- 4.6 本章小結(jié)59-61
- 5 結(jié)論與展望61-64
- 5.1 工作總結(jié)61-62
- 5.2 結(jié)論62
- 5.3 未來的研究和工作62-64
- 參考文獻64-67
- 作者簡歷67-69
- 學(xué)位論文數(shù)據(jù)集69
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 楊博;劉大有;金弟;馬海賓;;復(fù)雜網(wǎng)絡(luò)聚類方法[J];軟件學(xué)報;2009年01期
2 周小平;梁循;張海燕;;基于R-C模型的微博用戶社區(qū)發(fā)現(xiàn)[J];軟件學(xué)報;2014年12期
本文關(guān)鍵詞:面向新浪微博的鏈接和內(nèi)容相結(jié)合的社區(qū)劃分方法,由筆耕文化傳播整理發(fā)布。
,本文編號:324822
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/324822.html
最近更新
教材專著