基于分布式的譜聚類算法在虛擬社區(qū)發(fā)現(xiàn)上的應用研究
本文關(guān)鍵詞:基于分布式的譜聚類算法在虛擬社區(qū)發(fā)現(xiàn)上的應用研究,由筆耕文化傳播整理發(fā)布。
【摘要】:社交網(wǎng)絡(luò)中由于用戶年齡、職業(yè)、興趣等的不同會呈現(xiàn)出社區(qū)結(jié)構(gòu)特性,社區(qū)發(fā)現(xiàn)是社區(qū)結(jié)構(gòu)特性的研究基礎(chǔ)和核心。社區(qū)發(fā)現(xiàn)可以分析不同社群間用戶的關(guān)系、發(fā)現(xiàn)隱藏在社區(qū)內(nèi)部的規(guī)律、追蹤網(wǎng)絡(luò)中的熱點話題等,對好友推薦、精準營銷等都具有非常重要的作用。目前有大量的社區(qū)發(fā)現(xiàn)方法,而譜聚類方法是基于圖理論的社區(qū)發(fā)現(xiàn)算法,適用于社交網(wǎng)絡(luò)這種可以抽象成用戶關(guān)系圖的數(shù)據(jù)。傳統(tǒng)的譜聚類算法因為時間復雜度高等原因大多應用在節(jié)點規(guī)模比較小的網(wǎng)絡(luò)上,而社交網(wǎng)絡(luò)則是具有海量用戶的網(wǎng)絡(luò),這對傳統(tǒng)的譜聚類算法提出了挑戰(zhàn)。本文主要研究內(nèi)容就是將現(xiàn)在應用非常廣泛的分布式大數(shù)據(jù)計算框架Hadoop應用到大規(guī)模社區(qū)發(fā)現(xiàn)中,針對社交網(wǎng)絡(luò)數(shù)據(jù)的特性,設(shè)計了合理的用戶相似度模型,彌補了傳統(tǒng)的譜聚類算法無法確定聚類個數(shù)、計算耗時長等缺陷,使其在大規(guī)模社區(qū)發(fā)現(xiàn)問題上的效率得以提高,以解決傳統(tǒng)譜聚類算法只能適用于小規(guī)模社區(qū)發(fā)現(xiàn)等問題。本文針對譜聚類算法無法確定社區(qū)個數(shù)的缺點,提出了在社區(qū)結(jié)構(gòu)明顯的場景下應用基于PageRank的社區(qū)數(shù)目發(fā)現(xiàn)算法,得益于PageRank算法良好的并行性,使其可以在大規(guī)模數(shù)據(jù)集中運用并行計算來提高發(fā)現(xiàn)社區(qū)數(shù)目的效率;在社區(qū)結(jié)構(gòu)不明顯的網(wǎng)絡(luò)中,提出基于模塊度優(yōu)化的譜聚類算法來發(fā)現(xiàn)社區(qū)數(shù)目。本文選用被公眾使用較多的微博社交網(wǎng)絡(luò)作為實驗驗證,微博中用戶有微博內(nèi)容、關(guān)注、粉絲、交互、個人信息等眾多的屬性。本文綜合四類用戶屬性信息,構(gòu)建了更加合理的用戶相似度模型。針對譜聚類算法應用于社交網(wǎng)絡(luò)這個特殊場景提出了使用HBase存儲中間結(jié)果、控制分塊大小、使用Uber模式等一系列Hadoop優(yōu)化策略。
【關(guān)鍵詞】:分布式 譜聚類 虛擬社區(qū)發(fā)現(xiàn)
【學位授予單位】:暨南大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP311.13
【目錄】:
- 摘要3-4
- ABSTRACT4-7
- 第一章 緒論7-13
- 1.1 研究背景及意義7-8
- 1.2 課題國內(nèi)外研究現(xiàn)狀8-11
- 1.3 論文研究的主要內(nèi)容11-12
- 1.4 本章小結(jié)12-13
- 第二章 相關(guān)理論13-24
- 2.1 k-means算法理論13-14
- 2.2 譜聚類算法14-20
- 2.3 Hadoop概述20-23
- 2.4 本章小結(jié)23-24
- 第三章 分布式環(huán)境中譜聚類算法實現(xiàn)24-32
- 3.1 k-means并行計算策略24
- 3.2 基于Normalized的譜聚類算法24-25
- 3.3 用戶特征選取25-27
- 3.4 聚類個數(shù)確定27-28
- 3.5 譜聚類并行化設(shè)計28-29
- 3.6 Hadoop性能調(diào)優(yōu)29-31
- 3.7 本章小結(jié)31-32
- 第四章 實驗驗證32-43
- 4.1 實驗環(huán)境32
- 4.2 實驗數(shù)據(jù)介紹32-35
- 4.3 社區(qū)數(shù)目確定35-37
- 4.4 算法精確度實驗37-39
- 4.5 算法執(zhí)行效率實驗39-42
- 4.6 本章小結(jié)42-43
- 第五章 總結(jié)與展望43-45
- 5.1 論文工作總結(jié)43
- 5.2 未來工作展望43-45
- 參考文獻45-49
- 致謝49
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 蔡曉妍;戴冠中;楊黎斌;;譜聚類算法綜述[J];計算機科學;2008年07期
2 汪中;劉貴全;陳恩紅;;基于模糊K-harmonic means的譜聚類算法[J];智能系統(tǒng)學報;2009年02期
3 孫昌思核;孔萬增;戴國駿;;一種自動確定類個數(shù)的譜聚類算法[J];杭州電子科技大學學報;2010年02期
4 蘭洋;;改進譜聚類算法在高等院校人才選拔中的應用[J];信陽師范學院學報(自然科學版);2010年04期
5 張力文;丁世飛;許新征;朱紅;徐麗;;一種基于成對約束的譜聚類算法[J];廣西師范大學學報(自然科學版);2010年04期
6 施培蓓;郭玉堂;胡玉娟;俞駿;;多尺度的譜聚類算法[J];計算機工程與應用;2011年08期
7 楊曉慧;王莉莉;李登峰;;一種新的層次譜聚類算法[J];上海理工大學學報;2014年01期
8 朱強生;何華燦;周延泉;;譜聚類算法對輸入數(shù)據(jù)順序的敏感性[J];計算機應用研究;2007年04期
9 金慧珍;趙遼英;;多層自動確定類別的譜聚類算法[J];計算機應用;2008年05期
10 孫大雷;孟凡榮;閆秋艷;;一種初始化不敏感的譜聚類算法[J];微電子學與計算機;2012年07期
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 呂紹高;統(tǒng)計學習中回歸與正則化譜聚類算法的研究[D];中國科學技術(shù)大學;2011年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 李純;快速譜聚類算法的研究與應用[D];哈爾濱工程大學;2012年
2 董彬;一種基于主動學習的半監(jiān)督譜聚類算法研究[D];中國礦業(yè)大學;2015年
3 劉萍萍;基于特征間隙檢測簇數(shù)的譜聚類算法研究[D];南京郵電大學;2015年
4 孫承祥;雙饋型風電機組的風電場建模研究[D];華北電力大學;2015年
5 崔慧嶺;一種面向大數(shù)據(jù)的文本聚類算法[D];湖北師范大學;2016年
6 徐大海;基于分布式的譜聚類算法在虛擬社區(qū)發(fā)現(xiàn)上的應用研究[D];暨南大學;2016年
7 鄭楊帆;基于圖論的譜聚類算法研究和實現(xiàn)[D];華南理工大學;2012年
8 高倩;基于模糊理論的譜聚類算法研究與應用[D];江南大學;2009年
9 宋少宇;基于流形距離核的譜聚類算法研究及其應用[D];哈爾濱工程大學;2012年
10 孟超;分布式環(huán)境下譜聚類算法研究[D];北京郵電大學;2013年
本文關(guān)鍵詞:基于分布式的譜聚類算法在虛擬社區(qū)發(fā)現(xiàn)上的應用研究,,由筆耕文化傳播整理發(fā)布。
本文編號:252013
本文鏈接:http://sikaile.net/guanlilunwen/yingxiaoguanlilunwen/252013.html