在線(xiàn)社交網(wǎng)絡(luò)數(shù)據(jù)采集策略研究
發(fā)布時(shí)間:2021-04-26 02:24
近幾十年來(lái),互聯(lián)網(wǎng)歷經(jīng)時(shí)代的變革,在線(xiàn)社交網(wǎng)絡(luò)(OSNs)將人們的面對(duì)面的交流逐漸改變?yōu)榫(xiàn)上虛擬的方式。OSNs注冊(cè)用戶(hù)總量及其龐大,人們?cè)綈?ài)越重視這類(lèi)網(wǎng)絡(luò)數(shù)據(jù)的研究。與此同時(shí)由于數(shù)據(jù)量龐大,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,使得對(duì)整個(gè)OSNs進(jìn)行研究時(shí)耗費(fèi)大量的人力物力。一個(gè)可靠的OSNs采樣算法可以幫助研究者從完整網(wǎng)絡(luò)中采集小型代表性樣本網(wǎng)絡(luò),對(duì)于OSNs數(shù)據(jù)研究意義重大,F(xiàn)有的網(wǎng)絡(luò)采樣算法如廣度優(yōu)先采樣算法(BFS),Metropolis-Hasting隨機(jī)游走算法(MHRW)等已能夠從Twitter等大型網(wǎng)絡(luò)中采集樣本網(wǎng)絡(luò)。但BFS采集的樣本節(jié)點(diǎn)度數(shù)偏高,MHRW采樣容易陷入連通良好的子區(qū)域。針對(duì)現(xiàn)有OSNs采樣算法存在的各種弊端,導(dǎo)致采集的樣本網(wǎng)絡(luò)無(wú)法反應(yīng)原始網(wǎng)絡(luò)特性的問(wèn)題,本文以網(wǎng)絡(luò)采樣算法為核心內(nèi)容展開(kāi)研究。文中主要研究?jī)?nèi)容如下:1.針對(duì)MHRW采樣方法無(wú)法采集低連通的社交網(wǎng)絡(luò)的節(jié)點(diǎn),采樣過(guò)程中易于陷入連通良好的子區(qū)域?qū)е虏糠止?jié)點(diǎn)過(guò)度入樣,獲取的樣本節(jié)點(diǎn)集的特征指標(biāo)與原始偏差較大等問(wèn)題。加入節(jié)點(diǎn)存儲(chǔ)區(qū)和全局節(jié)點(diǎn)以及存儲(chǔ)區(qū)的跳躍參數(shù),提出一種多重跳躍無(wú)偏的頂點(diǎn)采樣算法(MJU),不僅解決了 M...
【文章來(lái)源】:浙江理工大學(xué)浙江省
【文章頁(yè)數(shù)】:57 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題研究背景及意義
1.2 論文的主要貢獻(xiàn)
1.3 論文的組織結(jié)構(gòu)
第二章 在線(xiàn)社交網(wǎng)絡(luò)采樣算法概述
2.1 采樣的基本概念
2.2 在線(xiàn)社交網(wǎng)絡(luò)采樣算法
2.2.1 廣度優(yōu)先搜索算法(BFS)
2.2.2 用戶(hù)均勻采樣法(UNI)
2.2.3 隨機(jī)行走采樣算法(RW)
2.2.4 馬爾科夫鏈蒙特卡洛采樣算法(MHRW)
2.2.5 信天翁采樣算法(AS)
2.2.6 無(wú)偏延遲采樣算法(UD)
2.3 本章小結(jié)
第三章 基于多重跳躍的采樣研究
3.1 設(shè)計(jì)思想
3.2 MJU算法描述
3.2.1 三維樣本節(jié)點(diǎn)更新率分布模型進(jìn)行跳躍參數(shù)分析
3.2.2 多重跳躍參數(shù)選取
3.2.3 算法的無(wú)偏性
3.3 MJU算法偽代碼及流程圖
3.4 實(shí)驗(yàn)數(shù)據(jù)集描述
3.5 采樣性能的對(duì)比實(shí)驗(yàn)
3.5.1 樣本更新率分析
3.5.2 網(wǎng)絡(luò)的同配性分析
3.5.3 網(wǎng)絡(luò)度分布分析
3.5.4 收斂性分析
3.6本章小結(jié)
第四章 基于MJU采樣算法的網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)
4.1 社交網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)框架
4.1.1 控制器
4.1.2 HTML下載器和解析器
4.1.3 資源庫(kù)
4.2 系統(tǒng)執(zhí)行流程
4.3 本章小結(jié)
第五章總結(jié)與展望
5.1 全文總結(jié)
5.2 后續(xù)工作與展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間參加的科研項(xiàng)目和研宄成果
致謝
本文編號(hào):3160546
【文章來(lái)源】:浙江理工大學(xué)浙江省
【文章頁(yè)數(shù)】:57 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題研究背景及意義
1.2 論文的主要貢獻(xiàn)
1.3 論文的組織結(jié)構(gòu)
第二章 在線(xiàn)社交網(wǎng)絡(luò)采樣算法概述
2.1 采樣的基本概念
2.2 在線(xiàn)社交網(wǎng)絡(luò)采樣算法
2.2.1 廣度優(yōu)先搜索算法(BFS)
2.2.2 用戶(hù)均勻采樣法(UNI)
2.2.3 隨機(jī)行走采樣算法(RW)
2.2.4 馬爾科夫鏈蒙特卡洛采樣算法(MHRW)
2.2.5 信天翁采樣算法(AS)
2.2.6 無(wú)偏延遲采樣算法(UD)
2.3 本章小結(jié)
第三章 基于多重跳躍的采樣研究
3.1 設(shè)計(jì)思想
3.2 MJU算法描述
3.2.1 三維樣本節(jié)點(diǎn)更新率分布模型進(jìn)行跳躍參數(shù)分析
3.2.2 多重跳躍參數(shù)選取
3.2.3 算法的無(wú)偏性
3.3 MJU算法偽代碼及流程圖
3.4 實(shí)驗(yàn)數(shù)據(jù)集描述
3.5 采樣性能的對(duì)比實(shí)驗(yàn)
3.5.1 樣本更新率分析
3.5.2 網(wǎng)絡(luò)的同配性分析
3.5.3 網(wǎng)絡(luò)度分布分析
3.5.4 收斂性分析
3.6本章小結(jié)
第四章 基于MJU采樣算法的網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)
4.1 社交網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)框架
4.1.1 控制器
4.1.2 HTML下載器和解析器
4.1.3 資源庫(kù)
4.2 系統(tǒng)執(zhí)行流程
4.3 本章小結(jié)
第五章總結(jié)與展望
5.1 全文總結(jié)
5.2 后續(xù)工作與展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間參加的科研項(xiàng)目和研宄成果
致謝
本文編號(hào):3160546
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3160546.html
最近更新
教材專(zhuān)著