面向社交網(wǎng)絡(luò)數(shù)據(jù)的廣度優(yōu)先與深度優(yōu)先抽樣策略研究
發(fā)布時(shí)間:2021-08-24 08:51
現(xiàn)代社會(huì)信息技術(shù)的迅猛發(fā)展為一切信息數(shù)據(jù)化提供了基礎(chǔ),龐大的數(shù)據(jù)涵蓋著生活中的方方面面。數(shù)據(jù)產(chǎn)生有許多種渠道,社交網(wǎng)絡(luò)便是如今大數(shù)據(jù)的一個(gè)重要來源。同時(shí),社交網(wǎng)絡(luò)也早已成為一種全球性的交流模式,月活躍用戶數(shù)多則十幾億,少則幾億。社交網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù)具備“大數(shù)據(jù)”數(shù)據(jù)量大(Volume)、類型繁多(Variety)、價(jià)值密度低(Value)以及速度快時(shí)效高(Velocity)的4V特性。除此之外,社交網(wǎng)絡(luò)數(shù)據(jù)也具備著小世界,無標(biāo)度以及社區(qū)結(jié)構(gòu)性等復(fù)雜網(wǎng)絡(luò)特性。如何能有效對(duì)如此數(shù)據(jù)進(jìn)行分析,傳統(tǒng)的抽樣方式是否適用,能否獲得較好的樣本網(wǎng)絡(luò)對(duì)原始網(wǎng)絡(luò)進(jìn)行較為準(zhǔn)確的統(tǒng)計(jì)推斷等等問題都亟待解決。本文正是在此背景下面向社交網(wǎng)絡(luò)數(shù)據(jù),通過廣度優(yōu)先抽樣和深度優(yōu)先抽樣的兩種抽樣策略,獲取數(shù)據(jù),得到樣本網(wǎng)絡(luò),并將兩種抽樣策略對(duì)原始網(wǎng)絡(luò)的估計(jì)效果進(jìn)行比較。一方面通過構(gòu)建三種網(wǎng)絡(luò)模型進(jìn)行模擬實(shí)驗(yàn),另一方面通過現(xiàn)實(shí)中豆瓣社交網(wǎng)絡(luò)的實(shí)證數(shù)據(jù)實(shí)證分析。分別從度分布、平均度和聚類系數(shù)等社交網(wǎng)絡(luò)統(tǒng)計(jì)特征量出發(fā)比較了兩種抽樣策略的效果。結(jié)合本文的模擬實(shí)驗(yàn)和實(shí)證分析,得出了以下結(jié)論:1.廣度優(yōu)先抽樣和深度優(yōu)先抽樣具有較好的樣本...
【文章來源】:山西財(cái)經(jīng)大學(xué)山西省
【文章頁數(shù)】:68 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
ER隨機(jī)網(wǎng)絡(luò)模型的度分布(N=10000,p=0.1)
者使用 Python3.0 繪制。圖 2-6 WS 網(wǎng)絡(luò)模型的度分布(N=10000,K=4,p=0.3模型模型和 ER 隨機(jī)網(wǎng)絡(luò)模型這兩種模型而言,其度的而在研究不斷深入的過程中,人們發(fā)現(xiàn)真實(shí)網(wǎng)絡(luò)中萬維網(wǎng),電力網(wǎng)絡(luò)以及代謝網(wǎng)絡(luò)等的度分布可以用這種節(jié)點(diǎn)度沒有明顯特征長度,分布符合冪律分布性稱為無標(biāo)度特性。絡(luò)模型的構(gòu)造算法如下:給定節(jié)點(diǎn)數(shù)為 m0的連通網(wǎng)絡(luò),每次引入一個(gè)新節(jié)點(diǎn)點(diǎn),要求 。:新引入的節(jié)點(diǎn)與已有節(jié)點(diǎn) i 相連的概率 ( )與 i
由作者使用 Python3.0 繪制。圖 2-7 BA 無標(biāo)度網(wǎng)絡(luò)(n=10,m=2) 無標(biāo)度網(wǎng)絡(luò)中度的分布理論研究較多,主要有:速程法三種方法。這三種方法得到的漸進(jìn)結(jié)果相同,價(jià),本文采用了主方程法,該網(wǎng)絡(luò)的度分布函數(shù)如 ( ) )( ) ,冪指數(shù)為 3 的冪律函數(shù)能夠近似描述 BA 網(wǎng)絡(luò)的10000,初始給定節(jié)點(diǎn)為 3,新增一點(diǎn)后的連接點(diǎn)為況。
本文編號(hào):3359680
【文章來源】:山西財(cái)經(jīng)大學(xué)山西省
【文章頁數(shù)】:68 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
ER隨機(jī)網(wǎng)絡(luò)模型的度分布(N=10000,p=0.1)
者使用 Python3.0 繪制。圖 2-6 WS 網(wǎng)絡(luò)模型的度分布(N=10000,K=4,p=0.3模型模型和 ER 隨機(jī)網(wǎng)絡(luò)模型這兩種模型而言,其度的而在研究不斷深入的過程中,人們發(fā)現(xiàn)真實(shí)網(wǎng)絡(luò)中萬維網(wǎng),電力網(wǎng)絡(luò)以及代謝網(wǎng)絡(luò)等的度分布可以用這種節(jié)點(diǎn)度沒有明顯特征長度,分布符合冪律分布性稱為無標(biāo)度特性。絡(luò)模型的構(gòu)造算法如下:給定節(jié)點(diǎn)數(shù)為 m0的連通網(wǎng)絡(luò),每次引入一個(gè)新節(jié)點(diǎn)點(diǎn),要求 。:新引入的節(jié)點(diǎn)與已有節(jié)點(diǎn) i 相連的概率 ( )與 i
由作者使用 Python3.0 繪制。圖 2-7 BA 無標(biāo)度網(wǎng)絡(luò)(n=10,m=2) 無標(biāo)度網(wǎng)絡(luò)中度的分布理論研究較多,主要有:速程法三種方法。這三種方法得到的漸進(jìn)結(jié)果相同,價(jià),本文采用了主方程法,該網(wǎng)絡(luò)的度分布函數(shù)如 ( ) )( ) ,冪指數(shù)為 3 的冪律函數(shù)能夠近似描述 BA 網(wǎng)絡(luò)的10000,初始給定節(jié)點(diǎn)為 3,新增一點(diǎn)后的連接點(diǎn)為況。
本文編號(hào):3359680
本文鏈接:http://sikaile.net/shekelunwen/shgj/3359680.html
最近更新
教材專著