在線社交網(wǎng)絡(luò)的UNI64采樣方法研究
發(fā)布時(shí)間:2019-06-02 23:48
【摘要】:在線社交網(wǎng)絡(luò)的迅猛發(fā)展吸引了大批學(xué)者對(duì)其進(jìn)行分析和研究。大多數(shù)針對(duì)在線社交網(wǎng)絡(luò)的實(shí)證性研究都需要基于真實(shí)的網(wǎng)絡(luò)節(jié)點(diǎn)和網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)進(jìn)行。然而全網(wǎng)數(shù)據(jù)通常難以獲得,因此需要通過研究網(wǎng)絡(luò)采樣方法來獲得具有代表性的網(wǎng)絡(luò)樣本從而保證后續(xù)研究的順利進(jìn)行。 雖然人們已經(jīng)提出了許多針對(duì)網(wǎng)絡(luò)的采樣方法,但對(duì)這些采樣方法優(yōu)劣的評(píng)價(jià)需要一個(gè)無偏均勻的樣本集作為評(píng)價(jià)標(biāo)準(zhǔn)。UNI方法則是一個(gè)能夠提供無偏基準(zhǔn)值的采樣方法。然而由于在線社交網(wǎng)絡(luò)用戶ID系統(tǒng)的升級(jí),致使UNI方法的采樣范圍急劇擴(kuò)大,這使得UNI方法的采樣命中率幾乎為零,最終導(dǎo)致該方法無法使用。 本文對(duì)在線社交網(wǎng)絡(luò)采樣方法的研究背景和意義進(jìn)行了系統(tǒng)性地綜述。分析了在線社交網(wǎng)絡(luò)中UNI方法實(shí)際應(yīng)用時(shí)存在的問題和弊端,提出了解決UNI方法在64位整數(shù)ID系統(tǒng)中無法使用問題的假設(shè)。然后以新浪微博為例,采集了近一億條用戶ID數(shù)據(jù),并對(duì)用戶ID的分布情況進(jìn)行了統(tǒng)計(jì)和分析,發(fā)現(xiàn)了新浪微博用戶ID的分布規(guī)律,同時(shí)驗(yàn)證了我們對(duì)于在線社交網(wǎng)絡(luò)用戶ID非稀疏分布的假設(shè)。而后,我們提出了UNI64方法,該方法借鑒層次聚類和貪心算法的思想,通過分析一定數(shù)量的網(wǎng)絡(luò)原始ID樣本,在整個(gè)ID系統(tǒng)中劃分出有效區(qū)間,并控制UNI方法在有效區(qū)間內(nèi)按比例進(jìn)行采樣,提高了采樣命中率,從而解決了UNI方法在64位整數(shù)系統(tǒng)中無法使用的問題。隨后我們通過實(shí)驗(yàn)從采樣效率和樣本質(zhì)量兩個(gè)方面對(duì)UNI64方法進(jìn)行了檢驗(yàn),結(jié)果表明UNI64方法在真實(shí)在線社交網(wǎng)絡(luò)上的實(shí)際采樣命中率能夠達(dá)到我們?cè)O(shè)定的目標(biāo)命中率,并且得到樣本的分布情況也與實(shí)際情況相符。
[Abstract]:......
【學(xué)位授予單位】:北京化工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP393.4
本文編號(hào):2491513
[Abstract]:......
【學(xué)位授予單位】:北京化工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP393.4
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 劉暉;;Twitter:微博客時(shí)代的到來[J];傳媒;2009年10期
2 徐劍;毛祖光;陳靜;張理想;;抗衰老研究中心產(chǎn)品品牌設(shè)計(jì)推廣策略研究[J];藝術(shù)科技;2014年02期
,本文編號(hào):2491513
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2491513.html
最近更新
教材專著