當(dāng)前位置：主頁 > 管理論文 > 統(tǒng)計學(xué)論文 >

基于兩種改進的聚類算法對新浪微博用戶信息的研究

發(fā)布時間：2020-03-30 17:02

【摘要】：近幾年來新浪微博迅猛發(fā)展，已經(jīng)逐漸成為人們生活中不可或缺的一部分。新浪微博作為一個信息傳播平臺，它使得人們能夠及時的獲取第一手信息，同時作為一個社交平臺，它讓人們可以通過一種嶄新的方式與他人交往。在新浪微博中，用戶具有核心地位，無論是為了在微博平臺上進行廣告營銷，還是對微博信息進行輿情監(jiān)測，對不同微博用戶群體的信息進行提煉都是至關(guān)重要的一步本文以微博用戶信息數(shù)據(jù)作為研究對象，以用戶的粉絲數(shù)、微博數(shù)、關(guān)注數(shù)、互粉數(shù)以及博齡數(shù)的取值作為依據(jù)，對微博用戶群體進行聚類劃分。首先將數(shù)據(jù)可視化從而全面了解了數(shù)據(jù)的分布特征，然后應(yīng)用標準化方法對數(shù)據(jù)進行了預(yù)處理。由于數(shù)據(jù)量很大（21481條用戶信息），，且由于大于三的維度從而難以對數(shù)據(jù)的聚類趨勢進行直觀的評估。對此，本文采用了改進后的K-Means算法和TwoStep算法對數(shù)據(jù)進行聚類分析。改進的K-Means算法是將傳統(tǒng)的K-Means算法與C-H指數(shù)相結(jié)合，從而可以自行的選擇最終聚類個數(shù)，TwoStep算法則將傳統(tǒng)的系統(tǒng)聚類算法與Birch算法相結(jié)合，進而解決了傳統(tǒng)系統(tǒng)聚類算法擴展性較差的問題，但在計算過程中需要人為的選取閥值T。通過這兩種改進后的方法最終得到了兩種不同的聚類結(jié)果，在對各個類別進行分析后本文對不同的類別予以命名最后，本文應(yīng)用三種不同的度量指數(shù)來對聚類結(jié)果質(zhì)量進行評價，結(jié)果顯示改進后K-Means算法的聚類結(jié)果質(zhì)量較好。其原因可能是TwoStep算法中的預(yù)聚類造成了樣本信息量的損失以及人為選取的閥值T不是最佳值。
【學(xué)位授予單位】：首都經(jīng)濟貿(mào)易大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2014
【分類號】：C81

【引證文獻】

相關(guān)期刊論文前2條

1 張士豪;顧益軍;張俊豪;;微博自動分類系統(tǒng)設(shè)計[J];信息網(wǎng)絡(luò)安全;2016年01期

2 張士豪;顧益軍;張俊豪;;基于用戶聚類的熱門微博分類研究[J];信息網(wǎng)絡(luò)安全;2015年07期

本文編號：2607807

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/tongjijuecelunwen/2607807.html

上一篇：Dorfman算法下基于個體信息的最優(yōu)組大小
下一篇：無金標準二重抽樣設(shè)計下基于風(fēng)險差的等價性檢驗及樣本量的確定

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于兩種改進的聚類算法對新浪微博用戶信息的研究