天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 管理論文 > 統(tǒng)計學(xué)論文 >

基于兩種改進的聚類算法對新浪微博用戶信息的研究

發(fā)布時間:2020-03-30 17:02
【摘要】:近幾年來新浪微博迅猛發(fā)展,已經(jīng)逐漸成為人們生活中不可或缺的一部分。新浪微博作為一個信息傳播平臺,它使得人們能夠及時的獲取第一手信息,同時作為一個社交平臺,它讓人們可以通過一種嶄新的方式與他人交往。在新浪微博中,用戶具有核心地位,無論是為了在微博平臺上進行廣告營銷,還是對微博信息進行輿情監(jiān)測,對不同微博用戶群體的信息進行提煉都是至關(guān)重要的一步 本文以微博用戶信息數(shù)據(jù)作為研究對象,以用戶的粉絲數(shù)、微博數(shù)、關(guān)注數(shù)、互粉數(shù)以及博齡數(shù)的取值作為依據(jù),對微博用戶群體進行聚類劃分。首先將數(shù)據(jù)可視化從而全面了解了數(shù)據(jù)的分布特征,然后應(yīng)用標準化方法對數(shù)據(jù)進行了預(yù)處理。由于數(shù)據(jù)量很大(21481條用戶信息),,且由于大于三的維度從而難以對數(shù)據(jù)的聚類趨勢進行直觀的評估。對此,本文采用了改進后的K-Means算法和TwoStep算法對數(shù)據(jù)進行聚類分析。改進的K-Means算法是將傳統(tǒng)的K-Means算法與C-H指數(shù)相結(jié)合,從而可以自行的選擇最終聚類個數(shù),TwoStep算法則將傳統(tǒng)的系統(tǒng)聚類算法與Birch算法相結(jié)合,進而解決了傳統(tǒng)系統(tǒng)聚類算法擴展性較差的問題,但在計算過程中需要人為的選取閥值T。通過這兩種改進后的方法最終得到了兩種不同的聚類結(jié)果,在對各個類別進行分析后本文對不同的類別予以命名 最后,本文應(yīng)用三種不同的度量指數(shù)來對聚類結(jié)果質(zhì)量進行評價,結(jié)果顯示改進后K-Means算法的聚類結(jié)果質(zhì)量較好。其原因可能是TwoStep算法中的預(yù)聚類造成了樣本信息量的損失以及人為選取的閥值T不是最佳值。
【學(xué)位授予單位】:首都經(jīng)濟貿(mào)易大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:C81

【引證文獻】

相關(guān)期刊論文 前2條

1 張士豪;顧益軍;張俊豪;;微博自動分類系統(tǒng)設(shè)計[J];信息網(wǎng)絡(luò)安全;2016年01期

2 張士豪;顧益軍;張俊豪;;基于用戶聚類的熱門微博分類研究[J];信息網(wǎng)絡(luò)安全;2015年07期



本文編號:2607807

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/2607807.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶bca74***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com