基于兩種改進的聚類算法對新浪微博用戶信息的研究
發(fā)布時間:2020-03-30 17:02
【摘要】:近幾年來新浪微博迅猛發(fā)展,已經(jīng)逐漸成為人們生活中不可或缺的一部分。新浪微博作為一個信息傳播平臺,它使得人們能夠及時的獲取第一手信息,同時作為一個社交平臺,它讓人們可以通過一種嶄新的方式與他人交往。在新浪微博中,用戶具有核心地位,無論是為了在微博平臺上進行廣告營銷,還是對微博信息進行輿情監(jiān)測,對不同微博用戶群體的信息進行提煉都是至關(guān)重要的一步 本文以微博用戶信息數(shù)據(jù)作為研究對象,以用戶的粉絲數(shù)、微博數(shù)、關(guān)注數(shù)、互粉數(shù)以及博齡數(shù)的取值作為依據(jù),對微博用戶群體進行聚類劃分。首先將數(shù)據(jù)可視化從而全面了解了數(shù)據(jù)的分布特征,然后應(yīng)用標準化方法對數(shù)據(jù)進行了預(yù)處理。由于數(shù)據(jù)量很大(21481條用戶信息),,且由于大于三的維度從而難以對數(shù)據(jù)的聚類趨勢進行直觀的評估。對此,本文采用了改進后的K-Means算法和TwoStep算法對數(shù)據(jù)進行聚類分析。改進的K-Means算法是將傳統(tǒng)的K-Means算法與C-H指數(shù)相結(jié)合,從而可以自行的選擇最終聚類個數(shù),TwoStep算法則將傳統(tǒng)的系統(tǒng)聚類算法與Birch算法相結(jié)合,進而解決了傳統(tǒng)系統(tǒng)聚類算法擴展性較差的問題,但在計算過程中需要人為的選取閥值T。通過這兩種改進后的方法最終得到了兩種不同的聚類結(jié)果,在對各個類別進行分析后本文對不同的類別予以命名 最后,本文應(yīng)用三種不同的度量指數(shù)來對聚類結(jié)果質(zhì)量進行評價,結(jié)果顯示改進后K-Means算法的聚類結(jié)果質(zhì)量較好。其原因可能是TwoStep算法中的預(yù)聚類造成了樣本信息量的損失以及人為選取的閥值T不是最佳值。
【學(xué)位授予單位】:首都經(jīng)濟貿(mào)易大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:C81
本文編號:2607807
【學(xué)位授予單位】:首都經(jīng)濟貿(mào)易大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:C81
【引證文獻】
相關(guān)期刊論文 前2條
1 張士豪;顧益軍;張俊豪;;微博自動分類系統(tǒng)設(shè)計[J];信息網(wǎng)絡(luò)安全;2016年01期
2 張士豪;顧益軍;張俊豪;;基于用戶聚類的熱門微博分類研究[J];信息網(wǎng)絡(luò)安全;2015年07期
本文編號:2607807
本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/2607807.html
最近更新
教材專著