基于Calinski-Harabasz改進SSLOK-means聚類的微博用戶特征研究
發(fā)布時間:2020-12-04 06:07
新浪微博作為國內主流的社交網(wǎng)絡平臺,同時也是各類資訊發(fā)布的主要渠道,微博具有實時、公開、簡潔等自身特性,這成就了其龐大的用戶群,新浪微博的用戶活躍度在國內社交網(wǎng)絡平臺中處于領先地位。用戶在平臺中產(chǎn)生的數(shù)據(jù)不斷累積,形成的社交大數(shù)據(jù)可為商業(yè)決策等提供數(shù)據(jù)支撐,但在產(chǎn)生海量數(shù)據(jù)的同時也引起了信息過載的問題,用戶面對龐雜的數(shù)據(jù)越來越難找到符合自己興趣偏好的信息和內容,這極大的降低了大數(shù)據(jù)的利用效率,影響用戶體驗,因此利用微博中的數(shù)據(jù)對用戶特征進行分析研究,進而為用戶提供優(yōu)質的個性化推薦是改善信息過載問題的關鍵。為了有效的利用海量大數(shù)據(jù)中的價值,數(shù)據(jù)挖掘技術應運而生,作為一種數(shù)據(jù)挖掘算法,聚類算法在社交網(wǎng)絡中得到了廣泛應用,為微博運營商分析用戶數(shù)據(jù)提供了新方法和思路。K-means算法是常用的聚類分析的方法之一,但當其分析大批量數(shù)據(jù)時,會面臨聚類效率較低的問題,新近提出的SSLOK-means聚類算法解決了K-means這一缺陷,但該算法需要提前人為設置聚類個數(shù),阻礙了算法的便捷使用,而Calinski-Harabasz有效性函數(shù)的出現(xiàn)改善了K-means需提前設置k值的不足。本文基于Cali...
【文章來源】:北京外國語大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:40 頁
【學位級別】:碩士
【部分圖文】:
圖1聚類算法分類??2.3.3_3聚類分析??
在SSLOK-means聚類時,為了使算法能在我們可控制的范圍內收斂結束。??定義一個結束的標志f?=?le?-?8,若在兩次SSLOK-means聚類的過程中,所有??的聚類中心偏移量求和move?<=£,便認為聚類過程終結,算法結束。??2.3.5?Calinski-Harabasz?函數(shù)改進?k-means?算法??正如2.3.3節(jié)所顧慮的,在應用k-means聚類算法時,存在需要提前設置々??值的缺點,在進行大批量數(shù)據(jù)集的聚類運算或者先驗知識較為缺乏時,確定合??適的(值是不太容易的。為了解決這項難題,研究學者探究了多個確定最佳A??值的方法。以“最優(yōu)聚類質量判定原則”:組內元素之間距離最小并且組間距??離最大為依據(jù),提出來多種判別聚類質量的函數(shù):DB函數(shù)、DI函數(shù)和??Calinski-Harabasz?(CH)函數(shù),眾多學者經(jīng)過研宄之后的結果表明CH函數(shù)具??有最佳的判定效果。??13??
在SSLOK-means聚類時,為了使算法能在我們可控制的范圍內收斂結束。??定義一個結束的標志f?=?le?-?8,若在兩次SSLOK-means聚類的過程中,所有??的聚類中心偏移量求和move?<=£,便認為聚類過程終結,算法結束。??2.3.5?Calinski-Harabasz?函數(shù)改進?k-means?算法??正如2.3.3節(jié)所顧慮的,在應用k-means聚類算法時,存在需要提前設置々??值的缺點,在進行大批量數(shù)據(jù)集的聚類運算或者先驗知識較為缺乏時,確定合??適的(值是不太容易的。為了解決這項難題,研究學者探究了多個確定最佳A??值的方法。以“最優(yōu)聚類質量判定原則”:組內元素之間距離最小并且組間距??離最大為依據(jù),提出來多種判別聚類質量的函數(shù):DB函數(shù)、DI函數(shù)和??Calinski-Harabasz?(CH)函數(shù),眾多學者經(jīng)過研宄之后的結果表明CH函數(shù)具??有最佳的判定效果。??13??
【參考文獻】:
期刊論文
[1]面向結構復雜數(shù)據(jù)集的模糊聚類有效性指標[J]. 唐益明,豐剛永,任福繼,胡相慧,張有成. 電子測量與儀器學報. 2018(04)
[2]一種基于詞義和詞頻的向量空間模型改進方法[J]. 鄧曉衡,楊子榮,關培源. 計算機應用研究. 2019(05)
[3]基于用戶興趣主題模型的個性化推薦研究[J]. 熊回香,楊雪萍,高連花. 情報學報. 2017(09)
[4]基于決策樹算法的爬蟲識別技術[J]. 劉宇,程學林. 軟件. 2017(07)
[5]一種改進的向量空間模型的文本表示算法[J]. 張小川,于旭庭,張宜浩. 重慶理工大學學報(自然科學). 2017(01)
[6]大數(shù)據(jù)聚類算法綜述[J]. 海沫. 計算機科學. 2016(S1)
[7]基于用戶行為特征的微博轉發(fā)預測研究[J]. 劉瑋,賀敏,王麗宏,劉悅,沈華偉,程學旗. 計算機學報. 2016(10)
[8]移動社交網(wǎng)站中的信息過載與個性化推薦機制研究[J]. 王娜,任婷. 情報雜志. 2015(08)
[9]聚類算法綜述[J]. 伍育紅. 計算機科學. 2015(S1)
[10]微博客用戶特征分析及分類研究——以“新浪微博”為例[J]. 彭希羨,朱慶華,劉璇. 情報科學. 2015(01)
本文編號:2897132
【文章來源】:北京外國語大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:40 頁
【學位級別】:碩士
【部分圖文】:
圖1聚類算法分類??2.3.3_3聚類分析??
在SSLOK-means聚類時,為了使算法能在我們可控制的范圍內收斂結束。??定義一個結束的標志f?=?le?-?8,若在兩次SSLOK-means聚類的過程中,所有??的聚類中心偏移量求和move?<=£,便認為聚類過程終結,算法結束。??2.3.5?Calinski-Harabasz?函數(shù)改進?k-means?算法??正如2.3.3節(jié)所顧慮的,在應用k-means聚類算法時,存在需要提前設置々??值的缺點,在進行大批量數(shù)據(jù)集的聚類運算或者先驗知識較為缺乏時,確定合??適的(值是不太容易的。為了解決這項難題,研究學者探究了多個確定最佳A??值的方法。以“最優(yōu)聚類質量判定原則”:組內元素之間距離最小并且組間距??離最大為依據(jù),提出來多種判別聚類質量的函數(shù):DB函數(shù)、DI函數(shù)和??Calinski-Harabasz?(CH)函數(shù),眾多學者經(jīng)過研宄之后的結果表明CH函數(shù)具??有最佳的判定效果。??13??
在SSLOK-means聚類時,為了使算法能在我們可控制的范圍內收斂結束。??定義一個結束的標志f?=?le?-?8,若在兩次SSLOK-means聚類的過程中,所有??的聚類中心偏移量求和move?<=£,便認為聚類過程終結,算法結束。??2.3.5?Calinski-Harabasz?函數(shù)改進?k-means?算法??正如2.3.3節(jié)所顧慮的,在應用k-means聚類算法時,存在需要提前設置々??值的缺點,在進行大批量數(shù)據(jù)集的聚類運算或者先驗知識較為缺乏時,確定合??適的(值是不太容易的。為了解決這項難題,研究學者探究了多個確定最佳A??值的方法。以“最優(yōu)聚類質量判定原則”:組內元素之間距離最小并且組間距??離最大為依據(jù),提出來多種判別聚類質量的函數(shù):DB函數(shù)、DI函數(shù)和??Calinski-Harabasz?(CH)函數(shù),眾多學者經(jīng)過研宄之后的結果表明CH函數(shù)具??有最佳的判定效果。??13??
【參考文獻】:
期刊論文
[1]面向結構復雜數(shù)據(jù)集的模糊聚類有效性指標[J]. 唐益明,豐剛永,任福繼,胡相慧,張有成. 電子測量與儀器學報. 2018(04)
[2]一種基于詞義和詞頻的向量空間模型改進方法[J]. 鄧曉衡,楊子榮,關培源. 計算機應用研究. 2019(05)
[3]基于用戶興趣主題模型的個性化推薦研究[J]. 熊回香,楊雪萍,高連花. 情報學報. 2017(09)
[4]基于決策樹算法的爬蟲識別技術[J]. 劉宇,程學林. 軟件. 2017(07)
[5]一種改進的向量空間模型的文本表示算法[J]. 張小川,于旭庭,張宜浩. 重慶理工大學學報(自然科學). 2017(01)
[6]大數(shù)據(jù)聚類算法綜述[J]. 海沫. 計算機科學. 2016(S1)
[7]基于用戶行為特征的微博轉發(fā)預測研究[J]. 劉瑋,賀敏,王麗宏,劉悅,沈華偉,程學旗. 計算機學報. 2016(10)
[8]移動社交網(wǎng)站中的信息過載與個性化推薦機制研究[J]. 王娜,任婷. 情報雜志. 2015(08)
[9]聚類算法綜述[J]. 伍育紅. 計算機科學. 2015(S1)
[10]微博客用戶特征分析及分類研究——以“新浪微博”為例[J]. 彭希羨,朱慶華,劉璇. 情報科學. 2015(01)
本文編號:2897132
本文鏈接:http://sikaile.net/guanlilunwen/sjfx/2897132.html
教材專著