天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

面向短文本的動態(tài)聚類方法研究

發(fā)布時間:2024-03-08 01:14
  隨著網(wǎng)絡(luò)社交媒體平臺和移動互聯(lián)網(wǎng)設(shè)備的日益普及,新浪微博、Twitter等社交軟件在人們?nèi)粘I钪械氖褂靡苍絹碓綇V泛;ヂ(lián)網(wǎng)用戶每天都產(chǎn)生億級的文本數(shù)據(jù)通過這些軟件進行傳播,這些文本字數(shù)少且特征隨著時間發(fā)生改變,被稱為短文本動態(tài)數(shù)據(jù)流。海量短文本數(shù)據(jù)流的聚類分析對于輿論導向分析、新聞熱門話題追蹤以及個性化用戶興趣挖掘等具有重要意義。由于短文本的內(nèi)容長度受限,存在數(shù)據(jù)特征稀疏問題,同時對于時變文本數(shù)據(jù)流,其數(shù)據(jù)特征隨時間的改變而發(fā)生變化,導致現(xiàn)行的動態(tài)聚類方法的效果表現(xiàn)不佳,因此,有效提高面向短文本的動態(tài)聚類效果是文本挖掘分析的重要課題。本文主要研究面向短文本數(shù)據(jù)的動態(tài)聚類問題,從主題傳遞的角度出發(fā),討論主題繼承性對動態(tài)聚類效果及聚類過程中新主題產(chǎn)生的影響,同時考慮到在不同類型的文本數(shù)據(jù)中,主題繼承性的強弱調(diào)整有所不同,因此本文通過先驗調(diào)整主題繼承性以提升短文本動態(tài)聚類效果。本文的主要研究工作及成果包括:(1)具有新主題傾向性的動態(tài)狄利克雷多項混合(Dynamic Dirichlet Multinomial Mixture,DDMM)模型,模型考慮了各時間窗之間的主題繼承,在先驗中引入折...

【文章頁數(shù)】:67 頁

【學位級別】:碩士

【部分圖文】:

圖2-2LDA的生成概率模型圖

圖2-2LDA的生成概率模型圖

圖2-2LDA的生成概率模型圖圖中,矩形方框表示循環(huán)生成,無陰影圖形表示不可觀測變量,即潛在的參影圖形表示可觀測變量。且M表示語料庫中的文檔篇數(shù),K表示主題個數(shù),含有V個詞項,Nm表示在文檔dm中所包含的詞語數(shù)目。wm,n表示在文檔dm中詞語。zm,n表示在文....


圖3-2DCT模型在模擬數(shù)據(jù)集上獲取的各數(shù)據(jù)點的類別標簽

圖3-2DCT模型在模擬數(shù)據(jù)集上獲取的各數(shù)據(jù)點的類別標簽

貴州大學碩士學位論文圖3-2和3-3所示。其中,DDMM模型在各時間窗口內(nèi)進行聚類分析計算出的NMI值分別為:0.991、0.996、0.993,Purity值分別為:0.990、0.998、0.997。DCT模型在各時間窗口內(nèi)進行聚類分析計算出的NMI值分別....


圖3-3DDMM模型在模擬數(shù)據(jù)集上獲取的各數(shù)據(jù)點的類別標簽

圖3-3DDMM模型在模擬數(shù)據(jù)集上獲取的各數(shù)據(jù)點的類別標簽

貴州大學碩士學位論文圖3-2和3-3所示。其中,DDMM模型在各時間窗口內(nèi)進行聚類分析計算出的NMI值分別為:0.991、0.996、0.993,Purity值分別為:0.990、0.998、0.997。DCT模型在各時間窗口內(nèi)進行聚類分析計算出的NMI值分別....


圖3-4DDMM模型在每輪迭代中獲取的聚類個數(shù)

圖3-4DDMM模型在每輪迭代中獲取的聚類個數(shù)

貴州大學碩士學位論文知:新主題的產(chǎn)生更符合動態(tài)數(shù)據(jù)的實際特征,因此使得聚類為DDMM模型具有產(chǎn)生新主題的偏向性,并且其聚類指標DDMM模型在聚類過程中能夠自動估算出聚類個數(shù),這是代過程中設(shè)置了一個足夠大的主題數(shù)K,然后在每輪迭代中將狀態(tài),便可得出實際的主題數(shù)K*,實驗結(jié)....



本文編號:3921783

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3921783.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶efd17***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com