面向短文本的動態(tài)聚類方法研究
【文章頁數(shù)】:67 頁
【學位級別】:碩士
【部分圖文】:
圖2-2LDA的生成概率模型圖
圖2-2LDA的生成概率模型圖圖中,矩形方框表示循環(huán)生成,無陰影圖形表示不可觀測變量,即潛在的參影圖形表示可觀測變量。且M表示語料庫中的文檔篇數(shù),K表示主題個數(shù),含有V個詞項,Nm表示在文檔dm中所包含的詞語數(shù)目。wm,n表示在文檔dm中詞語。zm,n表示在文....
圖3-2DCT模型在模擬數(shù)據(jù)集上獲取的各數(shù)據(jù)點的類別標簽
貴州大學碩士學位論文圖3-2和3-3所示。其中,DDMM模型在各時間窗口內(nèi)進行聚類分析計算出的NMI值分別為:0.991、0.996、0.993,Purity值分別為:0.990、0.998、0.997。DCT模型在各時間窗口內(nèi)進行聚類分析計算出的NMI值分別....
圖3-3DDMM模型在模擬數(shù)據(jù)集上獲取的各數(shù)據(jù)點的類別標簽
貴州大學碩士學位論文圖3-2和3-3所示。其中,DDMM模型在各時間窗口內(nèi)進行聚類分析計算出的NMI值分別為:0.991、0.996、0.993,Purity值分別為:0.990、0.998、0.997。DCT模型在各時間窗口內(nèi)進行聚類分析計算出的NMI值分別....
圖3-4DDMM模型在每輪迭代中獲取的聚類個數(shù)
貴州大學碩士學位論文知:新主題的產(chǎn)生更符合動態(tài)數(shù)據(jù)的實際特征,因此使得聚類為DDMM模型具有產(chǎn)生新主題的偏向性,并且其聚類指標DDMM模型在聚類過程中能夠自動估算出聚類個數(shù),這是代過程中設(shè)置了一個足夠大的主題數(shù)K,然后在每輪迭代中將狀態(tài),便可得出實際的主題數(shù)K*,實驗結(jié)....
本文編號:3921783
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3921783.html