面向微博評論的LDA短文本聚類算法研究
【文章頁數(shù)】:67 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1LDA主題模型
第2章LDA主題模型短文本聚類關(guān)鍵技術(shù)9第2章LDA主題模型短文本聚類關(guān)鍵技術(shù)LDA主題模型是一個經(jīng)典的主題模型,具有模塊化和可擴(kuò)展等特性,便于被修改和嵌入到其他更復(fù)雜的模型中。基于主題模型的文本情感分析技術(shù)[44],通過挖掘微博評論所蘊(yùn)含的主題及其關(guān)聯(lián)的情感特征,提高情感分析的....
圖2-2LDA生成模型模擬圖
河北工程大學(xué)碩士學(xué)位論文10文檔中每個詞的生成概率為:P,=PP=P=P()P()(2-2)由于P已知,而P()和P()未知,要估計的為參數(shù)θ:=P,P()(2-3)LDA把模型的參數(shù)也看作隨機(jī)變量,從而可以引入控制參數(shù)的參數(shù),實現(xiàn)徹底的“概率化”。模型包括詞項、主題和文檔三層結(jié)....
圖3-1SKP-LDA框架圖
第3章基于情感詞共現(xiàn)和知識對特征提取的LDA短文本聚類算法17,=,,,(3-7)公式3-7中,Bi是主題T的第i個主題關(guān)聯(lián)詞,為主題特征詞集中某個單詞,為主題關(guān)聯(lián)詞集中的某個單詞,(,)是用不同單詞w和的共現(xiàn)度計算的,此時,,其中“”為評判標(biāo)準(zhǔn),“”代表可備選入主題關(guān)聯(lián)詞集。例....
圖3-2情感詞共現(xiàn)圖模型
3.2.1微博短文本預(yù)處理對微博短文本語料庫進(jìn)行預(yù)處理,首先,利用ache爬蟲法爬取微博短文本,消除詞干、停止詞,刪除文檔頻率很低的單詞;然后,采用jieba分詞軟件對短文本進(jìn)行中文分詞;最后,通過LDA主題模型進(jìn)行降維處理。3.2.2情感詞共現(xiàn)本節(jié)提出基于情感詞....
本文編號:3968531
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3968531.html