面向微博評(píng)論的LDA短文本聚類算法研究
【文章頁(yè)數(shù)】:67 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1LDA主題模型
第2章LDA主題模型短文本聚類關(guān)鍵技術(shù)9第2章LDA主題模型短文本聚類關(guān)鍵技術(shù)LDA主題模型是一個(gè)經(jīng)典的主題模型,具有模塊化和可擴(kuò)展等特性,便于被修改和嵌入到其他更復(fù)雜的模型中;谥黝}模型的文本情感分析技術(shù)[44],通過(guò)挖掘微博評(píng)論所蘊(yùn)含的主題及其關(guān)聯(lián)的情感特征,提高情感分析的....
圖2-2LDA生成模型模擬圖
河北工程大學(xué)碩士學(xué)位論文10文檔中每個(gè)詞的生成概率為:P,=PP=P=P()P()(2-2)由于P已知,而P()和P()未知,要估計(jì)的為參數(shù)θ:=P,P()(2-3)LDA把模型的參數(shù)也看作隨機(jī)變量,從而可以引入控制參數(shù)的參數(shù),實(shí)現(xiàn)徹底的“概率化”。模型包括詞項(xiàng)、主題和文檔三層結(jié)....
圖3-1SKP-LDA框架圖
第3章基于情感詞共現(xiàn)和知識(shí)對(duì)特征提取的LDA短文本聚類算法17,=,,,(3-7)公式3-7中,Bi是主題T的第i個(gè)主題關(guān)聯(lián)詞,為主題特征詞集中某個(gè)單詞,為主題關(guān)聯(lián)詞集中的某個(gè)單詞,(,)是用不同單詞w和的共現(xiàn)度計(jì)算的,此時(shí),,其中“”為評(píng)判標(biāo)準(zhǔn),“”代表可備選入主題關(guān)聯(lián)詞集。例....
圖3-2情感詞共現(xiàn)圖模型
3.2.1微博短文本預(yù)處理對(duì)微博短文本語(yǔ)料庫(kù)進(jìn)行預(yù)處理,首先,利用ache爬蟲法爬取微博短文本,消除詞干、停止詞,刪除文檔頻率很低的單詞;然后,采用jieba分詞軟件對(duì)短文本進(jìn)行中文分詞;最后,通過(guò)LDA主題模型進(jìn)行降維處理。3.2.2情感詞共現(xiàn)本節(jié)提出基于情感詞....
本文編號(hào):3968531
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3968531.html