當(dāng)前位置：主頁 > 科技論文 > 計算機(jī)應(yīng)用論文 >

面向微博評論的LDA短文本聚類算法研究

發(fā)布時間：2024-05-09 20:21

　　微博因其評論的便捷性得到了廣大民眾的喜愛,成為國內(nèi)最受歡迎的社交媒體平臺之一。微博評論具有語義稀疏和高維性等特點,其中往往帶有強(qiáng)烈的情感色彩,對微博評論的情感分析是獲取用戶觀點態(tài)度的重要途徑。目前,LDA主題模型成為微博評論分析領(lǐng)域的研究熱點。本論文針對傳統(tǒng)LDA在微博評論情感分析方面準(zhǔn)確率欠佳的問題,利用特征提取與詞共現(xiàn)技術(shù),通過情感主題特征詞加權(quán),深入進(jìn)行了面向微博評論的LDA短文本聚類算法研究,提高語義信息質(zhì)量,優(yōu)化微博評論的情感分析聚類效果。主要研究內(nèi)容如下:第一,介紹LDA主題模型短文本聚類關(guān)鍵技術(shù),主要內(nèi)容包括LDA主題模型基本原理、特征提取技術(shù)、詞共現(xiàn)模型。第二,針對傳統(tǒng)LDA在主題情感分析和語義提取兩方面能力欠佳問題,提出基于情感詞共現(xiàn)和知識對特征提取的LDA短文本聚類算法。首先,定義基于情感詞共現(xiàn)的詞袋,充分考慮情感詞在不同短文本間的共現(xiàn)情況,對微博短文本賦予情感極性;然后,分別設(shè)計主題特征詞和主題關(guān)聯(lián)詞構(gòu)建算法,通過提取主題特征詞和主題關(guān)聯(lián)詞的知識對集,將其注入到LDA主題模型中進(jìn)行一次聚類,進(jìn)而發(fā)現(xiàn)更準(zhǔn)確的語義信息;最后,對LDA主題模型一次聚類獲得的Top30主...

【文章頁數(shù)】：67 頁

【學(xué)位級別】：碩士

【部分圖文】：

圖2-1LDA主題模型

第2章LDA主題模型短文本聚類關(guān)鍵技術(shù)9第2章LDA主題模型短文本聚類關(guān)鍵技術(shù)LDA主題模型是一個經(jīng)典的主題模型，具有模塊化和可擴(kuò)展等特性，便于被修改和嵌入到其他更復(fù)雜的模型中。基于主題模型的文本情感分析技術(shù)[44]，通過挖掘微博評論所蘊(yùn)含的主題及其關(guān)聯(lián)的情感特征，提高情感分析的....

圖2-2LDA生成模型模擬圖

河北工程大學(xué)碩士學(xué)位論文10文檔中每個詞的生成概率為：P,=PP=P=P()P()(2-2)由于P已知，而P()和P()未知，要估計的為參數(shù)θ:=P,P()(2-3)LDA把模型的參數(shù)也看作隨機(jī)變量，從而可以引入控制參數(shù)的參數(shù)，實現(xiàn)徹底的“概率化”。模型包括詞項、主題和文檔三層結(jié)....

圖3-1SKP-LDA框架圖

第3章基于情感詞共現(xiàn)和知識對特征提取的LDA短文本聚類算法17,=,,,(3-7)公式3-7中，Bi是主題T的第i個主題關(guān)聯(lián)詞，為主題特征詞集中某個單詞，為主題關(guān)聯(lián)詞集中的某個單詞，(,)是用不同單詞w和的共現(xiàn)度計算的，此時,，其中“”為評判標(biāo)準(zhǔn)，“”代表可備選入主題關(guān)聯(lián)詞集。例....

圖3-2情感詞共現(xiàn)圖模型

3.2.1微博短文本預(yù)處理對微博短文本語料庫進(jìn)行預(yù)處理，首先，利用ache爬蟲法爬取微博短文本，消除詞干、停止詞，刪除文檔頻率很低的單詞；然后，采用jieba分詞軟件對短文本進(jìn)行中文分詞；最后，通過LDA主題模型進(jìn)行降維處理。3.2.2情感詞共現(xiàn)本節(jié)提出基于情感詞....

本文編號：3968531

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/3968531.html

上一篇：基于電場特征空間映射的深度學(xué)習(xí)電阻抗成像方法研究
下一篇：基于多尺度分解的圖像融合方法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向微博評論的LDA短文本聚類算法研究