天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向微博評論的LDA短文本聚類算法研究

發(fā)布時間:2024-05-09 20:21
  微博因其評論的便捷性得到了廣大民眾的喜愛,成為國內(nèi)最受歡迎的社交媒體平臺之一。微博評論具有語義稀疏和高維性等特點,其中往往帶有強(qiáng)烈的情感色彩,對微博評論的情感分析是獲取用戶觀點態(tài)度的重要途徑。目前,LDA主題模型成為微博評論分析領(lǐng)域的研究熱點。本論文針對傳統(tǒng)LDA在微博評論情感分析方面準(zhǔn)確率欠佳的問題,利用特征提取與詞共現(xiàn)技術(shù),通過情感主題特征詞加權(quán),深入進(jìn)行了面向微博評論的LDA短文本聚類算法研究,提高語義信息質(zhì)量,優(yōu)化微博評論的情感分析聚類效果。主要研究內(nèi)容如下:第一,介紹LDA主題模型短文本聚類關(guān)鍵技術(shù),主要內(nèi)容包括LDA主題模型基本原理、特征提取技術(shù)、詞共現(xiàn)模型。第二,針對傳統(tǒng)LDA在主題情感分析和語義提取兩方面能力欠佳問題,提出基于情感詞共現(xiàn)和知識對特征提取的LDA短文本聚類算法。首先,定義基于情感詞共現(xiàn)的詞袋,充分考慮情感詞在不同短文本間的共現(xiàn)情況,對微博短文本賦予情感極性;然后,分別設(shè)計主題特征詞和主題關(guān)聯(lián)詞構(gòu)建算法,通過提取主題特征詞和主題關(guān)聯(lián)詞的知識對集,將其注入到LDA主題模型中進(jìn)行一次聚類,進(jìn)而發(fā)現(xiàn)更準(zhǔn)確的語義信息;最后,對LDA主題模型一次聚類獲得的Top30主...

【文章頁數(shù)】:67 頁

【學(xué)位級別】:碩士

【部分圖文】:

圖2-1LDA主題模型

圖2-1LDA主題模型

第2章LDA主題模型短文本聚類關(guān)鍵技術(shù)9第2章LDA主題模型短文本聚類關(guān)鍵技術(shù)LDA主題模型是一個經(jīng)典的主題模型,具有模塊化和可擴(kuò)展等特性,便于被修改和嵌入到其他更復(fù)雜的模型中。基于主題模型的文本情感分析技術(shù)[44],通過挖掘微博評論所蘊(yùn)含的主題及其關(guān)聯(lián)的情感特征,提高情感分析的....


圖2-2LDA生成模型模擬圖

圖2-2LDA生成模型模擬圖

河北工程大學(xué)碩士學(xué)位論文10文檔中每個詞的生成概率為:P,=PP=P=P()P()(2-2)由于P已知,而P()和P()未知,要估計的為參數(shù)θ:=P,P()(2-3)LDA把模型的參數(shù)也看作隨機(jī)變量,從而可以引入控制參數(shù)的參數(shù),實現(xiàn)徹底的“概率化”。模型包括詞項、主題和文檔三層結(jié)....


圖3-1SKP-LDA框架圖

圖3-1SKP-LDA框架圖

第3章基于情感詞共現(xiàn)和知識對特征提取的LDA短文本聚類算法17,=,,,(3-7)公式3-7中,Bi是主題T的第i個主題關(guān)聯(lián)詞,為主題特征詞集中某個單詞,為主題關(guān)聯(lián)詞集中的某個單詞,(,)是用不同單詞w和的共現(xiàn)度計算的,此時,,其中“”為評判標(biāo)準(zhǔn),“”代表可備選入主題關(guān)聯(lián)詞集。例....


圖3-2情感詞共現(xiàn)圖模型

圖3-2情感詞共現(xiàn)圖模型

3.2.1微博短文本預(yù)處理對微博短文本語料庫進(jìn)行預(yù)處理,首先,利用ache爬蟲法爬取微博短文本,消除詞干、停止詞,刪除文檔頻率很低的單詞;然后,采用jieba分詞軟件對短文本進(jìn)行中文分詞;最后,通過LDA主題模型進(jìn)行降維處理。3.2.2情感詞共現(xiàn)本節(jié)提出基于情感詞....



本文編號:3968531

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3968531.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6285b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com