基于多方法融合的中文微博情感傾向性分析研究
發(fā)布時(shí)間:2020-07-05 09:44
【摘要】:針對(duì)微博(MicroBlog)的情感分析是目前社交網(wǎng)絡(luò)輿情研究的熱點(diǎn)之一,其將會(huì)帶來(lái)很大的社會(huì)和商業(yè)價(jià)值。微博的語(yǔ)言特點(diǎn)是文本簡(jiǎn)短,網(wǎng)絡(luò)新詞較多,現(xiàn)有的中文分詞系統(tǒng)對(duì)Web新詞的識(shí)別能力不強(qiáng),導(dǎo)致一些文本的分詞結(jié)果精度不高,對(duì)后續(xù)情感分析工作的質(zhì)量產(chǎn)生影響。另外目前的微博情感分析通常不考慮主題相關(guān)性,一個(gè)原因是由于微博文本存在內(nèi)容發(fā)散的特點(diǎn),要進(jìn)行主題聚類較為困難。除此之外,傳統(tǒng)情感詞典不足以對(duì)日新月異的新情感特征做出極性判斷。同時(shí),目前的情感分類集中于粗粒度層面上,很少將其進(jìn)一步細(xì)分,一般的機(jī)器學(xué)習(xí)方法也難以針對(duì)細(xì)粒度情感做出較高效的分類。為應(yīng)對(duì)以上難題,本文創(chuàng)新的提出“兩階段、四步驟、多方法”的融合策略,首先將研究工作分成情感特征構(gòu)建和情感特征處理兩大階段,在第一個(gè)階段中設(shè)計(jì)面向Web新詞的中文分詞優(yōu)化和微博情感詞典構(gòu)建兩個(gè)步驟,第二個(gè)階段設(shè)計(jì)了主題聚類和細(xì)粒度情感分類兩個(gè)步驟,同時(shí)在每個(gè)步驟中都結(jié)合了多種研究方法以達(dá)到針對(duì)中文微博主題相關(guān)的情感傾向研究的較好效果。創(chuàng)新點(diǎn)及主要策略概述如下:1)針對(duì)微博語(yǔ)言特點(diǎn),提出一種結(jié)合統(tǒng)計(jì)與規(guī)則的方法進(jìn)行新詞發(fā)現(xiàn),并以此進(jìn)一步實(shí)現(xiàn)面向Web的中文分詞系統(tǒng)優(yōu)化;2)面向微博的情感詞典構(gòu)建,基于HowNet算法在情感種子詞的基礎(chǔ)上通過(guò)計(jì)算語(yǔ)義相似度構(gòu)建基礎(chǔ)情感詞詞典,同時(shí)基于點(diǎn)互信息算法對(duì)Web新詞進(jìn)行情感值標(biāo)注,并且收錄了微博表情語(yǔ)言;3)提出一種基于LDA的主題-情感聯(lián)合模型,對(duì)微博海量數(shù)據(jù)中的隱含話題進(jìn)行建模,解決文本稀疏帶來(lái)的高維問(wèn)題,同時(shí)可以捕捉主題的局部情感程度;4)基于決策樹(shù)和隨機(jī)森林模型對(duì)情感特征進(jìn)行訓(xùn)練,以得到細(xì)粒度的情感傾向分類結(jié)果。經(jīng)過(guò)多組實(shí)驗(yàn)后的結(jié)果表明,通過(guò)本文的方法策略,能夠在海量的中文微博數(shù)據(jù)中,較準(zhǔn)確、高效的分析主題相關(guān)的細(xì)粒度情感傾向。
【學(xué)位授予單位】:北方工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP393.092;TP391.1
【學(xué)位授予單位】:北方工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP393.092;TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 郭飛飛;王小華;諶志群;王榮波;;基于回應(yīng)消息的中文微博情感分類方法[J];杭州電子科技大學(xué)學(xué)報(bào);2013年06期
2 李赫元;俞曉明;劉悅;程學(xué)旗;程工;;中文微博客的垃圾用戶檢測(cè)[J];中文信息學(xué)報(bào);2014年03期
3 文坤梅;徐帥;李瑞軒;辜希武;李玉華;;微博及中文微博信息處理研究綜述[J];中文信息學(xué)報(bào);2012年06期
4 王銀;吳新玲;;中文微博情感分析方法研究[J];廣東技術(shù)師范學(xué)院學(xué)報(bào);2014年03期
5 肖s
本文編號(hào):2742439
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2742439.html
最近更新
教材專著