基于多方法融合的中文微博情感傾向性分析研究
發(fā)布時間:2020-07-05 09:44
【摘要】:針對微博(MicroBlog)的情感分析是目前社交網(wǎng)絡輿情研究的熱點之一,其將會帶來很大的社會和商業(yè)價值。微博的語言特點是文本簡短,網(wǎng)絡新詞較多,現(xiàn)有的中文分詞系統(tǒng)對Web新詞的識別能力不強,導致一些文本的分詞結(jié)果精度不高,對后續(xù)情感分析工作的質(zhì)量產(chǎn)生影響。另外目前的微博情感分析通常不考慮主題相關(guān)性,一個原因是由于微博文本存在內(nèi)容發(fā)散的特點,要進行主題聚類較為困難。除此之外,傳統(tǒng)情感詞典不足以對日新月異的新情感特征做出極性判斷。同時,目前的情感分類集中于粗粒度層面上,很少將其進一步細分,一般的機器學習方法也難以針對細粒度情感做出較高效的分類。為應對以上難題,本文創(chuàng)新的提出“兩階段、四步驟、多方法”的融合策略,首先將研究工作分成情感特征構(gòu)建和情感特征處理兩大階段,在第一個階段中設(shè)計面向Web新詞的中文分詞優(yōu)化和微博情感詞典構(gòu)建兩個步驟,第二個階段設(shè)計了主題聚類和細粒度情感分類兩個步驟,同時在每個步驟中都結(jié)合了多種研究方法以達到針對中文微博主題相關(guān)的情感傾向研究的較好效果。創(chuàng)新點及主要策略概述如下:1)針對微博語言特點,提出一種結(jié)合統(tǒng)計與規(guī)則的方法進行新詞發(fā)現(xiàn),并以此進一步實現(xiàn)面向Web的中文分詞系統(tǒng)優(yōu)化;2)面向微博的情感詞典構(gòu)建,基于HowNet算法在情感種子詞的基礎(chǔ)上通過計算語義相似度構(gòu)建基礎(chǔ)情感詞詞典,同時基于點互信息算法對Web新詞進行情感值標注,并且收錄了微博表情語言;3)提出一種基于LDA的主題-情感聯(lián)合模型,對微博海量數(shù)據(jù)中的隱含話題進行建模,解決文本稀疏帶來的高維問題,同時可以捕捉主題的局部情感程度;4)基于決策樹和隨機森林模型對情感特征進行訓練,以得到細粒度的情感傾向分類結(jié)果。經(jīng)過多組實驗后的結(jié)果表明,通過本文的方法策略,能夠在海量的中文微博數(shù)據(jù)中,較準確、高效的分析主題相關(guān)的細粒度情感傾向。
【學位授予單位】:北方工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP393.092;TP391.1
【學位授予單位】:北方工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP393.092;TP391.1
【相似文獻】
相關(guān)期刊論文 前10條
1 郭飛飛;王小華;諶志群;王榮波;;基于回應消息的中文微博情感分類方法[J];杭州電子科技大學學報;2013年06期
2 李赫元;俞曉明;劉悅;程學旗;程工;;中文微博客的垃圾用戶檢測[J];中文信息學報;2014年03期
3 文坤梅;徐帥;李瑞軒;辜希武;李玉華;;微博及中文微博信息處理研究綜述[J];中文信息學報;2012年06期
4 王銀;吳新玲;;中文微博情感分析方法研究[J];廣東技術(shù)師范學院學報;2014年03期
5 肖s
本文編號:2742439
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2742439.html
最近更新
教材專著