面向話題型微博評論的觀點識別及其情感傾向分析研究
本文關(guān)鍵詞:面向話題型微博評論的觀點識別及其情感傾向分析研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)在中國的普及,人們的生活方式也逐漸地發(fā)生變化,越來越多的人通過互聯(lián)網(wǎng)獲取和發(fā)布信息。廣大互聯(lián)網(wǎng)用戶開始在微博上傳播政治話題、體育話題、娛樂話題。每天都有大量的具有分析價值的微博評論產(chǎn)生,這些評論信息包含大量情感信息和觀點。 微博研究已經(jīng)成為熱點。通過對中文微博情感分析相關(guān)文獻的研究,發(fā)現(xiàn)微博情感分類方法主要有兩類:基于情感詞典的方法和基于機器學(xué)習(xí)的方法。由于中文語法復(fù)雜,基于機器學(xué)習(xí)的方法無法保留了情感相關(guān)特征項之間的關(guān)系,也無法應(yīng)對多個情感詞和評價對象的情況。而基于情感詞典的方法,在情感極性分類過程中,較少考慮到微博話題領(lǐng)域詞匯,同時情感詞典中的情感詞不區(qū)分情感詞之間情感強弱,這樣使得分類結(jié)果的準(zhǔn)確性受到影響。目前中文微博情感分析缺乏針對性研究,忽略評價對象對情感的極性和強弱影響,而且情感特征項抽取算法也有待改進。 針對這些問題,本文采用基于情感詞典的方法,,選擇中文情感詞匯本體庫作為本文的基礎(chǔ)情感詞典,有效地改進以往情感詞典不區(qū)分情感之間情感強弱的缺點。并且采用一種基于HowNet的詞匯語義相似度計算方法,構(gòu)建面向微博話題的領(lǐng)域情感詞典。同時考慮到評價對象對微博情感分類的影響,構(gòu)建合理的評價對象詞典。本文采用規(guī)則和SVM模型進行觀點識別,篩選出和微博話題相關(guān)的微博評論,提高情感分析中評論文本的質(zhì)量。然后對微博評論文本進行相應(yīng)的文本預(yù)處理,并采用平滑算法、語法規(guī)則相結(jié)合,作為微博評論文本情感特征項抽取方法,對微博評論中的否定詞、程度副詞、微博表情符號、情感詞以及評論中的評價對象做相應(yīng)的處理。最后本文結(jié)合微博評論語句情感計算公式,對評論句的情感傾向進行分類,有效改進了以往微博情感分析的缺陷,實現(xiàn)了一個能夠較為合理判斷微博評論句情感強弱的計算公式。不同的話題,其領(lǐng)域詞典存在不同。本文基于微博話題構(gòu)建針對性的情感傾向詞典和評價對象詞典做特定話題的情感分析研究,可以進一步提升情感分析效果。 實驗數(shù)據(jù)采用數(shù)據(jù)堂提供的微博語料,包含生活、交通事故、科技三個領(lǐng)域的微博話題評論數(shù)據(jù),實驗結(jié)果表明,本文設(shè)計的觀點識別方法和情感分類模型與以往的分類模型對比,觀點識別和情感分類效果具有明顯提升,說明本文提出的方法具有合理性和有效性。
【關(guān)鍵詞】:微博話題 觀點識別 詞匯相似度 情感詞典 情感傾向
【學(xué)位授予單位】:杭州電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1;TP393.092
【目錄】:
- 摘要5-6
- ABSTRACT6-8
- 目錄8-11
- 1 緒論11-20
- 1.1 研究背景11-12
- 1.2 研究目的及意義12-13
- 1.3 微博國內(nèi)外研究綜述13-15
- 1.3.1 國內(nèi)微博情感分析研究現(xiàn)狀13-14
- 1.3.2 國外微博情感分析研究現(xiàn)狀14-15
- 1.4 觀點識別研究綜述15-16
- 1.5 研究內(nèi)容及挑戰(zhàn)16-17
- 1.6 研究框架17-19
- 1.7 本章小結(jié)19-20
- 2 相關(guān)介紹與理論概述20-31
- 2.1 微博概述20-22
- 2.1.1 微博定義及發(fā)展20
- 2.1.2 微博特點及其成功原因20-21
- 2.1.3 國內(nèi)外微博比較21-22
- 2.2 文本特征選擇方法22-25
- 2.2.1 特征選取及要點22
- 2.2.2 目前常用的幾種特征選擇方法22-24
- 2.2.3 目前文本特征提取的難點24-25
- 2.2.4 微博研究特征選取方法25
- 2.3 文本預(yù)處理25-30
- 2.3.1 中文分詞26-27
- 2.3.2 中文分詞難點總結(jié)27
- 2.3.3 中文分詞系統(tǒng)27-28
- 2.3.4 詞性標(biāo)注28-30
- 2.3.5 停用詞過濾30
- 2.4 本章小結(jié)30-31
- 3 話題型微博相關(guān)情感詞典構(gòu)建31-43
- 3.1 HowNet介紹31
- 3.2 詞語相似度與詞語距離31-32
- 3.2.1 詞語相似度含義31
- 3.2.2 詞語相似度與詞語距離的關(guān)系31-32
- 3.3 情感詞典相關(guān)介紹32-34
- 3.3.1 情感相關(guān)術(shù)語介紹32-33
- 3.3.2 情感詞典的重要性33
- 3.3.3 相關(guān)情感詞典介紹33-34
- 3.3.4 微博情感詞典的組成34
- 3.4 基礎(chǔ)情感詞典構(gòu)建34-37
- 3.5 程度副詞、否定詞詞典構(gòu)建37-38
- 3.5.1 程度副詞詞典構(gòu)建37
- 3.5.2 否定詞詞典構(gòu)建37-38
- 3.6 表情符號、網(wǎng)絡(luò)用語詞典構(gòu)建38
- 3.6.1 表情符號詞典構(gòu)建38
- 3.6.2 網(wǎng)絡(luò)用語詞典構(gòu)建38
- 3.7 評價對象詞典構(gòu)建38-39
- 3.8 面向微博話題的領(lǐng)域情感詞典構(gòu)建39-42
- 3.8.1 領(lǐng)域詞匯獲取40
- 3.8.2 基于HowNet詞匯語義相似度計算方法40-41
- 3.8.3 領(lǐng)域情感詞典構(gòu)建41-42
- 3.9 本章小結(jié)42-43
- 4 話題型微博評論的觀點識別及其情感傾向分析43-59
- 4.1 微博情感相關(guān)特征項分析43-47
- 4.1.1 話題型微博評論文本的特點43-44
- 4.1.2 本文微博情感相關(guān)特征項44-47
- 4.2 微博特征項抽取算法47-51
- 4.2.1 情感詞、程度副詞、否定詞、評價對象的抽取48-50
- 4.2.2 表情符號的抽取50
- 4.2.3 網(wǎng)絡(luò)用語的抽取50-51
- 4.3 話題型微博評論觀點識別介紹51-54
- 4.3.1 觀點識別相關(guān)介紹51
- 4.3.2 微博觀點識別特征項選擇51-52
- 4.3.3 SVM介紹52-54
- 4.4 基于規(guī)則和SVM相結(jié)合的觀點句識別54-56
- 4.4.1 觀點識別過濾規(guī)則54-55
- 4.4.2 基于SVM的觀點識別55-56
- 4.5 微博話題評論情感傾向計算56-57
- 4.6 本章小結(jié)57-59
- 5 實驗及結(jié)果分析59-66
- 5.1 實驗及結(jié)果分析59
- 5.2 實驗的評價指標(biāo)59-60
- 5.2.1 準(zhǔn)確率和召回率59
- 5.2.2 F1 值59-60
- 5.3 話題相關(guān)領(lǐng)域情感詞擴展實驗結(jié)果60
- 5.4 觀點識別實驗結(jié)果60-61
- 5.5 話題微博評論情感極性分類61-65
- 5.6 本章小結(jié)65-66
- 6 總結(jié)和展望66-68
- 6.1 工作總結(jié)66
- 6.2 不足與進一步改進66-68
- 致謝68-69
- 參考文獻69-73
- 附錄73-86
- 附錄173-74
- 附錄274-86
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 王銀;吳新玲;;中文微博情感分析方法研究[J];廣東技術(shù)師范學(xué)院學(xué)報;2014年03期
2 王樂;閉應(yīng)洲;;基于特征模板提取及SVM的觀點句識別[J];廣西師范學(xué)院學(xué)報(自然科學(xué)版);2014年03期
3 王晶;;論英語教學(xué)中的情感教育[J];黑龍江科技信息;2010年09期
4 盧葦;彭雅;;幾種常用文本分類算法性能比較與分析[J];湖南大學(xué)學(xué)報(自然科學(xué)版);2007年06期
5 劉志明;劉魯;;基于機器學(xué)習(xí)的中文微博情感分類實證研究[J];計算機工程與應(yīng)用;2012年01期
6 柳位平;朱艷輝;栗春亮;向華政;文志強;;中文基礎(chǔ)情感詞詞典構(gòu)建方法研究[J];計算機應(yīng)用;2009年10期
7 朱嫣嵐;閔錦;周雅倩;黃萱菁;吳立德;;基于HowNet的詞匯語義傾向計算[J];中文信息學(xué)報;2006年01期
8 王根;趙軍;;基于多重冗余標(biāo)記CRFs的句子情感分析研究[J];中文信息學(xué)報;2007年05期
9 徐琳宏;林鴻飛;趙晶;;情感語料庫的構(gòu)建和分析[J];中文信息學(xué)報;2008年01期
10 喬維;孫茂松;;漢語交集型歧義切分字段關(guān)于專業(yè)領(lǐng)域的統(tǒng)計特性[J];中文信息學(xué)報;2008年04期
本文關(guān)鍵詞:面向話題型微博評論的觀點識別及其情感傾向分析研究,由筆耕文化傳播整理發(fā)布。
本文編號:311377
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/311377.html