基于微博平臺的中文情感分析技術的研究
本文選題:微博 + 情感分析; 參考:《沈陽工業(yè)大學》2017年碩士論文
【摘要】:隨著互聯(lián)網的快速發(fā)展與WEB2.0時代的到來,微博、微信等社交網絡平臺在人們生活中占有越來越重要的位置;ヂ(lián)網上的博文數量呈爆炸式增長、海量的博文信息中包含著用戶的情感、觀點,可為政府機構輿情分析、企業(yè)市場行為策略制定、消費者購買行為分析等方面提供決策數據支持。對微博文本進行情感分析,發(fā)掘其中潛藏的巨大價值具有重要的商業(yè)及社會意義;谖⒉┪谋镜那楦蟹治龅闹饕ぷ魇桥袆e微博文本的情感傾向性。本文首先構建了微博情感分析用情感詞典,基礎情感詞典部分采用對現有的中文情感詞典NTUSD和HowNet兩者的綜合,隨后通過整理微博語料中的表情符號、新詞與網絡流行詞語等使用一種PMI與word2vec綜合的方法對情感詞典進行了擴充,得到情感詞典。然后從網絡上獲取微博文本語料數據與第六屆中文傾向性分析評測(COAE2014)評測語料數據并對其進行分詞、停用詞處理等預處理,之后采用人工標注與現有已標注情感傾向語料文本結合的方式構建初始訓練集。本文闡述了一種綜合文本情感分類方法,該方法克服了基于情感詞典的分類方法過度依賴情感詞典,對于未登錄詞處理能力欠佳的問題,以及基于機器學習的分類方法構建特征向量時丟失文本中的程度副詞、句型句式關系等情感分析相關要素的缺點。本文的分類方法在構建訓練用特征向量空間的過程中將傳統(tǒng)支持向量機分類方法中丟棄的信息予以保留,融入到特征向量之中,因其在分類階段使用基于機器學習的算法,在一定程度上保留了對情感詞典中未登錄詞的處理能力最后,通過微博文本語料對本文的分類方法進行了驗證,結果表明較傳統(tǒng)的情感分析方法表現出更高的準確率。
[Abstract]:With the rapid development of the Internet and the arrival of the WEB2.0 era, Weibo, WeChat and other social networking platforms play an increasingly important role in people's lives. The number of blog posts on the Internet is increasing explosively. The massive amount of blog information contains the user's emotion and viewpoint, which can be used to analyze the public opinion of government agencies and make the strategies of enterprise market behavior. Consumer purchase behavior analysis and other aspects to provide decision data support. It is of great commercial and social significance to analyze Weibo's text and explore the potential great value. The main work of emotion analysis based on Weibo's text is to judge the emotional tendency of Weibo's text. This paper first constructs an emotional dictionary for Weibo's affective analysis. In the part of the basic emotional Dictionary, the author combines the existing Chinese emotion Dictionary (NTUSD) and the Chinese emotion Dictionary (HowNet), and then arranges the emoticons in Weibo corpus. The new words and popular words are extended to the emotion dictionary by using a comprehensive method of PMI and word2vec, and the emotion dictionary is obtained. Then the text data of Weibo and COAE2014 are obtained from the network and processed by word segmentation, word discontinuation, etc. Then the initial training set is constructed by the combination of manual tagging and existing tagged affective tendency corpus. This paper presents a comprehensive text affective classification method, which overcomes the problem of over-reliance on affective dictionary and poor processing ability of unrecorded words based on affective dictionary. And the shortcomings of affective analysis such as degree adverb and sentence pattern relation in the text are lost when the classification method based on machine learning is used to construct the feature vector. In the course of constructing the feature vector space for training, the classification method in this paper preserves the information discarded in the traditional SVM classification method and integrates it into the feature vector, because it uses the machine learning algorithm in the classification stage. To a certain extent, the processing ability of unrecorded words in emotion dictionary is retained. Finally, the classification method of this paper is verified by Weibo text corpus, and the result shows that the accuracy of this method is higher than that of traditional emotion analysis method.
【學位授予單位】:沈陽工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.1
【參考文獻】
相關期刊論文 前10條
1 繆裕青;高韓;劉同來;文益民;;基于網格聚類的情感分析研究[J];中國科學技術大學學報;2016年10期
2 唐曉波;蘭玉婷;;基于特征本體的微博產品評論情感分析[J];圖書情報工作;2016年16期
3 張克亮;黃金柱;曹蓉;李峰;;基于HNC語境框架和情感詞典的文本情感傾向分析[J];山東大學學報(理學版);2016年07期
4 史偉;王洪偉;何紹義;;基于微博情感分析的電影票房預測研究[J];華中師范大學學報(自然科學版);2015年01期
5 趙文清;侯小可;沙海虹;;語義規(guī)則在微博熱點話題情感分析中的應用[J];智能系統(tǒng)學報;2014年01期
6 吳維;肖詩斌;;基于多特征與復合分類法的中文微博情感分析[J];北京信息科技大學學報(自然科學版);2013年04期
7 鄭曉剛;韓立新;白書奎;曾曉勤;;一種組合型中文分詞方法[J];計算機應用與軟件;2012年07期
8 張成功;劉培玉;朱振方;方明;;一種基于極性詞典的情感分析方法[J];山東大學學報(理學版);2012年03期
9 朱艷輝;栗春亮;徐葉強;柳位平;;一種基于多重詞典的中文文本情感特征抽取方法[J];湖南工業(yè)大學學報;2011年02期
10 趙妍妍;秦兵;劉挺;;文本情感分析[J];軟件學報;2010年08期
相關碩士學位論文 前1條
1 沈磊;基于規(guī)則與機器學習方法的中文微博情感分析研究[D];安徽大學;2015年
,本文編號:1867535
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1867535.html