中文微博情感詞典的構(gòu)建研究與應(yīng)用
本文選題:情感詞典 + SO-PMI算法; 參考:《上海師范大學(xué)》2017年碩士論文
【摘要】:近年來隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,包括微博、即時(shí)通訊工具在內(nèi)的新型社交媒體已從根本上改變了人們的生活方式。以微博為主的帶有個(gè)人情感色彩的言論信息正迅速發(fā)展,深入了解和挖掘微博情感信息,為政府、商家等機(jī)構(gòu)進(jìn)行微博營銷、品牌調(diào)查、網(wǎng)絡(luò)輿情監(jiān)控提供支撐,具有重要的社會(huì)意義和商業(yè)價(jià)值。情感分析在信息科學(xué)中,是指利用自然語言處理、機(jī)器學(xué)習(xí)等技術(shù)對(duì)作者主觀情感傾向的分析研究。微博情感分析是其中的熱點(diǎn)問題,主要有兩種方法:基于情感詞典和基于機(jī)器學(xué)習(xí)。但中文微博在文本長度、表達(dá)方式、語言風(fēng)格等方面與傳統(tǒng)文本有著較大區(qū)別,傳統(tǒng)的機(jī)器學(xué)習(xí)方法無法保留情感特征之間的關(guān)系;而基于情感詞典的方法,目前又找不到覆蓋面較好的可用中文情感詞典。針對(duì)傳統(tǒng)研究中存在的不足,本文主要利用了改進(jìn)后SO-PMI算法和主題-情感混合模型來構(gòu)建適合中文微博情感分析的中文微博情感詞典,涉及的主要工作有以下幾個(gè)方面:(1)針對(duì)現(xiàn)有情感詞典在微博情感詞覆蓋度低的問題,整合現(xiàn)有情感詞典資源,構(gòu)建了一個(gè)基礎(chǔ)情感詞典;同時(shí)提出了利用距離互信息和拉普拉斯平滑技術(shù)來改進(jìn)SO-PMI算法對(duì)微博領(lǐng)域情感詞典進(jìn)行構(gòu)建。并通過實(shí)驗(yàn)驗(yàn)證了本文提出的算法在微博情感詞語的傾向性判斷上,相比于傳統(tǒng)方法在準(zhǔn)確率上有了較大的提升。(2)研究文本情感分析中基礎(chǔ)情感詞情感傾向與描述主題的關(guān)系,提出主題-情感混合模型。該模型假設(shè)微博語料庫中的每條微博文本都只符合一種主題-情感分布,利用模型生成文檔的過程中輸出主題-情感詞,從而解決了同一情感詞搭配不同主題表現(xiàn)出不同情感傾向的問題。將主題-情感詞整理添加到中文微博情感詞典中。(3)利用實(shí)驗(yàn)驗(yàn)證了利用本文構(gòu)建的中文微博情感詞典在進(jìn)行微博文本情感分類上的效果要明顯好于現(xiàn)有的情感詞典,從而驗(yàn)證了本文提出的構(gòu)建中文微博情感詞典的方法的有效性。
[Abstract]:With the rapid development of Internet technology in recent years, new social media, including Weibo and instant messaging tools, have fundamentally changed people's way of life. The speech information with personal emotion color is developing rapidly with Weibo, deeply understanding and mining the emotional information of Weibo, providing support for government, merchants and other institutions to carry out Weibo marketing, brand investigation, network public opinion monitoring. It has important social significance and commercial value. In information science, affective analysis refers to the analysis and research of the author's subjective emotional tendency by using natural language processing, machine learning and other techniques. Weibo affective analysis is one of the hot issues, there are two main methods: affective dictionary and machine based learning. However, Chinese Weibo is different from the traditional text in terms of text length, expression mode, language style and so on. Traditional machine learning methods can not retain the relationship between emotional features. At present, we can not find a Chinese emotion dictionary with good coverage. In view of the shortcomings of the traditional research, this paper mainly uses the improved SO-PMI algorithm and the subject-emotion mixed model to construct the Chinese Weibo emotion dictionary suitable for the Chinese Weibo emotion analysis. The main work involved is as follows: 1) aiming at the low coverage of Weibo affective words in the existing affective dictionaries, a basic affective dictionary is constructed by integrating the existing affective dictionary resources; At the same time, the distance mutual information and Laplace smoothing technique are used to improve the SO-PMI algorithm to construct the Weibo domain emotion dictionary. The experimental results show that the proposed algorithm is more accurate than the traditional method in judging the tendency of Weibo affective words.) the relationship between the affective tendency of the basic affective words and the description of the subject in the text affective analysis is studied. A thematic-emotional hybrid model is proposed. The model assumes that each Weibo text in the Weibo corpus conforms to only one subject-emotion distribution, and outputs theme-emotion words in the process of generating the document by using the model. Thus solving the same affective words collocation different themes show different emotional tendencies. Adding topic-affective words to Chinese Weibo affective dictionary, the experiment proves that the effect of the Chinese Weibo affective dictionary constructed in this paper is better than that of the existing affective dictionary in Weibo text classification. The method proposed in this paper is proved to be effective in constructing Chinese Weibo affective dictionary.
【學(xué)位授予單位】:上海師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 鄭誠;沈磊;代寧;;基于類序列規(guī)則的中文微博情感分類[J];計(jì)算機(jī)工程;2016年02期
2 張佳明;王波;唐浩浩;李天彩;;基于Biterm主題模型的無監(jiān)督微博情感傾向性分析[J];計(jì)算機(jī)工程;2015年07期
3 梁亞偉;;基于情感詞典的中文微博情感分析模型研究[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2015年18期
4 肖江;丁星;何榮杰;;基于領(lǐng)域情感詞典的中文微博情感分析[J];電子設(shè)計(jì)工程;2015年12期
5 羅毅;李利;譚松波;程學(xué)旗;;基于中文微博語料的情感傾向性分析[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2014年11期
6 黃時(shí)友;;微博情感分析研究綜述[J];新西部(理論版);2014年19期
7 周劍峰;陽愛民;周詠梅;;基于中文微博的情感詞典構(gòu)建及分類方法[J];計(jì)算機(jī)與數(shù)字工程;2014年10期
8 周詠梅;陽愛民;楊佳能;;一種新聞評(píng)論情感詞典的構(gòu)建方法[J];計(jì)算機(jī)科學(xué);2014年08期
9 孫建旺;呂學(xué)強(qiáng);張雷瀚;;基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析研究[J];計(jì)算機(jī)應(yīng)用與軟件;2014年07期
10 鄭誠;張吉賡;楊希;;基于共現(xiàn)詞的中文微博觀點(diǎn)句識(shí)別[J];電腦知識(shí)與技術(shù);2014年11期
相關(guān)會(huì)議論文 前1條
1 徐琳宏;林鴻飛;;文本情感語料庫的構(gòu)建和分析[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
相關(guān)碩士學(xué)位論文 前10條
1 陳曉東;基于情感詞典的中文微博情感傾向分析研究[D];華中科技大學(xué);2012年
2 楊超;基于情感詞典擴(kuò)展技術(shù)的網(wǎng)絡(luò)輿情傾向性分析[D];東北大學(xué);2009年
3 侯小可;微博新聞話題的情感分析研究[D];華北電力大學(xué);2013年
4 杜振雷;面向微博短文本的情感分析研究[D];北京信息科技大學(xué);2013年
5 湯秋蓮;基于BTM的短文本聚類[D];安徽大學(xué);2014年
6 朱海歡;中文微博情感分類的研究[D];華東師范大學(xué);2014年
7 黃時(shí)友;面向話題型微博評(píng)論的觀點(diǎn)識(shí)別及其情感傾向分析研究[D];杭州電子科技大學(xué);2015年
8 張彬;中文微博情感傾向性分析研究[D];華南理工大學(xué);2015年
9 沈磊;基于規(guī)則與機(jī)器學(xué)習(xí)方法的中文微博情感分析研究[D];安徽大學(xué);2015年
10 劉麗娟;基于LDA特征擴(kuò)展的微博短文本分類[D];燕山大學(xué);2015年
,本文編號(hào):1892616
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1892616.html