基于半監(jiān)督學(xué)習(xí)的微博情感分析方法研究
本文選題:微博 + 情感分析 ; 參考:《山東財(cái)經(jīng)大學(xué)》2014年碩士論文
【摘要】:微博的快速發(fā)展使其平臺(tái)積累了大量的文本,其中蘊(yùn)含著大量的有價(jià)值的信息,包括商業(yè)信息、社交網(wǎng)絡(luò)和用戶(hù)觀點(diǎn)與情感等。微博的短文本特征使其文本分析具有一定挑戰(zhàn)性,并且中文文本固有的特征使得文本分析性能下降。針對(duì)上述特征,本文應(yīng)用半監(jiān)督學(xué)習(xí)對(duì)微博文本進(jìn)行情感分類(lèi):結(jié)合語(yǔ)言資源和標(biāo)注集合對(duì)文本情感分類(lèi)器進(jìn)行訓(xùn)練和優(yōu)化。情感分類(lèi)包括兩個(gè)任務(wù):識(shí)別情感的極性,如正性、負(fù)性;識(shí)別情感類(lèi)別:如高興、憤怒。本文主要工作如下: 1)微博信息抽取。應(yīng)用微博運(yùn)營(yíng)商提供的API,對(duì)微博信息進(jìn)行采集,以熱門(mén)話(huà)題和認(rèn)證用戶(hù)為入口,采集話(huà)題相關(guān)的微博和用戶(hù)微博及其評(píng)論文本。 2)半監(jiān)督學(xué)習(xí)。結(jié)合已有的標(biāo)注集,運(yùn)用主動(dòng)學(xué)習(xí)標(biāo)注微博文本的情感極性和類(lèi)別,以減少標(biāo)注成本。應(yīng)用標(biāo)注數(shù)據(jù)集于監(jiān)督學(xué)習(xí)中,包括最大熵、神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)模型,對(duì)不同監(jiān)督學(xué)習(xí)模型進(jìn)行優(yōu)化,分析其誤差和學(xué)習(xí)曲線(xiàn)。 3)特征抽取。使用已有語(yǔ)言資源和開(kāi)源軟件,如情感詞匯本體和同義詞詞林進(jìn)行特征抽取,基本特征包括文本所固有的詞項(xiàng)、詞性和詞林編碼等。此外,鑒于文本特征空間維度較大,采用PCA對(duì)特征空間進(jìn)行降維。在模型優(yōu)化過(guò)程中,,對(duì)比了不同特征空間組合和模型的準(zhǔn)確度。 部分的特征抽取過(guò)程,如自然語(yǔ)言處理、以及微博信息處理運(yùn)行在分布式計(jì)算框架上,以提高算法的運(yùn)行效率。情感極性分析的準(zhǔn)確率達(dá)到0.7,具有一定的應(yīng)用價(jià)值。而多類(lèi)別情感分析準(zhǔn)確度相對(duì)較低,為0.34:由于標(biāo)注語(yǔ)料不充分和文本情感表達(dá)的復(fù)雜性,頻率較高的類(lèi)別,如喜歡、厭惡,分類(lèi)效果較好,而驚奇、恐懼等分類(lèi)效果不佳。 情感分析結(jié)果可作用于輿情監(jiān)測(cè)、市場(chǎng)調(diào)研和社會(huì)計(jì)算等方面,具有一定的商業(yè)價(jià)值。在其分析的基礎(chǔ)上,可結(jié)合在線(xiàn)網(wǎng)絡(luò)的結(jié)構(gòu)和時(shí)序進(jìn)行信息傳播和受眾分析,獲得用戶(hù)的行為模式和規(guī)律。結(jié)合用戶(hù)特征,可進(jìn)一步獲得用戶(hù)在發(fā)布信息等行為時(shí)的真實(shí)情感與心理狀態(tài),稱(chēng)之為情感計(jì)算,也是情感分析的最終目的。
[Abstract]:The rapid development of Weibo makes its platform accumulate a lot of text, which contains a lot of valuable information, including business information, social networks and user views and feelings. The text analysis of Weibo is challenging due to its short text feature, and the performance of text analysis is degraded by the inherent features of Chinese text. In view of the above characteristics, this paper applies semi-supervised learning to Weibo text affective classification, and combines language resources and tagging sets to train and optimize the text affective classifier. Emotion classification includes two tasks: recognizing the polarity of emotion, such as positivity and negativity, and identifying emotional categories such as happiness and anger. The main work of this paper is as follows: 1) Weibo information extraction. Using API provided by Weibo operator, the information of Weibo is collected, which takes hot topics and authenticated users as the entry, and collects the Weibo and user Weibo and their comment texts related to the topic. 2) Semi-supervised learning. In order to reduce the annotation cost, we use active learning to annotate the emotional polarity and category of Weibo text. The annotated data set is applied to supervised learning, including maximum entropy, neural network and support vector machine model. Different supervised learning models are optimized and their errors and learning curves are analyzed. 3) feature extraction. Using existing language resources and open source software, such as affective lexical ontology and synonym forest, feature extraction is carried out. The basic features include words inherent in the text, part of speech and lexical forest coding, and so on. In addition, in view of the large dimension of text feature space, PCA is used to reduce the dimension of feature space. In the process of model optimization, the combination of different feature spaces and the accuracy of the model are compared. Some of the feature extraction processes such as natural language processing and Weibo information processing run on the distributed computing framework to improve the efficiency of the algorithm. The accuracy of affective polarity analysis is 0.7, which has certain application value. However, the accuracy of multi-category affective analysis is relatively low (0.34): because of the insufficient tagging data and the complexity of the emotional expression of the text, the categories with higher frequency, such as like, disgust, classification effect are better, but surprise, fear and other classification effects are not good. The result of emotion analysis can be used in public opinion monitoring, market research and social calculation, and has certain commercial value. On the basis of its analysis, the structure and timing of online network can be combined with information dissemination and audience analysis, and the behavior patterns and rules of users can be obtained. Combining the characteristics of users, we can further obtain the real emotional and psychological state of users when they publish information, which is called emotional calculation, and is also the ultimate purpose of emotional analysis.
【學(xué)位授予單位】:山東財(cái)經(jīng)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP393.092;TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李永忠;王汝山;張念貴;王玉雷;;基于半監(jiān)督模糊聚類(lèi)的入侵檢測(cè)技術(shù)[J];江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年04期
2 傅向華,馮博琴,馬兆豐,何明;可在線(xiàn)增量自學(xué)習(xí)的聚焦爬行方法[J];西安交通大學(xué)學(xué)報(bào);2004年06期
3 丁磊,錢(qián)云濤;不同程度的監(jiān)督機(jī)制在自動(dòng)文本分類(lèi)中的應(yīng)用[J];計(jì)算機(jī)應(yīng)用與軟件;2004年06期
4 張晨光;李玉擰;;基于半監(jiān)督學(xué)習(xí)的眉毛圖像分割方法[J];計(jì)算機(jī)工程與應(yīng)用;2009年21期
5 劉葉青;劉三陽(yáng);谷明濤;;一種多項(xiàng)式光滑的半監(jiān)督支持向量機(jī)分類(lèi)算法[J];計(jì)算機(jī)科學(xué);2009年07期
6 楊緒兵;潘志松;陳松燦;;半監(jiān)督型廣義特征值最接近支持向量機(jī)[J];模式識(shí)別與人工智能;2009年03期
7 魯珂,趙繼東,葉婭蘭,曾家智;一種用于圖像檢索的新型半監(jiān)督學(xué)習(xí)算法[J];電子科技大學(xué)學(xué)報(bào);2005年05期
8 羅進(jìn);周學(xué)君;;半監(jiān)督學(xué)習(xí)中非標(biāo)記數(shù)據(jù)的利用[J];湖北大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年01期
9 曹慧;劉玉峰;;未標(biāo)記樣本在半監(jiān)督學(xué)習(xí)中的應(yīng)用方法研究[J];廣西輕工業(yè);2008年12期
10 王汝山;李永忠;張念貴;王玉雷;;半監(jiān)督學(xué)習(xí)在入侵檢測(cè)系統(tǒng)中的應(yīng)用[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年03期
相關(guān)會(huì)議論文 前10條
1 谷方明;劉大有;王新穎;;基于半監(jiān)督學(xué)習(xí)的加權(quán)支持向量域數(shù)據(jù)描述方法[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年
2 楊源;馬云龍;林鴻飛;;基于權(quán)重標(biāo)準(zhǔn)化SimRank與半監(jiān)督學(xué)習(xí)的產(chǎn)品屬性歸類(lèi)[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
3 朱松豪;梁志偉;;用半監(jiān)督學(xué)習(xí)方法實(shí)現(xiàn)圖像檢索[A];第二十九屆中國(guó)控制會(huì)議論文集[C];2010年
4 邱慧寧;黃劍;陳羽;賴(lài)劍煌;;基于UDP的半監(jiān)督學(xué)習(xí)及其在人臉識(shí)別的應(yīng)用[A];第十四屆全國(guó)圖象圖形學(xué)學(xué)術(shù)會(huì)議論文集[C];2008年
5 畢錦煙;李巍華;;基于半監(jiān)督模糊核聚類(lèi)的齒輪箱早期故障檢測(cè)方法[A];第九屆全國(guó)振動(dòng)理論及應(yīng)用學(xué)術(shù)會(huì)議論文摘要集[C];2007年
6 柳斌;李之棠;涂浩;;一種基于半監(jiān)督學(xué)習(xí)的應(yīng)用層流量分類(lèi)方法[A];2008年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2008年
7 張召;業(yè)寧;業(yè)巧林;;基于配對(duì)約束的核半監(jiān)督非線(xiàn)性降維算法[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
8 王倩影;馮國(guó)燦;湯鑫;;δ-距離及其在半監(jiān)督增強(qiáng)中的應(yīng)用[A];第十五屆全國(guó)圖象圖形學(xué)學(xué)術(shù)會(huì)議論文集[C];2010年
9 馮瑞;宋春林;;一種基于局部學(xué)習(xí)的復(fù)雜系統(tǒng)建模方法[A];2007中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];2007年
10 何慧;陳博;郭軍;;基于流形學(xué)習(xí)的半監(jiān)督文本情感分類(lèi)算法[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
相關(guān)博士學(xué)位論文 前10條
1 孔怡青;半監(jiān)督學(xué)習(xí)及其應(yīng)用研究[D];江南大學(xué);2009年
2 王嬌;多視圖的半監(jiān)督學(xué)習(xí)研究[D];北京交通大學(xué);2010年
3 蘭遠(yuǎn)東;基于圖的半監(jiān)督學(xué)習(xí)理論、算法及應(yīng)用研究[D];華南理工大學(xué);2012年
4 徐雪;樣本的幾何信息在半監(jiān)督學(xué)習(xí)中的應(yīng)用研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2010年
5 朱巖;面向文本數(shù)據(jù)的半監(jiān)督學(xué)習(xí)研究[D];北京交通大學(xué);2012年
6 桂杰;基于圖的半監(jiān)督學(xué)習(xí)和維數(shù)約簡(jiǎn)方法及其應(yīng)用研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2010年
7 潘俊;基于圖的半監(jiān)督學(xué)習(xí)及其應(yīng)用研究[D];浙江大學(xué);2011年
8 余國(guó)先;高維數(shù)據(jù)上的半監(jiān)督學(xué)習(xí)研究[D];華南理工大學(xué);2013年
9 趙志凱;半監(jiān)督學(xué)習(xí)及其在煤礦瓦斯安全信息處理中的應(yīng)用研究[D];中國(guó)礦業(yè)大學(xué);2012年
10 任廣波;基于半監(jiān)督學(xué)習(xí)的遙感影像分類(lèi)技術(shù)研究[D];中國(guó)海洋大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 陳新勇;基于核策略的半監(jiān)督學(xué)習(xí)方法研究[D];河北大學(xué);2010年
2 黃明明;半監(jiān)督學(xué)習(xí)方法研究及在警用平臺(tái)中的應(yīng)用[D];大連理工大學(xué);2010年
3 馮元佶;基于圖的半監(jiān)督學(xué)習(xí)的改進(jìn)研究[D];湘潭大學(xué);2010年
4 余養(yǎng)強(qiáng);半監(jiān)督學(xué)習(xí)若干問(wèn)題的研究[D];福建師范大學(xué);2010年
5 劉偉濤;半監(jiān)督學(xué)習(xí)方法及應(yīng)用研究[D];山東大學(xué);2011年
6 楊偉;半監(jiān)督學(xué)習(xí)方法研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年
7 魏征麗;基于圖半監(jiān)督學(xué)習(xí)算法的研究及應(yīng)用[D];西安電子科技大學(xué);2012年
8 劉孝良;基于半監(jiān)督學(xué)習(xí)的隨機(jī)森林算法研究與應(yīng)用[D];中國(guó)海洋大學(xué);2013年
9 惠成峰;基于半監(jiān)督學(xué)習(xí)的電子商務(wù)推薦方法[D];南京大學(xué);2013年
10 王競(jìng)燕;基于半監(jiān)督學(xué)習(xí)的橋梁結(jié)構(gòu)健康分類(lèi)模型的研究與應(yīng)用[D];北京工商大學(xué);2012年
本文編號(hào):1933829
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1933829.html