基于有序分類的文本情感分析
本文選題:文本情感分析 切入點:word2vec 出處:《中國科學(xué)技術(shù)大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
【摘要】:大數(shù)據(jù)時代,人們所接觸的數(shù)據(jù)在數(shù)量與維度上與日俱增,網(wǎng)絡(luò)上有著豐富的量化數(shù)據(jù)和文本數(shù)據(jù),相對于量化數(shù)據(jù),文本數(shù)據(jù)具有比重大,復(fù)雜,新穎等特點。其中文本情感分析在大數(shù)據(jù)時代這個背景下不斷地發(fā)展并吸引著大量研究者的關(guān)注,如何充分有效地利用文本數(shù)據(jù),挖掘其中所包含的信息是一個巨大又有意義的挑戰(zhàn)。文本分析是指對文本的表示及其特征項的選取;文本分析即讓計算機能夠?qū)τ谌祟愇淖诌M行理解和分析,它要從文本數(shù)據(jù)中抽取出文本所包含的特征與信息。本文著重探究的對象是文本情感的有序分類,利用神經(jīng)網(wǎng)絡(luò)語言模型word2vec將文本數(shù)據(jù)量化,再通過成對比較有序分類算法將量化數(shù)據(jù)做情感分類,完成文本情感分析。首先為了更好地利用計算機來分析文本數(shù)據(jù),本文利用神經(jīng)網(wǎng)絡(luò)語言模型word2vec來對文本數(shù)據(jù)進行量化,相對于其他的方法具有模型簡單、效率高、易調(diào)參的優(yōu)點,并且在此基礎(chǔ)上本文結(jié)合了其他的特征提取方法,如:TF-IDF,LDA4主題模型,再加以優(yōu)化得到詞向量,此綜合法在數(shù)值實驗上取得了更好的效果。另一方面,本文研究的是有序分類問題,提出了成對比較策略的有序分類算法(PairCode),詳細介紹了如何使用成對比較將有序分類轉(zhuǎn)化成無序分類,再將無序分類結(jié)果轉(zhuǎn)化成有序分類類別,給出了成對比較下類標簽編碼矩陣設(shè)計、樣本均衡、分類器訓(xùn)練、新樣本預(yù)測等環(huán)節(jié)中的可行策略。并在數(shù)值實驗中與其他有序分類算法比較,PairCode算法在MAE、MMAE等有序度量指標上有較好的表現(xiàn),然而,由于PairCode算法本身策略的特點,其分類速度是較慢的,在后續(xù)研究中需要不斷改進。
[Abstract]:In the era of big data, the number and dimension of the data that people come into contact with is increasing day by day, and there are abundant quantitative data and text data on the network. Compared with the quantitative data, the text data has a large proportion and complexity. In the context of big data's time, text emotional analysis has been developing and attracting the attention of a large number of researchers, how to make full and effective use of text data, Mining the information contained therein is a huge and meaningful challenge. Text analysis refers to the representation of text and the selection of its features. Text analysis enables computers to understand and analyze human text. The object of this paper is the orderly classification of text emotion, and the neural network language model word2vec is used to quantify the text data. In order to use computer to analyze the text data better, this paper uses the neural network language model word2vec to quantify the text data. Compared with other methods, it has the advantages of simple model, high efficiency and easy to adjust parameters. On this basis, this paper combines other feature extraction methods, such as: TF-IDF / LDA4 topic model, and then optimizes the word vector. On the other hand, the problem of ordered classification is studied in this paper. In this paper, an ordered classification algorithm based on pairwise comparison strategy is proposed, and how to use pairwise comparison to transform ordered classification into unordered classification is introduced in detail, and then the result of disordered classification is transformed into ordered classification category. The design of class label coding matrix, sample equalization, classifier training under pairwise comparison are given. In numerical experiments, compared with other ordered classification algorithms, PairCode algorithm has a better performance on the ordered metrics such as MAEMMAE. However, due to the characteristics of the PairCode algorithm itself, the proposed algorithm has a good performance in some aspects, such as the prediction of new samples, and so on. Its classification speed is slow, need to be improved continuously in the follow-up research.
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1
【參考文獻】
相關(guān)期刊論文 前9條
1 黃仁;張衛(wèi);;基于word2vec的互聯(lián)網(wǎng)商品評論情感傾向研究[J];計算機科學(xué);2016年S1期
2 鄭文超;徐鵬;;利用word2vec對中文詞進行聚類的研究[J];軟件;2013年12期
3 周詠梅;楊佳能;陽愛民;;面向文本情感分析的中文情感詞典構(gòu)建方法[J];山東大學(xué)學(xué)報(工學(xué)版);2013年06期
4 侯敏;滕永林;李雪燕;陳毓麒;鄭雙美;侯明午;周紅照;;話題型微博語言特點及其情感分析策略研究[J];語言文字應(yīng)用;2013年02期
5 周勝臣;瞿文婷;石英子;施詢之;孫韻辰;;中文微博情感分析研究綜述[J];計算機應(yīng)用與軟件;2013年03期
6 孫艷;周學(xué)廣;付偉;;基于主題情感混合模型的無監(jiān)督文本情感分析[J];北京大學(xué)學(xué)報(自然科學(xué)版);2013年01期
7 樊娜;安毅生;李慧賢;;基于K-近鄰算法的文本情感分析方法研究[J];計算機工程與設(shè)計;2012年03期
8 葉志飛;文益民;呂寶糧;;不平衡分類問題研究綜述[J];智能系統(tǒng)學(xué)報;2009年02期
9 徐琳宏;林鴻飛;潘宇;任惠;陳建美;;情感詞匯本體的構(gòu)造[J];情報學(xué)報;2008年02期
相關(guān)碩士學(xué)位論文 前1條
1 董婧靈;基于LDA模型的文本聚類研究[D];華中師范大學(xué);2012年
,本文編號:1637599
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1637599.html