基于文本分類的微博情感傾向研究
本文選題:微博 切入點(diǎn):情感傾向 出處:《重慶師范大學(xué)》2016年碩士論文
【摘要】:近年來,人們?cè)絹碓揭蕾囉谏缃卉浖䜩肀磉_(dá)自己的觀點(diǎn),如使用微博、論壇、貼吧等渠道發(fā)表意見,表達(dá)情感。而人們對(duì)于熱點(diǎn)事件和話題的各種各樣的情感信息,則通過上述方式直觀的反映了出來。因此,通過挖掘和研究大眾對(duì)各類事件的情感傾向,可以達(dá)到對(duì)熱點(diǎn)輿論的監(jiān)控和大眾看法的感知,為國家、企業(yè)等作出決策提供著重要依據(jù)。以往的信息檢索及采集技術(shù),多數(shù)是以關(guān)鍵詞為基礎(chǔ),難以支持情感傾向的挖掘,信息提取和文本分類通常沒有進(jìn)行深層次的語義挖掘,因而對(duì)文本中所表達(dá)出的情感傾向無法進(jìn)行深層次的挖掘。因此在大數(shù)據(jù)時(shí)代,有效地利用數(shù)據(jù)挖掘及文本挖掘的相關(guān)知識(shí),挖掘微博熱點(diǎn)信息以及評(píng)論中的情感傾向,將在商品智能推薦、政府輿情監(jiān)控、文本自動(dòng)分類等方面有廣闊的發(fā)展前景。本論文的主要研究內(nèi)容如下:(1)對(duì)情感傾向分析和文本分類的相關(guān)概念和技術(shù)做了分析,包括微博短文本情感傾向分類以及文本分類的國內(nèi)外研究現(xiàn)狀、文本分類常用的幾種算法:支持向量機(jī)(SVM),最大熵、決策樹、人工神經(jīng)網(wǎng)絡(luò)算法等,并重點(diǎn)分析了傳統(tǒng)的k最近鄰算法,研究算法的基本思路以及該算法在文本分類當(dāng)中的應(yīng)用。(2)基于傳統(tǒng)的k最近鄰算法,并結(jié)合一定的關(guān)聯(lián)規(guī)則,本文提出了一種對(duì)于k最近鄰算法的改進(jìn):基于主題--情感相關(guān)聯(lián)的k最近鄰算法,在文本分類時(shí)主題與情感相關(guān)聯(lián),進(jìn)行特征值的組合,能夠更好的確定k值,提高分類效率。(3)將改進(jìn)后的基于主題--情感的k最近鄰算法在微博熱點(diǎn)信息數(shù)據(jù)集中加以應(yīng)用,進(jìn)行情感傾向正向、負(fù)向、中性三種分類實(shí)驗(yàn),同時(shí)也利用傳統(tǒng)的k最近鄰算法進(jìn)行對(duì)比實(shí)驗(yàn)。在實(shí)驗(yàn)前完成微博短文本預(yù)處理、特征頻繁項(xiàng)集建立等工作。實(shí)驗(yàn)結(jié)果表明,較傳統(tǒng)的k最近鄰算法,本文改進(jìn)的算法在查準(zhǔn)率、查準(zhǔn)率以及F1值等各項(xiàng)測(cè)評(píng)指標(biāo)中都有所提高,降低了算法的時(shí)間復(fù)雜度,提高了情感分類的效率,有利于更加準(zhǔn)確的挖掘微博熱點(diǎn)信息中的情感傾向,在處理海量包含主題的中文熱門微博時(shí)具有一定的可行性。
[Abstract]:In recent years, people have become increasingly dependent on social software to express their views, such as using Weibo, forums, posts and other channels to express their opinions and feelings. And people on hot events and topics of all kinds of emotional information, Thus, by digging and studying the emotional tendencies of the public on various events, we can achieve the monitoring of hot public opinion and the perception of public opinion, for the country, In the past, most of the information retrieval and collection techniques are based on keywords, so it is difficult to support the mining of emotional tendency, and the information extraction and text classification usually do not carry out deep semantic mining. Therefore, in big data's time, the relevant knowledge of data mining and text mining can be effectively used to mine the hot information and the emotional tendency in commentaries. There will be broad prospects in the fields of intelligent recommendation of commodities, monitoring of government public opinion, automatic text classification, etc. The main contents of this paper are as follows: 1) the related concepts and techniques of affective tendency analysis and text categorization are analyzed. Including the current research situation of Weibo short text text classification and text classification at home and abroad, and several commonly used text classification algorithms: support vector machine (SVM), maximum entropy, decision tree, artificial neural network algorithm, etc. The basic idea of the algorithm and its application in text categorization are studied. (2) based on the traditional k-nearest neighbor algorithm and some association rules. In this paper, an improved k-nearest neighbor algorithm is proposed, which is based on subject-affective association algorithm. When text is classified, the topic is associated with emotion, and the combination of feature values can better determine the value of k. To improve the classification efficiency. (3) the improved subject-based k-nearest neighbor algorithm is applied to Weibo hot spot information data set to carry out three classification experiments: positive, negative and neutral emotional tendency. At the same time, the traditional k-nearest neighbor algorithm is used to carry out comparative experiments. Before the experiment, Weibo short text preprocessing and feature frequent itemsets are completed. The experimental results show that the k-nearest neighbor algorithm is more efficient than the traditional k-nearest neighbor algorithm. In this paper, the improved algorithm improves the precision rate, precision rate and F1 value, which reduces the time complexity of the algorithm and improves the efficiency of emotion classification. It is helpful to excavate the emotion tendency of Weibo hot spot information more accurately, and has certain feasibility when dealing with the massive Chinese hot topic Weibo.
【學(xué)位授予單位】:重慶師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 呂國防;;注意新聞表述中的情感傾向[J];新聞實(shí)踐;2011年06期
2 傅向華;劉國;郭巖巖;郭武彪;;中文博客多方面話題情感分析研究[J];中文信息學(xué)報(bào);2013年01期
3 魏晶晶;吳曉吟;;電子商務(wù)產(chǎn)品評(píng)論多級(jí)情感分析的研究與實(shí)現(xiàn)[J];軟件;2013年09期
4 于瀟;萬軍;何翔;左尾歡;;校園微博情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];河北工業(yè)大學(xué)學(xué)報(bào);2013年06期
5 封二英;龐靈;;基于弱監(jiān)督迭代法的情感傾向分析[J];無線互聯(lián)科技;2014年03期
6 龐磊;李壽山;張慧;周國棟;;基于微博的股票投資者未來情感傾向識(shí)別研究[J];計(jì)算機(jī)科學(xué);2012年S1期
7 徐鵬;;基于直覺模糊推理的網(wǎng)頁在線評(píng)論情感傾向分類[J];計(jì)算機(jī)應(yīng)用與軟件;2013年06期
8 楊偉杰;馬博淵;劉雯;;基于意見目標(biāo)句抽取的中文股評(píng)情感分析方法[J];計(jì)算機(jī)仿真;2014年03期
9 楊江;彭石玉;侯敏;;基于主題情感句的漢語評(píng)論文傾向性分析[J];計(jì)算機(jī)應(yīng)用研究;2011年02期
10 張素智;樊得強(qiáng);李寶燕;;基于網(wǎng)絡(luò)評(píng)論語言學(xué)結(jié)構(gòu)的情感傾向識(shí)別模型[J];鄭州大學(xué)學(xué)報(bào)(理學(xué)版);2011年01期
相關(guān)會(huì)議論文 前4條
1 楊江;侯敏;王寧;;基于主題情感句的漢語評(píng)論文傾向性分析[A];第五屆全國青年計(jì)算語言學(xué)研討會(huì)論文集[C];2010年
2 林慧恩;林世平;;中文情感傾向分析中主觀句子抽取方法的研究[A];全國第20屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2009年
3 王素格;楊安娜;;一種混合語言信息的詞語搭配傾向判別方法[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
4 宋曉雷;王素格;李紅霞;;基于概率潛在語義分析的詞匯情感傾向判別[A];第五屆全國青年計(jì)算語言學(xué)研討會(huì)論文集[C];2010年
相關(guān)重要報(bào)紙文章 前3條
1 唐楠;新聞應(yīng)避免情感傾向[N];中國新聞出版報(bào);2005年
2 魯東;不盡鄉(xiāng)情入畫來[N];中國文化報(bào);2001年
3 楊勇濤;讓攝影喚起心靈的本真[N];中國攝影報(bào);2005年
相關(guān)博士學(xué)位論文 前6條
1 房磊;融合知識(shí)的情感分析研究[D];清華大學(xué);2015年
2 張奇;細(xì)顆粒度情感傾向分析若干關(guān)鍵問題研究[D];復(fù)旦大學(xué);2008年
3 王素格;基于Web的評(píng)論文本情感分類問題研究[D];上海大學(xué);2008年
4 楊卉;Web文本觀點(diǎn)挖掘及隱含情感傾向的研究[D];吉林大學(xué);2011年
5 李思;WEB觀點(diǎn)挖掘中關(guān)鍵問題的研究[D];北京郵電大學(xué);2012年
6 李方濤;基于產(chǎn)品評(píng)論的情感分析研究[D];清華大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 王帥;情感分析的特征提取算法與觀點(diǎn)的聚類算法研究[D];昆明理工大學(xué);2015年
2 馮金剛;網(wǎng)絡(luò)輿情中文信息情感傾向分析研究[D];華北電力大學(xué);2015年
3 魏從源;網(wǎng)絡(luò)信息的情感傾向分類技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2013年
4 周冬衛(wèi);中文微博評(píng)論的情感傾向分析[D];華東交通大學(xué);2015年
5 吳斐;跨領(lǐng)域條件下詞匯情感傾向判別方法研究[D];合肥工業(yè)大學(xué);2015年
6 徐凱;基于產(chǎn)品特征的用戶評(píng)論情感傾向分析研究[D];合肥工業(yè)大學(xué);2015年
7 王格;網(wǎng)絡(luò)評(píng)論的情感傾向分析[D];武漢工程大學(xué);2015年
8 劉其;基于用戶評(píng)論的群體情緒識(shí)別與演化研究[D];東華大學(xué);2015年
9 張佳明;微博話題的公眾情感分析技術(shù)研究[D];解放軍信息工程大學(xué);2015年
10 唐浩浩;面向事件的微博情感傾向性分析技術(shù)研究[D];解放軍信息工程大學(xué);2014年
,本文編號(hào):1678321
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1678321.html