基于TH-LDA模型的中文微博熱點事件檢測及情感分析
本文選題:微博 切入點:熱點事件 出處:《西南大學》2017年碩士論文
【摘要】:在微博平臺上,涉及生活、人際交往等各種信息以前所未有的速度增長,并呈幾何級增長式傳播。社會上許多突發(fā)性話題,往往在微博平臺上首發(fā),并快速傳播,迅速成為熱點,引起廣泛的社會共鳴,進而波及傳統(tǒng)媒體,產生巨大的社會影響。微博平臺上的熱點事件檢測技術,對于最新社會熱點發(fā)現(xiàn)、網絡民意及時感知、輿情檢測、應急處理等方面都具有積極的現(xiàn)實意義。用戶通過微博平臺對熱點事件表達自己的觀點和抒發(fā)自己的情感,互相交流討論,形成了海量情感文本信息,通過對這些情感文本信息進行分析處理,可以挖掘出其背后隱藏的有價值信息。本文對現(xiàn)有關于微博熱點事件檢測和情感分析的研究進行分析,指出了微博上進行相關研究所遇到的問題,其一是利用微博標簽屬性建模來獲取熱點事件時,對不含標簽的微博文本處理和子事件檢測問題;其二是微博情感分析中網絡流行語獲取和其情感極性判定的問題。在此基礎上,本文提出了TH-LDA模型來解決微博熱點事件檢測,基于詞典和網絡流行語情感極性特征的情感分析方法,研究工作主要包含以下內容:(1)提出了TH-LDA模型,將微博中可用于檢測和分析微博文本主題的話題標簽(Hashtag)、時間因素(Time)與主題模型LDA相結合,實現(xiàn)熱點事件檢測,利用此模型對同屬于一個熱點事件的不含標簽的微博文本進行檢索,得到更為全面的同一熱點事件的微博文本集合,同時實現(xiàn)熱點事件中子事件的檢測,進而能夠更好地對事件的演化發(fā)展進行追蹤。(2)提出了網絡流行語過濾規(guī)則(Network Catchwords Filter Rule,簡稱NCF規(guī)則)來構建網絡流行語詞典和網絡流行語情感詞典。根據網絡流行語詞典獲取微博文本中的網絡流行語,利用網絡流行語情感詞典對網絡流行語的情感極性進行判定。(3)實現(xiàn)微博的情感分析。結合已構建的基礎情感詞典、表情符號詞典和網絡流行語情感詞典,并融合網絡流行語的情感極性特征對微博情感極性進行判定。實驗結果表明,TH-LDA模型能夠更準確地獲取同一事件中不含標簽的微博文本信息,實現(xiàn)了熱點事件中子事件的檢測,也能更好地追蹤熱點事件演化發(fā)展;NCF規(guī)則能夠構建較完善的網絡流行語詞典,網絡流行語的情感極性特征對微博的情感極性判定起到了很好的矯正作用,實驗驗證了該方法的有效性。
[Abstract]:On the platform of Weibo, all kinds of information, such as life and interpersonal communication, are growing at an unprecedented speed, and spread in a geometric growth mode.Many sudden social topics often start on the platform of Weibo and spread rapidly, which quickly become a hot spot, and cause widespread social resonance, and then spread to traditional media, which has a huge social impact.The hot spot detection technology on Weibo platform has positive practical significance for the newest social hot spot discovery, the network public opinion timely perception, the public opinion detection, the emergency treatment and so on.Through Weibo platform, users express their views and express their feelings on hot issues, exchange and discuss with each other, forming a vast amount of emotional text information, through the analysis and processing of these emotional text information,You can dig out the valuable information hidden behind it.This paper analyzes the existing research on Weibo hot spot event detection and emotion analysis, and points out the problems encountered in the relevant research on Weibo.This paper deals with the text processing and sub-event detection of Weibo without tags, and the acquisition of network catchwords and the determination of emotional polarity in the affective analysis of Weibo.On this basis, this paper puts forward the TH-LDA model to solve the hot spot event detection of Weibo. Based on the emotional polarity characteristics of dictionaries and network catchwords, the research work mainly includes the following contents: 1) put forward the TH-LDA model.This paper combines Weibo's topic tag, which can be used to detect and analyze the theme of Weibo's text, with the theme model LDA to detect hot events.By using this model, the text of Weibo, which belongs to the same hot event, is retrieved without label, and then a more comprehensive set of Weibo texts of the same hot event is obtained, and the neutron event detection of the hot event is realized at the same time.Furthermore, it can better track the evolution and development of events. (2) this paper puts forward the network Catchwords Filter rule (NCF rule) to construct the network catchword dictionary and the network catchword emotion dictionary.According to the network catchword dictionary to obtain the network catchwords in Weibo's text, the emotion dictionary of network pop language is used to judge the emotional polarity of network buzzwords.Combined with the basic emotion dictionary, emoji dictionary and network pop language dictionary, and combined with the emotional polarity characteristics of the network catchword, Weibo's emotional polarity was judged.The experimental results show that the TH-LDA model can more accurately obtain the text information of Weibo with no label in the same event, and realize the detection of neutron events of hot events.It can also better track the evolution of hot events. NCF rules can build a more perfect dictionary of popular words on the Internet. The emotional polarity characteristics of network catchwords play a good role in correcting Weibo's judgment of emotional polarity.The effectiveness of the method is verified by experiments.
【學位授予單位】:西南大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.1;TP393.092
【參考文獻】
相關期刊論文 前10條
1 賀敏;杜攀;張瑾;劉悅;程學旗;;基于動量模型的微博突發(fā)話題檢測方法[J];計算機研究與發(fā)展;2015年05期
2 黃挺;姬東鴻;;基于圖模型和多分類器的微博情感傾向性分析[J];計算機工程;2015年04期
3 申國偉;楊武;王巍;于淼;;面向大規(guī)模微博消息流的突發(fā)話題檢測[J];計算機研究與發(fā)展;2015年02期
4 李婷婷;姬東鴻;;基于SVM和CRF多特征組合的微博情感分析[J];計算機應用研究;2015年04期
5 曹玖新;吳江林;石偉;劉波;鄭嘯;羅軍舟;;新浪微博網信息傳播分析與預測[J];計算機學報;2014年04期
6 王志濤;於志文;郭斌;路新江;;基于詞典和規(guī)則集的中文微博情感分析[J];計算機工程與應用;2015年08期
7 張珊;于留寶;胡長軍;;基于表情圖片與情感詞的中文微博情感分析[J];計算機科學;2012年S3期
8 張晨逸;孫建伶;丁軼群;;基于MB-LDA模型的微博主題挖掘[J];計算機研究與發(fā)展;2011年10期
9 閆幸;常亞平;;微博研究綜述[J];情報雜志;2011年09期
10 龍樹全;趙正文;唐華;;中文分詞算法概述[J];電腦知識與技術;2009年10期
相關博士學位論文 前3條
1 劉楠;面向微博短文本的情感分析研究[D];武漢大學;2013年
2 崔安頎;微博熱點事件的公眾情感分析研究[D];清華大學;2013年
3 田野;基于微博平臺的事件趨勢分析及預測研究[D];武漢大學;2012年
相關碩士學位論文 前3條
1 高巖;微博情感分析的相關技術研究[D];華北電力大學;2014年
2 樊小超;基于機器學習的中文文本主題分類及情感分類研究[D];南京理工大學;2014年
3 蔣斌;基于停用詞處理的漢語語音檢索方法[D];哈爾濱工業(yè)大學;2008年
,本文編號:1700528
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1700528.html