微博熱點話題抽取及其情感分類
本文選題:微博 + 話題抽取 ; 參考:《哈爾濱工業(yè)大學》2014年碩士論文
【摘要】:隨著Web2.0時代的到來,尤其是社交媒體的飛速發(fā)展,越來越多的互聯網用戶開始在網上發(fā)布自己對一些話題的看法。如何從海量的數據中抽取出當前的熱門話題,并就用戶對該話題的看法進行分析成為一個非常有意義的研究點。本文就針對這個研究點進行了深入的分析。 微博熱點話題與普通話題的定義有所不同。在微博中,熱點話題是指在短時間內被大量用戶高度關注的話題。這些話題可以是真實的社會事件,也可以與社會事件無關,但仍在短時間內獲得了很高的興趣度,為大量微博用戶所關注討論。 本文將該研究點分成兩階段任務:微博熱點話題抽取與話題情感分類。 關于微博熱點話題抽取,本文提出了基于話題標簽的微博熱點話題抽取算法。該算法利用啟發(fā)式規(guī)則和聚類算法來實時抽取微博熱點話題。算法主要包括三個部分:話題發(fā)現、話題聚類以及話題排序。實驗證明該方法抽取的微博熱點話題具有很高的準確率。 關于話題情感分類,,本文提出了基于篇章關系的微博情感分類算法。該算法共歸納出四種可能對情感分類的結果產生影響的篇章關系,并利用與這些篇章關系相對應的關系指示詞來識別微博文本的主干成分。在此基礎之上,探索了多種不同類別的微博情感分類特征。此外,本文還構建了一個面向微博領域的大規(guī)模情感詞典。實驗結果表明,本文提出的算法在微博情感分類上能夠取得不錯的效果。 此外,我們還將上述的兩個算法有機融合,構建了一個用戶情緒在線分析平臺。該平臺能夠實時的分析微博熱點話題,并就廣大用戶針對這些話題的情感分布進行分析,具有十分重要的意義。
[Abstract]:With the advent of the Web2.0 era, especially the rapid development of social media, more and more Internet users begin to publish their views on some topics online.How to extract the current hot topic from the massive data and analyze the user's views on the topic has become a very meaningful research point.This article has carried on the thorough analysis to this research point.Weibo's definition of hot topic is different from that of ordinary topic.In Weibo, hot topic refers to the topic that is highly concerned by a large number of users in a short period of time.These topics can be real social events, or not related to social events, but in a short period of time has gained a high degree of interest, which has attracted a large number of Weibo users.This paper divides the research point into two tasks: Weibo hot topic extraction and topic emotion classification.In this paper, a topic extraction algorithm based on topic label is proposed for Weibo hot topic extraction.The algorithm uses heuristic rules and clustering algorithm to extract Weibo hot topics in real time.The algorithm includes three parts: topic discovery, topic clustering and topic sorting.Experimental results show that the proposed method has a high accuracy in extracting hot topics from Weibo.On topic emotion classification, this paper proposes Weibo emotion classification algorithm based on text relationship.The algorithm induces four kinds of text relations which may have an effect on the result of emotion classification, and identifies the main components of Weibo's text by using the relational deixis corresponding to these text relations.On the basis of this, this paper explores the characteristics of Weibo's emotional classification in different categories.In addition, this paper also constructs a large-scale emotion dictionary for Weibo.Experimental results show that the proposed algorithm can achieve good results in Weibo emotional classification.In addition, we combine the above two algorithms organically and construct an online analysis platform for user sentiment.The platform can analyze Weibo hot topics in real time and analyze the emotional distribution of these topics by the majority of users, which is of great significance.
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP393.092
【共引文獻】
相關期刊論文 前10條
1 陸蓓;程肖;諶志群;;互聯網輿情挖掘研究述略[J];情報資料工作;2010年02期
2 龍志yN;程葳;;基于詞聚類的熱點話題檢測算法[J];計算機工程與設計;2011年06期
3 康小利;;基于時序的突發(fā)事件跟蹤研究[J];數字技術與應用;2011年04期
4 劉霽;周亞東;高峰;趙俊舟;薛峰;;一種基于文本語義的網絡敏感話題識別方法[J];深圳信息職業(yè)技術學院學報;2011年03期
5 饒洋輝;葉良;常紅旭;程潔;;新話題監(jiān)測研究進展[J];圖書館雜志;2009年07期
6 王振宇;吳澤衡;唐遠華;;基于多向量和二次聚類的話題檢測[J];計算機工程與設計;2012年08期
7 王衛(wèi)姣;;話題追蹤技術研究綜述[J];軟件導刊;2013年04期
8 劉權;郭武;;基于核主成分分析的話題跟蹤系統[J];清華大學學報(自然科學版);2013年06期
9 周學廣;高飛;孫艷;;基于依存連接權VSM的子話題檢測與跟蹤方法[J];通信學報;2013年08期
10 翟東海;魚江;聶洪玉;崔靜靜;杜佳;;基于相關性反饋的自適應熱點話題追蹤模型[J];山東大學學報(工學版);2014年01期
相關會議論文 前8條
1 彭楠峗;王厚峰;凌晨添;;基于層次聚類的網絡新聞熱點發(fā)現[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
2 劉星星;何婷婷;龔海軍;陳龍;;網絡熱點事件發(fā)現系統的設計[A];第四屆全國學生計算語言學研討會會議論文集[C];2008年
3 楚克明;李芳;;基于LDA新聞話題的演化[A];第五屆全國信息檢索學術會議論文集[C];2009年
4 李恒訓;張華平;秦鵬;于滿泉;劉金剛;;基于主題詞的網絡熱點話題發(fā)現[A];第五屆全國信息檢索學術會議論文集[C];2009年
5 單斌;李芳;;基于種子文檔和話題模型的話題演化研究[A];第六屆全國信息檢索學術會議論文集[C];2010年
6 曹俊喜;劉云;徐希源;;電力行業(yè)網絡輿情監(jiān)測分析技術研究與系統設計[A];2012年電力通信管理暨智能電網通信技術論壇論文集[C];2013年
7 劉培玉;張朕;朱振方;;融合微博特征的網絡熱點話題熱度計算方法的研究[A];山東計算機學會2013學術年會論文集[C];2013年
8 劉權;郭武;;基于核主成分分析的話題跟蹤系統[A];第十二屆全國人機語音通訊學術會議(NCMMSC'2013)論文集[C];2013年
相關博士學位論文 前10條
1 陳偉;基于時序文本挖掘的新聞內容理解與推薦技術研究[D];浙江大學;2010年
2 張曉艷;新聞話題表示模型和關聯追蹤技術研究[D];國防科學技術大學;2010年
3 劉玉國;基于內容的互聯網輿情信息挖掘關鍵技術研究[D];山東大學;2011年
4 吳永輝;面向專業(yè)領域的網絡信息采集及主題檢測技術研究與應用[D];哈爾濱工業(yè)大學;2010年
5 郝秀蘭;文本分類技術與應用研究[D];復旦大學;2008年
6 鐘茂生;基于內容相關度計算的文本結構分析方法研究[D];上海交通大學;2010年
7 付劍鋒;面向事件的知識處理研究[D];上海大學;2010年
8 王會珍;文本內容分類和主題追蹤關鍵技術研究[D];東北大學;2008年
9 田野;基于微博平臺的事件趨勢分析及預測研究[D];武漢大學;2012年
10 陸銘;WEB2.0網絡熱點發(fā)現與個性化檢索研究[D];中國科學技術大學;2012年
相關碩士學位論文 前10條
1 趙慧杰;面向論壇的話題發(fā)現、跟蹤及傳播技術研究[D];哈爾濱工程大學;2010年
2 秦宏宇;網絡輿情熱點發(fā)現相關技術研究[D];哈爾濱工程大學;2010年
3 印文濤;基于星型K部圖的網絡視頻話題挖掘和可視化的研究[D];浙江大學;2011年
4 白志杰;新聞視頻主題追蹤技術研究[D];解放軍信息工程大學;2009年
5 劉嵩;網絡中文事件自動檢測技術研究[D];解放軍信息工程大學;2010年
6 李恒訓;網絡論壇采集及熱點話題發(fā)現研究[D];首都師范大學;2011年
7 蘭凱梅;BBS熱點話題發(fā)現與監(jiān)控系統[D];北京交通大學;2011年
8 孫勝平;中文微博客熱點話題檢測與跟蹤技術研究[D];北京交通大學;2011年
9 劉曉東;話題檢測與跟蹤系統的構建[D];北京郵電大學;2011年
10 吳澤衡;基于話題檢測和情感分析的互聯網熱點分析與監(jiān)控技術研究[D];華南理工大學;2011年
本文編號:1769265
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1769265.html