中文微博的熱點話題發(fā)現(xiàn)

發(fā)布時間：2018-03-01 04:31

本文關(guān)鍵詞： 微博熱點話題文本聚類關(guān)鍵詞　出處：《安徽大學》2014年碩士論文　論文類型：學位論文

【摘要】：近些年,微博已然成為社會網(wǎng)絡(luò)一個很重要的的應(yīng)用,人們通過微博可以在任何地點,任何時間發(fā)布自己的所見,所聞,所想。這種較為簡易的消息發(fā)布方式很大程度上降低了信息發(fā)布的壁壘,這也是微博得到廣泛應(yīng)用的重要因素之一。在這些用戶發(fā)布的微博數(shù)據(jù)中,多數(shù)的微博信息都和現(xiàn)實生活中的事件有所關(guān)聯(lián)。有些微博網(wǎng)站也會在網(wǎng)站主頁中列出最近一段時間的熱門關(guān)鍵詞,但是這些微博主題詞通常都很簡短、分散,而且與某個話題有關(guān)的微博信息是由不同微博發(fā)布者在不同時間內(nèi)發(fā)布的。用戶不能通過這些孤立信息對事件有一個全面的了解,相關(guān)部門也不能完整掌握事態(tài)的發(fā)展,對微博上的輿論不能進行正確的引導。正是在這種情形下,針對微博數(shù)據(jù)的熱點話題發(fā)現(xiàn)逐漸成為一個研究熱點。微博熱點話題發(fā)現(xiàn)就是通過相關(guān)的話題檢測技術(shù)把分散的微博信息組織起來有條理地呈現(xiàn)給人們。本文提出了一個完整的微博熱點話題發(fā)現(xiàn)方法。該方法主要包括了微博數(shù)據(jù)的預(yù)處理、微博數(shù)據(jù)的文本表示、特征詞提取、文本聚類和事件關(guān)鍵詞提取等步驟。文中仔細分析了微博數(shù)據(jù)自身的特點,結(jié)合這些微博數(shù)據(jù)特征對TF-IDF算法進行改進,提高了微博熱點話題發(fā)現(xiàn)的效果。本文在微博文本聚類時采用了多屬性無向加權(quán)圖聚類算法,不僅考慮了圖的拓撲結(jié)構(gòu)還引入了節(jié)點的屬性,與目前常用的一些聚類算法相比較提高了聚類的效果。文中給出的一些實驗結(jié)果表明本文提出的微博熱點事件檢測算法是有效的。
[Abstract]:In recent years, Weibo has become a very important application of the social network. People can publish what they see and hear from any place, any time, through Weibo. Think about it. This relatively simple way of publishing information has greatly reduced the barrier to information release, which is also one of the important factors that Weibo has been widely used. In the Weibo data published by these users, Most Weibo information has something to do with real-life events. Some Weibo websites also list popular keywords from recent periods of time on their home pages, but they are usually short and scattered. Moreover, Weibo information related to a certain topic was published by different Weibo publishers at different times. Users cannot have a comprehensive understanding of the incident through these isolated information, nor can the relevant departments fully grasp the development of the situation. It is under such circumstances that the public opinion on Weibo cannot be properly guided. The hot topic discovery of Weibo data has gradually become a research hotspot. Weibo hot topic discovery is to organize and present the scattered Weibo information to people in a coherent way through the relevant topic detection technology. In this paper, a complete method of hot topic discovery by Weibo is proposed. This method mainly includes the pretreatment of Weibo data, the text representation of Weibo data, the extraction of feature words. Text clustering and event keyword extraction. This paper carefully analyzes the characteristics of Weibo data itself, and improves the TF-IDF algorithm by combining the characteristics of the Weibo data. In this paper, we adopt multi-attribute undirected weighted graph clustering algorithm, which not only considers the topological structure of graph, but also introduces the attributes of nodes. Compared with some commonly used clustering algorithms, the clustering effect is improved. Some experimental results show that the Weibo hot spot event detection algorithm proposed in this paper is effective.
【學位授予單位】：安徽大學
【學位級別】：碩士
【學位授予年份】：2014
【分類號】：TP391.1;TP393.092

【相似文獻】

相關(guān)期刊論文前10條

1 韓臘萍,余雪麗;一個分布式入侵檢測系統(tǒng)框架設(shè)計[J];計算機工程;2004年13期

2 郭慶琳,樊孝忠;基于文本聚類和NLU的自動文摘系統(tǒng)的研究與實現(xiàn)[J];現(xiàn)代電力;2004年04期

3 郭慶琳,樊孝忠,柳長安;基于文本聚類和NLU的自動文摘研究[J];北京理工大學學報;2005年08期

4 郭慶琳;樊孝忠;柳長安;;基于文本聚類的自動文摘系統(tǒng)的研究與實現(xiàn)[J];計算機工程;2006年04期

5 鞏知樂;張德賢;;文本挖掘理論概述[J];福建電腦;2008年09期

6 姚清耘;劉功申;李翔;;基于向量空間模型的文本聚類算法[J];計算機工程;2008年18期

7 門國尊;;用于信息檢索的文本聚類技術(shù)[J];今日科苑;2008年20期

8 李眾;梁志劍;;一種改進的文本聚類算法[J];陜西科技大學學報(自然科學版);2008年06期

9 張春爐;沈建京;;基于SOM算法的文本聚類實現(xiàn)[J];計算機與現(xiàn)代化;2010年01期

10 馬玉春,宋瀚濤;基于搜索引擎的知識發(fā)現(xiàn)[J];計算機工程與應(yīng)用;2004年30期

相關(guān)會議論文前10條

1 張猛;王大玲;于戈;;一種基于自動閾值發(fā)現(xiàn)的文本聚類方法[A];第二十一屆中國數(shù)據(jù)庫學術(shù)會議論文集（研究報告篇）[C];2004年

2 董婧靈;李芳;何婷婷;涂新輝;萬劍;;基于LDA模型的文本聚類研究[A];中國計算語言學研究前沿進展（2009-2011）[C];2011年

3 王樂;田李;賈焰;韓偉紅;;一個并行的文本聚類混合算法[A];第二十四屆中國數(shù)據(jù)庫學術(shù)會議論文集（研究報告篇）[C];2007年

4 張寶艷;王慶輝;;中文文本聚類的研究與實現(xiàn)[A];第一屆學生計算語言學研討會論文集[C];2002年

5 張剛;周昭濤;王斌;;基于主題的分布式信息檢索研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2004年

6 白剛;張錚;丁宗堯;朱毅;;中文文本聚類在互聯(lián)網(wǎng)搜索的研究與應(yīng)用[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年

7 羅娜;左萬利;袁福宇;張靖波;張慧杰;;使用本體語義提高文本聚類(英文)[A];全國語域web與本體能研討會論文集[C];2006年

8 顏端武;李曉鵬;王磊;成曉;;文本聚類中基于本體的相似性測度(英文)[A];全國語域web與本體能研討會論文集[C];2006年

9 王瑩;劉楊;;維基百科的文本聚類方法分析[A];2009年研究生學術(shù)交流會通信與信息技術(shù)論文集[C];2009年

10 黎琳;;Web內(nèi)容挖掘在數(shù)字圖書館中的應(yīng)用[A];中國工程物理研究院第七屆電子技術(shù)青年學術(shù)交流會論文集[C];2005年

相關(guān)重要報紙文章前2條

1 中國科學院計算技術(shù)研究所王斌;內(nèi)容為王[N];計算機世界;2004年

2 王培森;從Web挖到競爭情報[N];中國計算機報;2003年

相關(guān)博士學位論文前10條

1 徐森;文本聚類集成關(guān)鍵技術(shù)研究[D];哈爾濱工程大學;2010年

2 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學;2009年

3 郝立麗;漢語文本數(shù)據(jù)挖掘[D];吉林大學;2009年

4 倪興良;問答系統(tǒng)中的短文本聚類研究與應(yīng)用[D];中國科學技術(shù)大學;2011年

5 劉向威;NLP技術(shù)在中文信息檢索中的應(yīng)用研究[D];天津大學;2005年

6 高茂庭;文本聚類分析若干問題研究[D];天津大學;2007年

7 宣照國;文本挖掘算法及其在知識管理中的應(yīng)用研究[D];大連理工大學;2008年

8 胡佳妮;文本挖掘中若干關(guān)鍵問題的研究[D];北京郵電大學;2008年

9 王樂;短語消息聚類相關(guān)技術(shù)研究[D];國防科學技術(shù)大學;2008年

10 楊創(chuàng)新;基于機器學習的高性能中文文本分類研究[D];華南理工大學;2009年

相關(guān)碩士學位論文前10條

1 何晏成;基于近鄰傳播和凝聚層次的文本聚類方法[D];哈爾濱工業(yè)大學;2010年

2 張金;個性化信息檢索系統(tǒng)中文本聚類的研究[D];東北師范大學;2010年

3 龐俊;基于確定話題和情感極性的博客文本聚類研究[D];武漢理工大學;2010年

4 李梅;改進的K均值算法在中文文本聚類中的研究[D];安徽大學;2010年

5 王飛;基于蟻群優(yōu)化的模糊文本聚類算法研究[D];河南工業(yè)大學;2010年

6 趙穎;基于Ontology的Web文本聚類研究[D];西華大學;2011年

7 盛江濤;網(wǎng)絡(luò)論壇話題發(fā)現(xiàn)與跟蹤技術(shù)研究[D];哈爾濱工業(yè)大學;2010年

8 劉延亮;一種文本聚類原型系統(tǒng)的設(shè)計與實現(xiàn)[D];大連理工大學;2006年

9 谷波;基于粗集模型的聚類方法及其在文獻過濾系統(tǒng)中的應(yīng)用[D];山西大學;2004年

10 胡海龍;基于改進的后綴樹算法的中英文聚類引擎的實現(xiàn)[D];吉林大學;2008年

，

本文編號：1550402

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/1550402.html

上一篇：智慧協(xié)同網(wǎng)絡(luò)體系基礎(chǔ)研究
下一篇：基于FARIMA-GARCH模型的網(wǎng)絡(luò)業(yè)務(wù)預(yù)測算法

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

中文微博的熱點話題發(fā)現(xiàn)