中文微博的熱點(diǎn)話題發(fā)現(xiàn)
本文關(guān)鍵詞: 微博 熱點(diǎn)話題 文本聚類 關(guān)鍵詞 出處:《安徽大學(xué)》2014年碩士論文 論文類型:學(xué)位論文
【摘要】:近些年,微博已然成為社會(huì)網(wǎng)絡(luò)一個(gè)很重要的的應(yīng)用,人們通過(guò)微博可以在任何地點(diǎn),任何時(shí)間發(fā)布自己的所見(jiàn),所聞,所想。這種較為簡(jiǎn)易的消息發(fā)布方式很大程度上降低了信息發(fā)布的壁壘,這也是微博得到廣泛應(yīng)用的重要因素之一。在這些用戶發(fā)布的微博數(shù)據(jù)中,多數(shù)的微博信息都和現(xiàn)實(shí)生活中的事件有所關(guān)聯(lián)。有些微博網(wǎng)站也會(huì)在網(wǎng)站主頁(yè)中列出最近一段時(shí)間的熱門關(guān)鍵詞,但是這些微博主題詞通常都很簡(jiǎn)短、分散,而且與某個(gè)話題有關(guān)的微博信息是由不同微博發(fā)布者在不同時(shí)間內(nèi)發(fā)布的。用戶不能通過(guò)這些孤立信息對(duì)事件有一個(gè)全面的了解,相關(guān)部門也不能完整掌握事態(tài)的發(fā)展,對(duì)微博上的輿論不能進(jìn)行正確的引導(dǎo)。正是在這種情形下,針對(duì)微博數(shù)據(jù)的熱點(diǎn)話題發(fā)現(xiàn)逐漸成為一個(gè)研究熱點(diǎn)。微博熱點(diǎn)話題發(fā)現(xiàn)就是通過(guò)相關(guān)的話題檢測(cè)技術(shù)把分散的微博信息組織起來(lái)有條理地呈現(xiàn)給人們。 本文提出了一個(gè)完整的微博熱點(diǎn)話題發(fā)現(xiàn)方法。該方法主要包括了微博數(shù)據(jù)的預(yù)處理、微博數(shù)據(jù)的文本表示、特征詞提取、文本聚類和事件關(guān)鍵詞提取等步驟。文中仔細(xì)分析了微博數(shù)據(jù)自身的特點(diǎn),結(jié)合這些微博數(shù)據(jù)特征對(duì)TF-IDF算法進(jìn)行改進(jìn),提高了微博熱點(diǎn)話題發(fā)現(xiàn)的效果。本文在微博文本聚類時(shí)采用了多屬性無(wú)向加權(quán)圖聚類算法,不僅考慮了圖的拓?fù)浣Y(jié)構(gòu)還引入了節(jié)點(diǎn)的屬性,與目前常用的一些聚類算法相比較提高了聚類的效果。文中給出的一些實(shí)驗(yàn)結(jié)果表明本文提出的微博熱點(diǎn)事件檢測(cè)算法是有效的。
[Abstract]:In recent years, Weibo has become a very important application of the social network. People can publish what they see and hear from any place, any time, through Weibo. Think about it. This relatively simple way of publishing information has greatly reduced the barrier to information release, which is also one of the important factors that Weibo has been widely used. In the Weibo data published by these users, Most Weibo information has something to do with real-life events. Some Weibo websites also list popular keywords from recent periods of time on their home pages, but they are usually short and scattered. Moreover, Weibo information related to a certain topic was published by different Weibo publishers at different times. Users cannot have a comprehensive understanding of the incident through these isolated information, nor can the relevant departments fully grasp the development of the situation. It is under such circumstances that the public opinion on Weibo cannot be properly guided. The hot topic discovery of Weibo data has gradually become a research hotspot. Weibo hot topic discovery is to organize and present the scattered Weibo information to people in a coherent way through the relevant topic detection technology. In this paper, a complete method of hot topic discovery by Weibo is proposed. This method mainly includes the pretreatment of Weibo data, the text representation of Weibo data, the extraction of feature words. Text clustering and event keyword extraction. This paper carefully analyzes the characteristics of Weibo data itself, and improves the TF-IDF algorithm by combining the characteristics of the Weibo data. In this paper, we adopt multi-attribute undirected weighted graph clustering algorithm, which not only considers the topological structure of graph, but also introduces the attributes of nodes. Compared with some commonly used clustering algorithms, the clustering effect is improved. Some experimental results show that the Weibo hot spot event detection algorithm proposed in this paper is effective.
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.1;TP393.092
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 韓臘萍,余雪麗;一個(gè)分布式入侵檢測(cè)系統(tǒng)框架設(shè)計(jì)[J];計(jì)算機(jī)工程;2004年13期
2 郭慶琳,樊孝忠;基于文本聚類和NLU的自動(dòng)文摘系統(tǒng)的研究與實(shí)現(xiàn)[J];現(xiàn)代電力;2004年04期
3 郭慶琳,樊孝忠,柳長(zhǎng)安;基于文本聚類和NLU的自動(dòng)文摘研究[J];北京理工大學(xué)學(xué)報(bào);2005年08期
4 郭慶琳;樊孝忠;柳長(zhǎng)安;;基于文本聚類的自動(dòng)文摘系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2006年04期
5 鞏知樂(lè);張德賢;;文本挖掘理論概述[J];福建電腦;2008年09期
6 姚清耘;劉功申;李翔;;基于向量空間模型的文本聚類算法[J];計(jì)算機(jī)工程;2008年18期
7 門國(guó)尊;;用于信息檢索的文本聚類技術(shù)[J];今日科苑;2008年20期
8 李眾;梁志劍;;一種改進(jìn)的文本聚類算法[J];陜西科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年06期
9 張春爐;沈建京;;基于SOM算法的文本聚類實(shí)現(xiàn)[J];計(jì)算機(jī)與現(xiàn)代化;2010年01期
10 馬玉春,宋瀚濤;基于搜索引擎的知識(shí)發(fā)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2004年30期
相關(guān)會(huì)議論文 前10條
1 張猛;王大玲;于戈;;一種基于自動(dòng)閾值發(fā)現(xiàn)的文本聚類方法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
2 董婧靈;李芳;何婷婷;涂新輝;萬(wàn)劍;;基于LDA模型的文本聚類研究[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
3 王樂(lè);田李;賈焰;韓偉紅;;一個(gè)并行的文本聚類混合算法[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2007年
4 張寶艷;王慶輝;;中文文本聚類的研究與實(shí)現(xiàn)[A];第一屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2002年
5 張剛;周昭濤;王斌;;基于主題的分布式信息檢索研究[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
6 白剛;張錚;丁宗堯;朱毅;;中文文本聚類在互聯(lián)網(wǎng)搜索的研究與應(yīng)用[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
7 羅娜;左萬(wàn)利;袁福宇;張靖波;張慧杰;;使用本體語(yǔ)義提高文本聚類(英文)[A];全國(guó)語(yǔ)域web與本體能研討會(huì)論文集[C];2006年
8 顏端武;李曉鵬;王磊;成曉;;文本聚類中基于本體的相似性測(cè)度(英文)[A];全國(guó)語(yǔ)域web與本體能研討會(huì)論文集[C];2006年
9 王瑩;劉楊;;維基百科的文本聚類方法分析[A];2009年研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)論文集[C];2009年
10 黎琳;;Web內(nèi)容挖掘在數(shù)字圖書館中的應(yīng)用[A];中國(guó)工程物理研究院第七屆電子技術(shù)青年學(xué)術(shù)交流會(huì)論文集[C];2005年
相關(guān)重要報(bào)紙文章 前2條
1 中國(guó)科學(xué)院計(jì)算技術(shù)研究所 王 斌;內(nèi)容為王[N];計(jì)算機(jī)世界;2004年
2 王培森;從Web挖到競(jìng)爭(zhēng)情報(bào)[N];中國(guó)計(jì)算機(jī)報(bào);2003年
相關(guān)博士學(xué)位論文 前10條
1 徐森;文本聚類集成關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
2 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年
3 郝立麗;漢語(yǔ)文本數(shù)據(jù)挖掘[D];吉林大學(xué);2009年
4 倪興良;問(wèn)答系統(tǒng)中的短文本聚類研究與應(yīng)用[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年
5 劉向威;NLP技術(shù)在中文信息檢索中的應(yīng)用研究[D];天津大學(xué);2005年
6 高茂庭;文本聚類分析若干問(wèn)題研究[D];天津大學(xué);2007年
7 宣照國(guó);文本挖掘算法及其在知識(shí)管理中的應(yīng)用研究[D];大連理工大學(xué);2008年
8 胡佳妮;文本挖掘中若干關(guān)鍵問(wèn)題的研究[D];北京郵電大學(xué);2008年
9 王樂(lè);短語(yǔ)消息聚類相關(guān)技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2008年
10 楊創(chuàng)新;基于機(jī)器學(xué)習(xí)的高性能中文文本分類研究[D];華南理工大學(xué);2009年
相關(guān)碩士學(xué)位論文 前10條
1 何晏成;基于近鄰傳播和凝聚層次的文本聚類方法[D];哈爾濱工業(yè)大學(xué);2010年
2 張金;個(gè)性化信息檢索系統(tǒng)中文本聚類的研究[D];東北師范大學(xué);2010年
3 龐俊;基于確定話題和情感極性的博客文本聚類研究[D];武漢理工大學(xué);2010年
4 李梅;改進(jìn)的K均值算法在中文文本聚類中的研究[D];安徽大學(xué);2010年
5 王飛;基于蟻群優(yōu)化的模糊文本聚類算法研究[D];河南工業(yè)大學(xué);2010年
6 趙穎;基于Ontology的Web文本聚類研究[D];西華大學(xué);2011年
7 盛江濤;網(wǎng)絡(luò)論壇話題發(fā)現(xiàn)與跟蹤技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2010年
8 劉延亮;一種文本聚類原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];大連理工大學(xué);2006年
9 谷波;基于粗集模型的聚類方法及其在文獻(xiàn)過(guò)濾系統(tǒng)中的應(yīng)用[D];山西大學(xué);2004年
10 胡海龍;基于改進(jìn)的后綴樹(shù)算法的中英文聚類引擎的實(shí)現(xiàn)[D];吉林大學(xué);2008年
,本文編號(hào):1550402
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1550402.html