基于LDA模型的微博話題與事件檢測
本文選題:微博 切入點:話題檢測 出處:《哈爾濱工業(yè)大學(xué)》2014年碩士論文
【摘要】:當(dāng)前,我們處在一個瞬息萬變的互聯(lián)網(wǎng)時代。近幾年來,以SNS、微博、微信等為代表的新型網(wǎng)絡(luò)社交工具迅速崛起,各自擁有了數(shù)量巨大的用戶群體。微博憑借著實時性強,內(nèi)容簡練(140字以內(nèi))和發(fā)布方式多樣等優(yōu)點,已經(jīng)成為網(wǎng)上信息發(fā)布和傳播的主要平臺之一。微博在短時期內(nèi)就能夠聚集大量的文本數(shù)據(jù),如何在這些雜亂、無序的微博文本數(shù)據(jù)中快速地提取出精煉的、有價值的話題,是一項艱巨的任務(wù),需要對現(xiàn)有的話題檢測技術(shù)進行發(fā)展和提高。本文提出了一種基于LDA-SP(Latent Dirichlet Allocation-Single Pass)的微博話題檢測算法。首先分析了話題檢測的基本流程,闡述了各個環(huán)節(jié)使用技術(shù)的基本原理和實現(xiàn)細節(jié)。針對在傳統(tǒng)話題檢測中,以向量空間模型作為文本模型表示存在著維度過高、語義表現(xiàn)缺失等缺點,本文改進了傳統(tǒng)方法,采用潛在狄利克雷分配模型對微博文本建模,采用Single-Pass算法作為微博話題檢測中聚類的實現(xiàn)方法,將兩者結(jié)合使用。對照實驗的結(jié)果表明,本文提出的算法在解決了預(yù)設(shè)話題數(shù)的缺點的同時,還保證了話題檢測的精度。本文提出了一種微博事件的同一性計算方法。該方法用來區(qū)分微博數(shù)據(jù)集中具有相似內(nèi)容的不同事件。由于這種“難分”問題的存在,主題模型無法對相似內(nèi)容的不同事件進行分辨。本文首先考慮兩條語義上相似的微博,然后計算它們在時間、地點等事件特征上的同一性評分,從而推斷出它們是否表述同一個事件。將此方法與Single-Pass算法相結(jié)合,最后引入微博數(shù)據(jù)集進行實驗。實驗表明,相比之前的算法,改進相似度后的算法在“難分”問題上具有更好的事件檢測效果。
[Abstract]:At present, we are in a rapidly changing era of the Internet.In recent years, with SNS, Weibo, WeChat as the representative of the new social networking tools, each has a large number of users.Weibo has become one of the main platforms for information dissemination and dissemination on the Internet because of its advantages of real time, concise content within 140 words) and variety of publishing methods.Weibo was able to gather a large amount of text data in a short period of time. It is a difficult task to quickly extract refined and valuable topics from these messy and disordered Weibo text data.It is necessary to develop and improve the existing topic detection technology.This paper presents a topic detection algorithm for Weibo based on LDA-SP(Latent Dirichlet Allocation-Single Pass.Firstly, the basic flow of topic detection is analyzed, and the basic principle and implementation details of each link are expounded.In traditional topic detection, vector space model (VSM) as a text model has some disadvantages, such as too high dimension, lack of semantic representation, etc. In this paper, we improve the traditional method and use latent Delikley assignment model to model Weibo text.Single-Pass algorithm is used as a clustering method in Weibo topic detection, and the two methods are combined.The experimental results show that the proposed algorithm not only solves the shortcomings of the preset number of topics, but also ensures the accuracy of topic detection.This paper presents a method for calculating the identity of Weibo event.This method is used to distinguish different events with similar contents in Weibo dataset.Because of this problem, the topic model can not distinguish different events with similar content.In this paper, we first consider two syntactically similar Weibo, and then calculate their identity scores in time, place and other event features, and then infer whether they represent the same event or not.This method is combined with Single-Pass algorithm, and then Weibo data set is introduced to experiment.Experiments show that the improved similarity algorithm has better event detection performance than the previous algorithm.
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1;TP393.092
【相似文獻】
相關(guān)期刊論文 前10條
1 趙亞琴;周獻中;;一種基于小生境遺傳算法的中文文本聚類新方法[J];計算機工程;2006年06期
2 劉務(wù)華;羅鐵堅;王文杰;;文本聚類技術(shù)的有效性驗證[J];計算機工程;2007年01期
3 丁X;許侃;;基于文本聚類方法的我國科技管理研究領(lǐng)域的計量研究[J];科學(xué)學(xué)研究;2007年S1期
4 孫愛香;楊鑫華;;關(guān)于文本聚類有效性評價的研究[J];山東理工大學(xué)學(xué)報(自然科學(xué)版);2007年05期
5 丘志宏;宮雷光;;利用上下文提高文本聚類的效果[J];中文信息學(xué)報;2007年06期
6 吳啟明;易云飛;;文本聚類綜述[J];河池學(xué)院學(xué)報;2008年02期
7 李江華;楊書新;劉利峰;;基于概念格的文本聚類[J];計算機應(yīng)用;2008年09期
8 趙文鵬;;淺談文本聚類研究[J];企業(yè)家天地下半月刊(理論版);2009年02期
9 章成志;;文本聚類結(jié)果描述研究綜述[J];現(xiàn)代圖書情報技術(shù);2009年02期
10 馬娜;;文本聚類研究[J];電腦知識與技術(shù);2009年20期
相關(guān)會議論文 前10條
1 趙世奇;劉挺;李生;;一種基于主題的文本聚類方法[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年
2 王洪俊;俞士汶;蘇祺;施水才;肖詩斌;;中文文本聚類的特征單元比較[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年
3 胡吉祥;許洪波;劉悅;王斌;程學(xué)旗;;基于重復(fù)串的短文本聚類研究[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
4 白剛;張錚;丁宗堯;朱毅;;中文文本聚類在互聯(lián)網(wǎng)搜索的研究與應(yīng)用[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
5 王明文;付劍波;羅遠勝;陸旭;;基于協(xié)同聚類的兩階段文本聚類方法研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
6 張猛;王大玲;于戈;;一種基于自動閾值發(fā)現(xiàn)的文本聚類方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年
7 王樂;田李;賈焰;韓偉紅;;一個并行的文本聚類混合算法[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2007年
8 王瑩;劉楊;;維基百科的文本聚類方法分析[A];2009年研究生學(xué)術(shù)交流會通信與信息技術(shù)論文集[C];2009年
9 張寶艷;王慶輝;;中文文本聚類的研究與實現(xiàn)[A];第一屆學(xué)生計算語言學(xué)研討會論文集[C];2002年
10 章成志;;基于多語文本聚類的主題層次體系生成研究1)[A];國家自然科學(xué)基金委員會管理科學(xué)部宏觀管理與政策學(xué)科青年基金獲得者交流研討會論文集[C];2010年
相關(guān)博士學(xué)位論文 前3條
1 徐森;文本聚類集成關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
2 高茂庭;文本聚類分析若干問題研究[D];天津大學(xué);2007年
3 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年
相關(guān)碩士學(xué)位論文 前10條
1 康健;基于Multi-agent和群體智能的藏文網(wǎng)絡(luò)輿情管理研究[D];西南交通大學(xué);2015年
2 張培偉;基于改進Single-Pass算法的熱點話題發(fā)現(xiàn)系統(tǒng)的設(shè)計與實現(xiàn)[D];華中師范大學(xué);2015年
3 郭士串;結(jié)合權(quán)重因子與特征向量的文本聚類研究與應(yīng)用[D];江西理工大學(xué);2015年
4 邵明來;中文文本聚類關(guān)鍵技術(shù)研究[D];廣西大學(xué);2015年
5 王恒靜;基于詞類和搭配的微博輿情文本聚類方法研究[D];江蘇科技大學(xué);2015年
6 吳潔潔;基于RI方法的文本聚類研究[D];南昌大學(xué);2015年
7 樊兆欣;個性化新聞推薦系統(tǒng)關(guān)鍵技術(shù)研究與實現(xiàn)[D];北京理工大學(xué);2015年
8 蘇圣瞳;微博熱點話題發(fā)現(xiàn)系統(tǒng)的設(shè)計與實現(xiàn)[D];復(fù)旦大學(xué);2014年
9 孫東普;融合屬性抽取的多粒度專利文本聚類研究[D];大連理工大學(xué);2015年
10 李蕓;基于爬蟲和文本聚類分析的網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計與實現(xiàn)[D];電子科技大學(xué);2014年
,本文編號:1704733
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1704733.html