基于LDA模型的微博話題與事件檢測(cè)
本文選題:微博 切入點(diǎn):話題檢測(cè) 出處:《哈爾濱工業(yè)大學(xué)》2014年碩士論文
【摘要】:當(dāng)前,我們處在一個(gè)瞬息萬(wàn)變的互聯(lián)網(wǎng)時(shí)代。近幾年來(lái),以SNS、微博、微信等為代表的新型網(wǎng)絡(luò)社交工具迅速崛起,各自擁有了數(shù)量巨大的用戶群體。微博憑借著實(shí)時(shí)性強(qiáng),內(nèi)容簡(jiǎn)練(140字以內(nèi))和發(fā)布方式多樣等優(yōu)點(diǎn),已經(jīng)成為網(wǎng)上信息發(fā)布和傳播的主要平臺(tái)之一。微博在短時(shí)期內(nèi)就能夠聚集大量的文本數(shù)據(jù),如何在這些雜亂、無(wú)序的微博文本數(shù)據(jù)中快速地提取出精煉的、有價(jià)值的話題,是一項(xiàng)艱巨的任務(wù),需要對(duì)現(xiàn)有的話題檢測(cè)技術(shù)進(jìn)行發(fā)展和提高。本文提出了一種基于LDA-SP(Latent Dirichlet Allocation-Single Pass)的微博話題檢測(cè)算法。首先分析了話題檢測(cè)的基本流程,闡述了各個(gè)環(huán)節(jié)使用技術(shù)的基本原理和實(shí)現(xiàn)細(xì)節(jié)。針對(duì)在傳統(tǒng)話題檢測(cè)中,以向量空間模型作為文本模型表示存在著維度過(guò)高、語(yǔ)義表現(xiàn)缺失等缺點(diǎn),本文改進(jìn)了傳統(tǒng)方法,采用潛在狄利克雷分配模型對(duì)微博文本建模,采用Single-Pass算法作為微博話題檢測(cè)中聚類的實(shí)現(xiàn)方法,將兩者結(jié)合使用。對(duì)照實(shí)驗(yàn)的結(jié)果表明,本文提出的算法在解決了預(yù)設(shè)話題數(shù)的缺點(diǎn)的同時(shí),還保證了話題檢測(cè)的精度。本文提出了一種微博事件的同一性計(jì)算方法。該方法用來(lái)區(qū)分微博數(shù)據(jù)集中具有相似內(nèi)容的不同事件。由于這種“難分”問(wèn)題的存在,主題模型無(wú)法對(duì)相似內(nèi)容的不同事件進(jìn)行分辨。本文首先考慮兩條語(yǔ)義上相似的微博,然后計(jì)算它們?cè)跁r(shí)間、地點(diǎn)等事件特征上的同一性評(píng)分,從而推斷出它們是否表述同一個(gè)事件。將此方法與Single-Pass算法相結(jié)合,最后引入微博數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)表明,相比之前的算法,改進(jìn)相似度后的算法在“難分”問(wèn)題上具有更好的事件檢測(cè)效果。
[Abstract]:At present, we are in a rapidly changing era of the Internet.In recent years, with SNS, Weibo, WeChat as the representative of the new social networking tools, each has a large number of users.Weibo has become one of the main platforms for information dissemination and dissemination on the Internet because of its advantages of real time, concise content within 140 words) and variety of publishing methods.Weibo was able to gather a large amount of text data in a short period of time. It is a difficult task to quickly extract refined and valuable topics from these messy and disordered Weibo text data.It is necessary to develop and improve the existing topic detection technology.This paper presents a topic detection algorithm for Weibo based on LDA-SP(Latent Dirichlet Allocation-Single Pass.Firstly, the basic flow of topic detection is analyzed, and the basic principle and implementation details of each link are expounded.In traditional topic detection, vector space model (VSM) as a text model has some disadvantages, such as too high dimension, lack of semantic representation, etc. In this paper, we improve the traditional method and use latent Delikley assignment model to model Weibo text.Single-Pass algorithm is used as a clustering method in Weibo topic detection, and the two methods are combined.The experimental results show that the proposed algorithm not only solves the shortcomings of the preset number of topics, but also ensures the accuracy of topic detection.This paper presents a method for calculating the identity of Weibo event.This method is used to distinguish different events with similar contents in Weibo dataset.Because of this problem, the topic model can not distinguish different events with similar content.In this paper, we first consider two syntactically similar Weibo, and then calculate their identity scores in time, place and other event features, and then infer whether they represent the same event or not.This method is combined with Single-Pass algorithm, and then Weibo data set is introduced to experiment.Experiments show that the improved similarity algorithm has better event detection performance than the previous algorithm.
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.1;TP393.092
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 趙亞琴;周獻(xiàn)中;;一種基于小生境遺傳算法的中文文本聚類新方法[J];計(jì)算機(jī)工程;2006年06期
2 劉務(wù)華;羅鐵堅(jiān);王文杰;;文本聚類技術(shù)的有效性驗(yàn)證[J];計(jì)算機(jī)工程;2007年01期
3 丁X;許侃;;基于文本聚類方法的我國(guó)科技管理研究領(lǐng)域的計(jì)量研究[J];科學(xué)學(xué)研究;2007年S1期
4 孫愛(ài)香;楊鑫華;;關(guān)于文本聚類有效性評(píng)價(jià)的研究[J];山東理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年05期
5 丘志宏;宮雷光;;利用上下文提高文本聚類的效果[J];中文信息學(xué)報(bào);2007年06期
6 吳啟明;易云飛;;文本聚類綜述[J];河池學(xué)院學(xué)報(bào);2008年02期
7 李江華;楊書(shū)新;劉利峰;;基于概念格的文本聚類[J];計(jì)算機(jī)應(yīng)用;2008年09期
8 趙文鵬;;淺談文本聚類研究[J];企業(yè)家天地下半月刊(理論版);2009年02期
9 章成志;;文本聚類結(jié)果描述研究綜述[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2009年02期
10 馬娜;;文本聚類研究[J];電腦知識(shí)與技術(shù);2009年20期
相關(guān)會(huì)議論文 前10條
1 趙世奇;劉挺;李生;;一種基于主題的文本聚類方法[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年
2 王洪俊;俞士汶;蘇祺;施水才;肖詩(shī)斌;;中文文本聚類的特征單元比較[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年
3 胡吉祥;許洪波;劉悅;王斌;程學(xué)旗;;基于重復(fù)串的短文本聚類研究[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
4 白剛;張錚;丁宗堯;朱毅;;中文文本聚類在互聯(lián)網(wǎng)搜索的研究與應(yīng)用[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
5 王明文;付劍波;羅遠(yuǎn)勝;陸旭;;基于協(xié)同聚類的兩階段文本聚類方法研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
6 張猛;王大玲;于戈;;一種基于自動(dòng)閾值發(fā)現(xiàn)的文本聚類方法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
7 王樂(lè);田李;賈焰;韓偉紅;;一個(gè)并行的文本聚類混合算法[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2007年
8 王瑩;劉楊;;維基百科的文本聚類方法分析[A];2009年研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)論文集[C];2009年
9 張寶艷;王慶輝;;中文文本聚類的研究與實(shí)現(xiàn)[A];第一屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2002年
10 章成志;;基于多語(yǔ)文本聚類的主題層次體系生成研究1)[A];國(guó)家自然科學(xué)基金委員會(huì)管理科學(xué)部宏觀管理與政策學(xué)科青年基金獲得者交流研討會(huì)論文集[C];2010年
相關(guān)博士學(xué)位論文 前3條
1 徐森;文本聚類集成關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
2 高茂庭;文本聚類分析若干問(wèn)題研究[D];天津大學(xué);2007年
3 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年
相關(guān)碩士學(xué)位論文 前10條
1 康健;基于Multi-agent和群體智能的藏文網(wǎng)絡(luò)輿情管理研究[D];西南交通大學(xué);2015年
2 張培偉;基于改進(jìn)Single-Pass算法的熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中師范大學(xué);2015年
3 郭士串;結(jié)合權(quán)重因子與特征向量的文本聚類研究與應(yīng)用[D];江西理工大學(xué);2015年
4 邵明來(lái);中文文本聚類關(guān)鍵技術(shù)研究[D];廣西大學(xué);2015年
5 王恒靜;基于詞類和搭配的微博輿情文本聚類方法研究[D];江蘇科技大學(xué);2015年
6 吳潔潔;基于RI方法的文本聚類研究[D];南昌大學(xué);2015年
7 樊兆欣;個(gè)性化新聞推薦系統(tǒng)關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];北京理工大學(xué);2015年
8 蘇圣瞳;微博熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2014年
9 孫東普;融合屬性抽取的多粒度專利文本聚類研究[D];大連理工大學(xué);2015年
10 李蕓;基于爬蟲(chóng)和文本聚類分析的網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
,本文編號(hào):1704733
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1704733.html