天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于時間序列的微博熱點話題識別與追蹤

發(fā)布時間:2018-03-13 14:34

  本文選題:微博 切入點:時間 出處:《西安科技大學(xué)》2017年碩士論文 論文類型:學(xué)位論文


【摘要】:目前微博已經(jīng)成為信息分享和傳播的重要平臺,其產(chǎn)生的網(wǎng)絡(luò)輿情對現(xiàn)實社會造成影響。為了維護(hù)正常的社會秩序,對微博熱點話題的識別與追蹤就顯得尤為重要。首先研究了已有的微博熱點話題識別與追蹤方法,包括基于空間向量模型(Vector Space Model,VSM)的方法和基于隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型的方法;總結(jié)并分析了以K-means算法為代表的話題識別方法和以決策樹算法為代表的話題追蹤方法,發(fā)現(xiàn)基于VSM模型的傳統(tǒng)微博熱點話題識別與追蹤方法計算過程復(fù)雜,識別與追蹤到的結(jié)果不夠細(xì)致、精準(zhǔn)。對LDA模型進(jìn)行了重點研究,分析了在LDA模型中加入時間概念進(jìn)行微博熱點話題識別與追蹤的三種方法:先離散時間方法、后離散時間方法以及引入連續(xù)時間的方法。分析發(fā)現(xiàn)后離散時間與引入時間的方法只能對微博熱點話題的強(qiáng)度進(jìn)行追蹤,不能對話題內(nèi)容的變化進(jìn)行追蹤,而先離散時間的LDA模型能夠?qū)ξ⒉狳c話題強(qiáng)度和內(nèi)容同時進(jìn)行追蹤。先離散時間的LDA模型在進(jìn)行微博熱點話題識別與追蹤時需要進(jìn)行話題關(guān)聯(lián)度計算。分析發(fā)現(xiàn)經(jīng)典的KL距離(Kullback Leibler Divergence,KL)話題關(guān)聯(lián)度計算方法及其改進(jìn)算法均有缺陷,如KL算法沒有考慮微博熱點話題特征詞的相似度以及微博熱點話題內(nèi)容隨時間的變化的特點。針對此類缺陷,提出基于熱點話題特征詞相似度和特征詞共現(xiàn)情況的微博熱點話題關(guān)聯(lián)度計算方法:Jaccard-詞共現(xiàn)(Jaccard-Word co-occurrence,JW)算法,通過話題所包含特征詞的相似性衡量兩個熱點話題內(nèi)容相同的概率,同時通過特征詞的共現(xiàn)率衡量話題內(nèi)容相關(guān)聯(lián)的概率。在兩個數(shù)據(jù)集上進(jìn)行試驗以驗證JW算法的有效性,證明JW話題關(guān)聯(lián)度算法的召回率、準(zhǔn)確率以及F1值均高于經(jīng)典KL算法、JSD-Cosine算法和詞共現(xiàn)算法。追蹤到的微博熱點話題與現(xiàn)實事件在時間序列上的強(qiáng)度和內(nèi)容的變化過程相吻合,證明識別與追蹤到的結(jié)果符合現(xiàn)實事件的發(fā)展過程,說明JW算法可行有效。
[Abstract]:At present, micro-blog has become an important platform for information sharing and dissemination of network public opinion, the impact on the social reality. In order to maintain the normal social order, recognition and tracking of micro-blog hot topic is particularly important. Firstly, micro-blog hot topic detection and tracking methods have been developed, including the vector space model based on Vector (Space Model, VSM) based on implicit method and de Lickley distribution (Latent Dirichlet Allocation, LDA) model method; summarize and analyze the topic identification method represented by K-means algorithm and decision tree algorithm to the topic as the representative of the tracing method, found that the traditional micro-blog hot topic detection and tracking method based on VSM model calculation process is complex, to identify and track the results not detailed, accurate. The LDA model focuses on the analysis of the concept of time to join in the LDA model. Three methods for the micro-blog hot topic identification and tracking: the first time after the discrete method, discrete time method and method of introducing continuous time. Only with the introduction of discrete time analysis method of time after the discovery of strength on micro-blog hot topic tracking, not to track changes in the topic, and then the discrete time LDA the micro-blog model can be a hot topic of strength and content at the same time tracking. The first discrete time LDA model requires topic correlation calculation in micro-blog hot topic detection and tracking. Analysis shows that the classical KL distance (Kullback Leibler Divergence, KL) topic correlation calculation method and its improved algorithm has defects, such as the KL algorithm does not consider micro-blog hot topic features of word similarity and micro-blog hot topic content changes with time characteristics. For this defect, based on the hot words The calculation method of micro-blog hot topic correlation characteristics of word similarity and word co-occurrence features of word co-occurrence: Jaccard- (Jaccard-Word co-occurrence JW) algorithm, which contains the similarity measure of feature words two hot topics of the same content probability by topic, the features of word co-occurrence measure related topic probability. Experiments on two data sets to verify the effectiveness of the JW algorithm, prove that the recall rate of JW topic correlation algorithm, accuracy and F1 value were higher than that of the classical KL algorithm, JSD-Cosine algorithm and co-occurrence algorithm. The change process of micro-blog to the hot topic tracking and reality event intensity and content in time series the match, the development process of proof of identification and tracking results to realistic events, so JW algorithm is feasible and effective.

【學(xué)位授予單位】:西安科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP393.092;TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 李衛(wèi)疆;王真真;余正濤;;基于BTM和K-means的微博話題檢測[J];計算機(jī)科學(xué);2017年02期

2 劉紅兵;李文坤;張仰森;;基于LDA模型和多層聚類的微博話題檢測[J];計算機(jī)技術(shù)與發(fā)展;2016年06期

3 馬國棟;李慧;;基于改進(jìn)K-means算法的BBS熱點話題發(fā)現(xiàn)[J];首都師范大學(xué)學(xué)報(自然科學(xué)版);2015年04期

4 陳卓群;;基于共詞網(wǎng)絡(luò)的社交媒體話題演化分析[J];情報科學(xué);2015年01期

5 談成訪;汪材印;張亞康;;基于LDA模型的中文微博熱點話題發(fā)現(xiàn)[J];宿州學(xué)院學(xué)報;2014年04期

6 胡吉明;陳果;;基于動態(tài)LDA主題模型的內(nèi)容主題挖掘與演化[J];圖書情報工作;2014年02期

7 林萍;黃衛(wèi)東;;基于LDA模型的網(wǎng)絡(luò)輿情事件話題演化分析[J];情報雜志;2013年12期

8 楊長春;周猛;葉施仁;徐小松;;基于改進(jìn)CURE算法的微博熱點話題發(fā)現(xiàn)[J];計算機(jī)仿真;2013年11期

9 趙愛華;劉培玉;鄭燕;;基于LDA的新聞話題子話題劃分方法[J];小型微型計算機(jī)系統(tǒng);2013年04期

10 熊志斌;王冬;尹成國;;輿情監(jiān)測技術(shù)及應(yīng)用綜述[J];軟件;2012年12期

相關(guān)碩士學(xué)位論文 前3條

1 劉盼盼;中文新聞主題事件的關(guān)聯(lián)性識別研究[D];昆明理工大學(xué);2016年

2 袁勝文;基于LDA的中文科技文獻(xiàn)話題演化研究[D];河南工業(yè)大學(xué);2015年

3 郭煒星;數(shù)據(jù)挖掘分類算法研究[D];浙江大學(xué);2008年

,

本文編號:1606801

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1606801.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a2cad***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com