天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于BTM模型的微博話題檢測與追蹤研究

發(fā)布時間:2018-01-28 04:25

  本文關(guān)鍵詞: 微博 話題模型 話題檢測 話題追蹤 話題詞表 出處:《昆明理工大學(xué)》2017年碩士論文 論文類型:學(xué)位論文


【摘要】:近年來,微博的迅猛發(fā)展給人們的溝通交流提供了諸多方便,已經(jīng)成為社交網(wǎng)絡(luò)的重要組成部分。由于微博平臺具有傳播速度快,互動性強(qiáng)等較為顯著的特點(diǎn),用戶可以隨時利用碎片時間汲取新聞資訊,發(fā)布新奇事件,并參與話題。微博平臺逐漸呈現(xiàn)出數(shù)據(jù)量大,文本短小的狀態(tài),進(jìn)而出現(xiàn)信息負(fù)載,訊息迷向等問題,這使得微博用戶難以有效獲取和掌握相關(guān)話題的后續(xù)信息。對微博進(jìn)行話題檢測與追蹤,不僅可以提供給用戶感興趣的話題及其后續(xù)報(bào)道,還能夠有效地引導(dǎo)公眾輿論,具有一定的現(xiàn)實(shí)意義。微博文本較短,詞頻較低,缺乏豐富的上下文。傳統(tǒng)的話題模型在處理微博短文本方面面臨著嚴(yán)重的數(shù)據(jù)稀疏問題,降低了性能。本文結(jié)合了微博的顯著特點(diǎn),進(jìn)行了基于BTM(bi-term topic model)模型的微博話題檢測與追蹤研究。首先,本文引入BTM話題模型來處理微博數(shù)據(jù)這樣的短文本。BTM模型是基于詞共現(xiàn)建模進(jìn)行話題學(xué)習(xí)的,它將所有的bi-term詞對構(gòu)成語料庫,并利用語料庫的詞共現(xiàn)抽取話題分布。BTM能夠充分?jǐn)U展詞項(xiàng)所表達(dá)的話題,改善LDA模型處理微博文本時面臨的數(shù)據(jù)稀疏問題。其次,本文結(jié)合K-means聚類算法進(jìn)行話題檢測。BTM建模后的數(shù)據(jù)比較集中,并且話題間的差別較為明顯,利用K-means聚類算法能夠獲得區(qū)分度較好的話題。在分別結(jié)合K-means和層次聚類算法進(jìn)行實(shí)驗(yàn)后,通過分析二者的比對結(jié)果,本文采用BTMK-means聚類算法進(jìn)行微博話題檢測。最后,本文在建模的基礎(chǔ)上利用BTM模型的話題-話題詞表進(jìn)行話題追蹤。研究過程中,本文融入順序加權(quán)方法對相似度計(jì)算方法進(jìn)行改進(jìn),經(jīng)過比較詞項(xiàng)間的語義相似度,計(jì)算微博話題詞表與BTM話題詞表之間的相似度,用以改善特征自身攜帶的語義信息忽視問題。
[Abstract]:In recent years, Weibo's rapid development has provided a lot of convenience for people's communication and communication, and has become an important part of social network. Because Weibo platform has the characteristics of fast transmission, strong interaction and so on. Users can take advantage of the fragment time at any time to absorb news information, publish novel events, and participate in the topic. Weibo platform gradually presents a large amount of data, short text status, and then appear information load. This makes it difficult for Weibo users to effectively obtain and master the follow-up information of relevant topics. The topic detection and tracking of Weibo can not only provide users with topics of interest and follow-up reports. Also can effectively guide public opinion, has certain practical significance. Weibo text is shorter, the word frequency is low. The traditional topic model is faced with serious data sparse problem in dealing with Weibo short text, which reduces the performance. This paper combines the remarkable characteristics of Weibo. The research of Weibo topic detection and tracking based on BTM(bi-term topic model is carried out. First of all. In this paper, we introduce BTM topic model to deal with Weibo data. BTM model is based on co-occurrence model for topic learning. It uses all bi-term word pairs to form a corpus. And using the word co-occurrence in the corpus to extract the topic distribution. BTM can fully expand the topic expressed by the word items, and improve the LDA model to deal with Weibo text data sparse problem. Secondly. This paper combines K-means clustering algorithm for topic detection. BTM modeling data is more concentrated, and the difference between topics is obvious. K-means clustering algorithm can be used to achieve a better classification of topics. After the combination of K-means and hierarchical clustering algorithm experiments, through the analysis of the results of the comparison between the two. In this paper, BTMK-means clustering algorithm is used to detect Weibo topic. Finally, based on the modeling, this paper uses the topic-topic lexicon of BTM model to track the topic. By comparing the semantic similarity between word items, the similarity between Weibo topic lexicon and BTM topic lexicon is calculated. In order to improve the semantic information carried by the feature itself ignore the problem.
【學(xué)位授予單位】:昆明理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 武建軍;羅文龍;;基于SVM的熱點(diǎn)話題跟蹤實(shí)現(xiàn)過程研究[J];信息安全與技術(shù);2016年03期

2 米文麗;孫曰昕;;利用概率主題模型的微博熱點(diǎn)話題發(fā)現(xiàn)方法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2014年08期

3 肖紅;許少華;;改進(jìn)的話題檢測和跟蹤算法研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2014年09期

4 甘勇;姜森;楊佳佳;;微博話題檢測SP&HC聚類算法分析[J];鄭州輕工業(yè)學(xué)院學(xué)報(bào)(自然科學(xué)版);2014年02期

5 熊祖濤;;基于稀疏特征的中文微博短文本聚類方法研究[J];軟件導(dǎo)刊;2014年01期

6 謝昊;江紅;;一種面向微博主題挖掘的改進(jìn)LDA模型[J];華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年06期

7 馬彬;洪宇;陸劍江;姚建民;朱巧明;;基于線索樹雙層聚類的微博話題檢測[J];中文信息學(xué)報(bào);2012年06期

8 王晶;朱珂;汪斌強(qiáng);;基于信息數(shù)據(jù)分析的微博研究綜述[J];計(jì)算機(jī)應(yīng)用;2012年07期

9 路榮;項(xiàng)亮;劉明榮;楊青;;基于隱主題分析和文本聚類的微博客中新聞話題的發(fā)現(xiàn)[J];模式識別與人工智能;2012年03期

10 徐戈;王厚峰;;自然語言處理中主題模型的發(fā)展[J];計(jì)算機(jī)學(xué)報(bào);2011年08期

相關(guān)會議論文 前1條

1 邱立坤;程葳;龍志yN;孫嬌華;;面向BBS的話題挖掘初探[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年

相關(guān)博士學(xué)位論文 前1條

1 洪宇;基于語義結(jié)構(gòu)和時序特征的話題檢測與跟蹤技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年

相關(guān)碩士學(xué)位論文 前4條

1 劉靜;面向中文微博的關(guān)鍵詞提取技術(shù)研究[D];中南大學(xué);2014年

2 張文汐;新浪微博熱門話題的特點(diǎn)與規(guī)律研究[D];遼寧大學(xué);2014年

3 熊會會;基于復(fù)雜網(wǎng)絡(luò)的微博客信息傳播機(jī)制研究[D];華南理工大學(xué);2012年

4 孫勝平;中文微博客熱點(diǎn)話題檢測與跟蹤技術(shù)研究[D];北京交通大學(xué);2011年



本文編號:1469762

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1469762.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c1ec3***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com