天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于中文微博的熱門話題提取與追蹤

發(fā)布時間:2018-08-11 19:55
【摘要】:自微博被推出以來,就憑借其廣泛的參與性,改變了人們獲取新聞和了解時事的方式。近年來的許多突發(fā)新聞和熱門話題都是通過微博平臺率先發(fā)布出來的,其傳播速度和范圍都是傳統(tǒng)媒介所不能比擬的。目前,僅僅是新浪微博每日的發(fā)帖數(shù)量就達到了數(shù)億條,這些海量的數(shù)據(jù)涵蓋了人們生活的方方面面,包含了很多有價值的話題信息,若是能正確提取這些熱點話題,對于了解最新的輿論熱點,掌握輿論動向都是有很大意義的。然而,在面對這種量級的數(shù)據(jù)時,僅憑人工來進行處理是遠遠不夠的,加之微博帖子都是短文本,具有很嚴重的數(shù)據(jù)稀疏性,一些傳統(tǒng)的話題提取與追蹤算法也不能直接用來進行處理。本文針對這個現(xiàn)象,對微博熱門話題提取和追蹤進行了研究,具體工作主要有:1.本文提出了一個改進的話題提取模型MF-LDA(Microblog Features Latent Dirichlet Allocation)來提取微博中的熱門話題,該模型改進了傳統(tǒng)的LDA(Latent Dirichlet Allocation)模型,通過結(jié)合微博特有的五種特征:贊數(shù)、評論數(shù)、轉(zhuǎn)發(fā)數(shù)、發(fā)帖時間和用戶權威來更好地提取出熱門話題。其中,贊數(shù)、轉(zhuǎn)發(fā)數(shù)和評論數(shù)用來計算微博的關注度,用戶權威用來計算微博的權威值,然后將微博按照發(fā)帖時間劃分到對應的時間窗口內(nèi),再統(tǒng)計出每個時間窗口中的微博帖子的詞頻。將計算出的特征值表示成特征向量,并加入到MF-LDA模型中進行吉布斯采樣,再通過不斷地迭代訓練,得到模型的最優(yōu)參數(shù),最后獲取到每個詞語的概率,概率越高表明這個詞語越有可能是個熱門話題詞。2.本文在對熱門話題進行追蹤時,主要是從結(jié)構(gòu)和內(nèi)容兩方面來追蹤話題的演變過程。對于話題結(jié)構(gòu)上的追蹤,本文首先構(gòu)建了熱門話題生命周期模型HTLCM(Hot Topic Life Cycle Model),并將話題的生命周期分為了五個階段:誕生期、成長期、成熟期、衰退期和消失期,通過計算話題在單位時間內(nèi)的話題數(shù)量、增長速度和新增率等特征來判斷話題現(xiàn)在處于的階段以及是否為一個候選熱門話題,從而就可以了解到該話題的整體發(fā)展情況。對于話題內(nèi)容上的追蹤,本文將MF-LDA模型和HTLCM模型進行整合,提出了HTT(Hot Topic Tracking Algorithm)算法,該算法通過加入時間窗口,將HTLCM模型標記的候選熱門話題按照發(fā)布時間分配到對應的時間窗口中,然后將每個時間窗口的數(shù)據(jù)輸入到MF-LDA模型中,從而就可以得到該熱門話題在每個時間窗口中與之最相關的關鍵詞,通過分析關鍵詞的變化,就可以追蹤到話題在內(nèi)容上的變化。最后,本文為了驗證提出模型和算法的有效性,在真實的數(shù)據(jù)集上進行了相關實驗與分析。實驗結(jié)果表明MF-LDA模型在同等條件下的Perplexity(困惑度)低于LDA模型,但覆蓋率高于LDA模型。本文提出的HTLCM模型和HTT算法不僅能對熱門話題進行持續(xù)追蹤,還能有效的發(fā)現(xiàn)潛在的熱門話題。最終實驗結(jié)果顯示,本文提出的模型和方法在熱門話題提取和追蹤方面具備良好的效果和實踐意義。
[Abstract]:Since its launch, Weibo has changed the way people get news and get to know current events with its wide participation. In recent years, many breaking news and hot topics have been released through the microblogging platform, and its speed and scope of transmission are incomparable with traditional media. At present, only Sina Weibo is daily. The number of Posts has reached hundreds of millions. These huge amounts of data cover all aspects of people's lives and contain a lot of valuable topic information. If we can extract these hot topics correctly, it is of great significance for us to understand the latest hot topics of public opinion and grasp the trend of public opinion. However, in the face of this magnitude of data, we only rely on people. It is far from enough to process microblog posts. In addition, microblog posts are short texts and have very serious data sparsity. Some traditional topic extraction and tracking algorithms can not be directly used for processing. An improved topic extraction model MF-LDA (Microblog Features Latent Dirichlet Allocation) is proposed to extract hot topics from microblogs. This model improves the traditional LDA (Latent Dirichlet Allocation) model by combining the five unique features of microblogs: praise, comment, forwarding, posting time and user authority. Among them, praise number, forwarding number and comment number are used to calculate the attention of micro-blog, user authority is used to calculate the authoritative value of micro-blog, and then divide the micro-blog into corresponding time windows according to the posting time, and then count the word frequency of micro-blog posts in each time window. The higher the probability, the more likely the word is to be a hot topic. 2. This paper traces the hot topic mainly from the structure and content aspects. To track the topic structure, this paper firstly constructs the Hot Topic Life Cycle Model (HTLCM), and divides the topic life cycle into five stages: birth, growth, maturity, decline and disappearance, by calculating the number of topics in a unit time, the growth rate. This paper integrates MF-LDA model with HTLCM model and proposes an HTT (Hot Topic Tracking Algorithm) algorithm for tracking the topic content. In the time window, the candidate hot topics marked by the HTLCM model are allocated to the corresponding time window according to the publishing time, and then the data of each time window is input into the MF-LDA model, so that the most relevant keywords of the hot topic in each time window can be obtained. By analyzing the changes of the keywords, the key words can be obtained. Finally, in order to verify the validity of the proposed model and algorithm, experiments and analysis are carried out on real data sets. The experimental results show that the Perplexity (perplexity) of MF-LDA model under the same conditions is lower than that of LDA model, but the coverage rate of MF-LDA model is higher than that of LDA model. The algorithm can not only keep track of hot topics, but also find potential hot topics effectively. The experimental results show that the proposed model and method have good effect and practical significance in Hot Topics Extraction and tracking.
【學位授予單位】:西華大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.1;TP393.092

【相似文獻】

相關期刊論文 前10條

1 林志;淺談熱門話題的采寫[J];新聞與寫作;1991年12期

2 董惠君;談熱門話題節(jié)目[J];視聽界;1995年04期

3 N.K-D.;;報界熱門話題[J];科技潮;1998年05期

4 楊旭東;熱門話題的談法分析──以“知識經(jīng)濟與高等教育”話題為例[J];現(xiàn)代傳播-北京廣播學院學報;1999年05期

5 王強;;構(gòu)建企業(yè)完整的知識體系[J];中國計算機用戶;2008年Z2期

6 阿昆;;企業(yè)重組話檔案[之一][J];北京檔案;2007年03期

7 金順榮;談思辨在熱門話題中的運用[J];新聞前哨;1999年02期

8 許浚;公司治理與企業(yè)發(fā)展[J];通信企業(yè)管理;2005年12期

9 ;知識經(jīng)濟——當今熱門話題(上)[J];電腦知識;1998年09期

10 張群;承諾什么[J];中國郵政;1997年07期

相關會議論文 前2條

1 胡萬地;姚偉;;構(gòu)建和諧企業(yè)之管見[A];落實科學發(fā)展觀 構(gòu)建和諧社會——第十一屆浙江省經(jīng)營管理大師風采及浙江省經(jīng)營管理研究會2005年年會論文匯編[C];2005年

2 劉春林;馬英姿;;思維向微觀延伸苦練內(nèi)功工作從基礎入手建立現(xiàn)代企業(yè)制度[A];現(xiàn)代企業(yè)運行機制與思維創(chuàng)新——企業(yè)運行機制與思維創(chuàng)新研討會議論文[C];2003年

相關重要報紙文章 前10條

1 沈瑩;“家庭話題研討”催生文明風尚[N];中國婦女報;2007年

2 本報記者 房琳琳 趙英淑;聚焦2006兩會熱門話題[N];科技日報;2006年

3 記者 毛麗萍;“全民創(chuàng)業(yè)”成武漢市政協(xié)全會熱門話題[N];人民政協(xié)報;2008年

4 記者 莫瑞寧;穩(wěn)定就業(yè) 共同擔當責任[N];西安日報;2009年

5 記者 劉云山;消費賬單成為熱門話題[N];中國郵政報;2005年

6 秦玉龍;3.15 消費維權再度成為熱門話題[N];平?jīng)鋈請?2006年

7 記者 陳楓 雷輝;政府要關心民工的“被窩”[N];南方日報;2010年

8 記者 趙鵬 張建高;熱門話題冷靜思考[N];新華每日電訊;2002年

9 本報記者 白槐;津津樂道 熱門話題[N];中國旅游報;2001年

10 ;IPv6、移動性和SIP成為熱門話題[N];人民郵電;2006年

相關碩士學位論文 前10條

1 葉永濤;基于中文微博的熱門話題提取與追蹤[D];西華大學;2017年

2 張萌;關于新浪微博熱門話題的分析研究[D];山東大學;2015年

3 陳靜;微博熱門話題及其線下行為轉(zhuǎn)化研究[D];華中科技大學;2015年

4 李新娟;微博熱門話題意義生成的符號學分析[D];西北師范大學;2012年

5 楊丹丹;論新浪微博熱門話題的傳播[D];東北師范大學;2012年

6 劉璐;面向微博熱門話題的主客觀分類方法研究[D];山西大學;2013年

7 張文汐;新浪微博熱門話題的特點與規(guī)律研究[D];遼寧大學;2014年

8 趙紅運;基于用戶活躍度和熱門話題的微博社區(qū)推薦技術研究[D];蘭州交通大學;2014年

9 張躍偉;基于微博客話題的熱點預測及傳播溯源[D];北京郵電大學;2014年

10 王征勇;微博平臺的熱門話題檢測[D];浙江大學;2013年

,

本文編號:2178078

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2178078.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶836a6***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
日韩在线欧美一区二区| 国产成人国产精品国产三级| 国产精品美女午夜福利| 亚洲男人天堂网在线视频| 五月婷婷亚洲综合一区| 亚洲乱妇熟女爽的高潮片| 邻居人妻人公侵犯人妻视频| 欧美中文字幕一区在线| 国产又大又硬又粗又湿| 日韩18一区二区三区| 少妇人妻精品一区二区三区| 亚洲精品成人综合色在线| 亚洲少妇一区二区三区懂色| 久久国内午夜福利直播| 91香蕉视频精品在线看| 青青操在线视频精品视频| 亚洲a级一区二区不卡| 亚洲国产av一二三区| 有坂深雪中文字幕亚洲中文| 91日韩欧美在线视频| 大香蕉网国产在线观看av| 欧美国产日产综合精品| 日韩精品日韩激情日韩综合| 免费播放一区二区三区四区| 男人和女人黄 色大片| 欧美精品女同一区二区| 日本成人三级在线播放| 99少妇偷拍视频在线| 91播色在线免费播放| 国产成人精品综合久久久看| 99久久精品午夜一区| 丰满人妻一二区二区三区av| 少妇激情在线免费观看| 久久热在线免费视频精品| 欧美一级片日韩一级片| 国产精欧美一区二区三区久久| 色婷婷亚洲精品综合网| 日本和亚洲的香蕉视频| 国产精品日韩精品最新| 久久成人国产欧美精品一区二区 | 日本加勒比系列在线播放|