微博健康熱點話題發(fā)現(xiàn)系統(tǒng)的設計與實現(xiàn)
[Abstract]:With the continuous development of Internet technology, Weibo, as a new type of open Internet social platform of Web3.0, has the advantages of convenient use, fast information dissemination, open and interactive platform, etc. It has become an important platform for sharing, obtaining and disseminating information. Weibo produces a lot of data every day, which contains abundant metadata information. At present, traditional topic discovery models and text clustering techniques have been widely used in various fields, and have achieved good results. In view of Weibo's short text, the traditional method of topic discovery still has great limitations, which brings new challenges to Weibo's hot topic discovery. Therefore, how to accurately and quickly obtain hot topic information from mass Weibo data and display it to the majority of users in time is a problem to be solved urgently by Weibo topic discovery technology. Based on the above research background, this paper combines Weibo's characteristics, improves the traditional topic discovery model and text clustering algorithm, and puts forward a topic discovery algorithm based on the combination of VSM model and MLDA model. On this basis, Weibo health topic discovery system is designed. The main work contents are as follows: firstly, by using Weibo platform open API interface and network crawler technology, we crawled the data in two aspects, the user information of Weibo and the content of Weibo, respectively, and removed the noise through the data. Text segmentation and other operations to pre-process Weibo text data; Secondly, using VSM model and MLDA model, the text data of Weibo are modeled jointly, and then the feature vector is constructed to realize the joint calculation of the similarity between the two texts. Thirdly, using the improved traditional Single-pass algorithm and the condensed hierarchical clustering algorithm, the Weibo text data are clustered twice to realize the hot topic extraction and the calculation and sorting of topic heat. Finally, the validity and accuracy of the system are proved by many experiments.
【學位授予單位】:西安理工大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.1;TP393.092
【參考文獻】
相關期刊論文 前10條
1 沈金萍;;第39次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》發(fā)布我國網(wǎng)民達7.3億[J];傳媒;2017年03期
2 仇麗青;陳卓艷;丁長青;劉海燕;;基于改進LDA主題模型的社會網(wǎng)絡話題發(fā)現(xiàn)算法iMLDA[J];情報科學;2016年09期
3 彭雨龍;;基于VSM和LDA模型相結(jié)合的新聞文本分類研究[J];山東工業(yè)技術;2016年06期
4 蔣玉婷;;Web數(shù)據(jù)挖掘及其在微博話題檢測中的應用研究[J];現(xiàn)代電子技術;2016年03期
5 林萌;羅森林;賈叢飛;韓磊;原玉嬌;潘麗敏;;融合句義結(jié)構(gòu)模型的微博話題摘要算法[J];浙江大學學報(工學版);2015年12期
6 鐘明翔;唐晉韜;謝松縣;王挺;;一種基于動態(tài)網(wǎng)頁解析的微博數(shù)據(jù)抓取方法[J];艦船電子工程;2015年10期
7 陳晉音;何輝豪;;基于密度和混合距離度量方法的混合屬性數(shù)據(jù)聚類研究[J];控制理論與應用;2015年08期
8 葛文鎮(zhèn);;基于LDA的文本特征選擇算法研究與探討[J];計算機光盤軟件與應用;2015年03期
9 王鵬;高鋮;陳曉美;;基于LDA模型的文本聚類研究[J];情報科學;2015年01期
10 馬雯雯;魏文晗;鄧一貴;;基于隱含語義分析的微博話題發(fā)現(xiàn)方法[J];計算機工程與應用;2014年01期
相關博士學位論文 前1條
1 唐東明;聚類分析及其應用研究[D];電子科技大學;2010年
相關碩士學位論文 前10條
1 許笛;社區(qū)問答系統(tǒng)中問句推薦技術的研究[D];大連理工大學;2015年
2 孫曰昕;面向微博的熱點話題發(fā)現(xiàn)與追蹤研究[D];西北師范大學;2014年
3 彭利斌;微博熱點話題發(fā)現(xiàn)與話題演化的研究[D];桂林電子科技大學;2014年
4 李妍;微博數(shù)據(jù)預處理及話題檢測方法研究[D];河北師范大學;2014年
5 蘇圣瞳;微博熱點話題發(fā)現(xiàn)系統(tǒng)的設計與實現(xiàn)[D];復旦大學;2014年
6 詹勇;基于主題模型和混合模型的微博客交叉話題發(fā)現(xiàn)研究[D];西南交通大學;2013年
7 黃波;基于向量空間模型和LDA模型相結(jié)合的微博客話題發(fā)現(xiàn)算法研究[D];西南交通大學;2012年
8 羅武;農(nóng)業(yè)知識庫知識錄入系統(tǒng)關鍵技術研究與實現(xiàn)[D];湖南農(nóng)業(yè)大學;2011年
9 孫勝平;中文微博客熱點話題檢測與跟蹤技術研究[D];北京交通大學;2011年
10 張靜;基于微博的網(wǎng)絡熱點發(fā)現(xiàn)模型及平臺研究[D];華中科技大學;2010年
,本文編號:2375190
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2375190.html