天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

微博健康熱點話題發(fā)現(xiàn)系統(tǒng)的設計與實現(xiàn)

發(fā)布時間:2018-12-12 20:21
【摘要】:隨著互聯(lián)網(wǎng)技術的不斷發(fā)展,微博作為Web3.0新興起的一類開放互聯(lián)網(wǎng)社交平臺,憑借其使用方便、信息傳播速度快、平臺開放性以及交互性強等優(yōu)點,成為備受廣大用戶喜愛的分享、獲取以及傳播信息的重要平臺。微博上每天都會產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)蘊含著豐富的元數(shù)據(jù)信息。目前,傳統(tǒng)的話題發(fā)現(xiàn)模型及文本聚類技術已經(jīng)被廣泛應用于各個領域,并取得了不錯的成果。針對微博短文本數(shù)據(jù),傳統(tǒng)的話題發(fā)現(xiàn)方法仍然存在著很大的局限性,給微博熱點話題發(fā)現(xiàn)帶來了新的挑戰(zhàn)。因此,如何準確快速的從海量微博數(shù)據(jù)中獲取熱點話題信息并將其及時展示給廣大用戶,是微博話題發(fā)現(xiàn)技術亟待解決的問題。基于以上研究背景,本文結(jié)合微博的特點,改進傳統(tǒng)的話題發(fā)現(xiàn)模型以及文本聚類算法,提出了一種基于VSM模型和MLDA模型相結(jié)合的微博話題發(fā)現(xiàn)算法,在此基礎上設計了微博健康話題發(fā)現(xiàn)系統(tǒng)。主要工作內(nèi)容如下:首先,采用微博平臺開放API接口和網(wǎng)絡爬蟲技術,分別對微博用戶信息和微博內(nèi)容兩方面數(shù)據(jù)進行爬取,通過數(shù)據(jù)去噪、文本分詞等操作對微博文本數(shù)據(jù)進行預處理;其次,利用VSM模型和MLDA模型對微博文本數(shù)據(jù)進行聯(lián)合建模,構(gòu)造微博文本的特征向量,實現(xiàn)微博文本相似度的聯(lián)合計算。再次,采用改進傳統(tǒng)的Single-pass算法和凝聚式層次聚類算法,對微博文數(shù)據(jù)進行二次聚類,實現(xiàn)微博熱點話題的抽取以及話題熱度的計算與排序。最后,通過多方面實驗驗證與分析證明了系統(tǒng)有效性和準確性。
[Abstract]:With the continuous development of Internet technology, Weibo, as a new type of open Internet social platform of Web3.0, has the advantages of convenient use, fast information dissemination, open and interactive platform, etc. It has become an important platform for sharing, obtaining and disseminating information. Weibo produces a lot of data every day, which contains abundant metadata information. At present, traditional topic discovery models and text clustering techniques have been widely used in various fields, and have achieved good results. In view of Weibo's short text, the traditional method of topic discovery still has great limitations, which brings new challenges to Weibo's hot topic discovery. Therefore, how to accurately and quickly obtain hot topic information from mass Weibo data and display it to the majority of users in time is a problem to be solved urgently by Weibo topic discovery technology. Based on the above research background, this paper combines Weibo's characteristics, improves the traditional topic discovery model and text clustering algorithm, and puts forward a topic discovery algorithm based on the combination of VSM model and MLDA model. On this basis, Weibo health topic discovery system is designed. The main work contents are as follows: firstly, by using Weibo platform open API interface and network crawler technology, we crawled the data in two aspects, the user information of Weibo and the content of Weibo, respectively, and removed the noise through the data. Text segmentation and other operations to pre-process Weibo text data; Secondly, using VSM model and MLDA model, the text data of Weibo are modeled jointly, and then the feature vector is constructed to realize the joint calculation of the similarity between the two texts. Thirdly, using the improved traditional Single-pass algorithm and the condensed hierarchical clustering algorithm, the Weibo text data are clustered twice to realize the hot topic extraction and the calculation and sorting of topic heat. Finally, the validity and accuracy of the system are proved by many experiments.
【學位授予單位】:西安理工大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.1;TP393.092

【參考文獻】

相關期刊論文 前10條

1 沈金萍;;第39次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》發(fā)布我國網(wǎng)民達7.3億[J];傳媒;2017年03期

2 仇麗青;陳卓艷;丁長青;劉海燕;;基于改進LDA主題模型的社會網(wǎng)絡話題發(fā)現(xiàn)算法iMLDA[J];情報科學;2016年09期

3 彭雨龍;;基于VSM和LDA模型相結(jié)合的新聞文本分類研究[J];山東工業(yè)技術;2016年06期

4 蔣玉婷;;Web數(shù)據(jù)挖掘及其在微博話題檢測中的應用研究[J];現(xiàn)代電子技術;2016年03期

5 林萌;羅森林;賈叢飛;韓磊;原玉嬌;潘麗敏;;融合句義結(jié)構(gòu)模型的微博話題摘要算法[J];浙江大學學報(工學版);2015年12期

6 鐘明翔;唐晉韜;謝松縣;王挺;;一種基于動態(tài)網(wǎng)頁解析的微博數(shù)據(jù)抓取方法[J];艦船電子工程;2015年10期

7 陳晉音;何輝豪;;基于密度和混合距離度量方法的混合屬性數(shù)據(jù)聚類研究[J];控制理論與應用;2015年08期

8 葛文鎮(zhèn);;基于LDA的文本特征選擇算法研究與探討[J];計算機光盤軟件與應用;2015年03期

9 王鵬;高鋮;陳曉美;;基于LDA模型的文本聚類研究[J];情報科學;2015年01期

10 馬雯雯;魏文晗;鄧一貴;;基于隱含語義分析的微博話題發(fā)現(xiàn)方法[J];計算機工程與應用;2014年01期

相關博士學位論文 前1條

1 唐東明;聚類分析及其應用研究[D];電子科技大學;2010年

相關碩士學位論文 前10條

1 許笛;社區(qū)問答系統(tǒng)中問句推薦技術的研究[D];大連理工大學;2015年

2 孫曰昕;面向微博的熱點話題發(fā)現(xiàn)與追蹤研究[D];西北師范大學;2014年

3 彭利斌;微博熱點話題發(fā)現(xiàn)與話題演化的研究[D];桂林電子科技大學;2014年

4 李妍;微博數(shù)據(jù)預處理及話題檢測方法研究[D];河北師范大學;2014年

5 蘇圣瞳;微博熱點話題發(fā)現(xiàn)系統(tǒng)的設計與實現(xiàn)[D];復旦大學;2014年

6 詹勇;基于主題模型和混合模型的微博客交叉話題發(fā)現(xiàn)研究[D];西南交通大學;2013年

7 黃波;基于向量空間模型和LDA模型相結(jié)合的微博客話題發(fā)現(xiàn)算法研究[D];西南交通大學;2012年

8 羅武;農(nóng)業(yè)知識庫知識錄入系統(tǒng)關鍵技術研究與實現(xiàn)[D];湖南農(nóng)業(yè)大學;2011年

9 孫勝平;中文微博客熱點話題檢測與跟蹤技術研究[D];北京交通大學;2011年

10 張靜;基于微博的網(wǎng)絡熱點發(fā)現(xiàn)模型及平臺研究[D];華中科技大學;2010年

,

本文編號:2375190

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2375190.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶beb0d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
日本二区三区在线播放| 久久99夜色精品噜噜亚洲av | 国产内射一级二级三级| 日本熟妇熟女久久综合| 99久久国产亚洲综合精品| 成人国产一区二区三区精品麻豆| 亚洲天堂国产精品久久精品| 麻豆精品在线一区二区三区| 国产精品亚洲一区二区| 久久国产成人精品国产成人亚洲 | 亚洲国产天堂av成人在线播放| 欧美精品一区二区三区白虎| 国产一区二区精品丝袜| 亚洲免费视频中文字幕在线观看| 91人妻人人澡人人人人精品| 中文字幕高清免费日韩视频| 熟女乱一区二区三区四区| 亚洲av日韩一区二区三区四区 | 四季精品人妻av一区二区三区| 又色又爽又无遮挡的视频| 美女极度色诱视频在线观看| 亚洲精品一区三区三区| 日韩中文高清在线专区| 日韩精品小视频在线观看| 日本婷婷色大香蕉视频在线观看| 丝袜诱惑一区二区三区| 男女午夜福利院在线观看| 人妻久久一区二区三区精品99| 又色又爽又黄的三级视频| 免费在线观看欧美喷水黄片 | 国产高清一区二区不卡| 久热在线视频这里只有精品| 日韩精品一级一区二区| 精品欧美日韩一二三区| 国产水滴盗摄一区二区| 欧美色欧美亚洲日在线| 欧美整片精品日韩综合| 国产亚洲成av人在线观看| 午夜国产福利在线播放| 美女被后入视频在线观看| 国产又大又猛又粗又长又爽|