天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

微博健康熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2018-12-12 20:21
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,微博作為Web3.0新興起的一類開(kāi)放互聯(lián)網(wǎng)社交平臺(tái),憑借其使用方便、信息傳播速度快、平臺(tái)開(kāi)放性以及交互性強(qiáng)等優(yōu)點(diǎn),成為備受廣大用戶喜愛(ài)的分享、獲取以及傳播信息的重要平臺(tái)。微博上每天都會(huì)產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)蘊(yùn)含著豐富的元數(shù)據(jù)信息。目前,傳統(tǒng)的話題發(fā)現(xiàn)模型及文本聚類技術(shù)已經(jīng)被廣泛應(yīng)用于各個(gè)領(lǐng)域,并取得了不錯(cuò)的成果。針對(duì)微博短文本數(shù)據(jù),傳統(tǒng)的話題發(fā)現(xiàn)方法仍然存在著很大的局限性,給微博熱點(diǎn)話題發(fā)現(xiàn)帶來(lái)了新的挑戰(zhàn)。因此,如何準(zhǔn)確快速的從海量微博數(shù)據(jù)中獲取熱點(diǎn)話題信息并將其及時(shí)展示給廣大用戶,是微博話題發(fā)現(xiàn)技術(shù)亟待解決的問(wèn)題;谝陨涎芯勘尘,本文結(jié)合微博的特點(diǎn),改進(jìn)傳統(tǒng)的話題發(fā)現(xiàn)模型以及文本聚類算法,提出了一種基于VSM模型和MLDA模型相結(jié)合的微博話題發(fā)現(xiàn)算法,在此基礎(chǔ)上設(shè)計(jì)了微博健康話題發(fā)現(xiàn)系統(tǒng)。主要工作內(nèi)容如下:首先,采用微博平臺(tái)開(kāi)放API接口和網(wǎng)絡(luò)爬蟲(chóng)技術(shù),分別對(duì)微博用戶信息和微博內(nèi)容兩方面數(shù)據(jù)進(jìn)行爬取,通過(guò)數(shù)據(jù)去噪、文本分詞等操作對(duì)微博文本數(shù)據(jù)進(jìn)行預(yù)處理;其次,利用VSM模型和MLDA模型對(duì)微博文本數(shù)據(jù)進(jìn)行聯(lián)合建模,構(gòu)造微博文本的特征向量,實(shí)現(xiàn)微博文本相似度的聯(lián)合計(jì)算。再次,采用改進(jìn)傳統(tǒng)的Single-pass算法和凝聚式層次聚類算法,對(duì)微博文數(shù)據(jù)進(jìn)行二次聚類,實(shí)現(xiàn)微博熱點(diǎn)話題的抽取以及話題熱度的計(jì)算與排序。最后,通過(guò)多方面實(shí)驗(yàn)驗(yàn)證與分析證明了系統(tǒng)有效性和準(zhǔn)確性。
[Abstract]:With the continuous development of Internet technology, Weibo, as a new type of open Internet social platform of Web3.0, has the advantages of convenient use, fast information dissemination, open and interactive platform, etc. It has become an important platform for sharing, obtaining and disseminating information. Weibo produces a lot of data every day, which contains abundant metadata information. At present, traditional topic discovery models and text clustering techniques have been widely used in various fields, and have achieved good results. In view of Weibo's short text, the traditional method of topic discovery still has great limitations, which brings new challenges to Weibo's hot topic discovery. Therefore, how to accurately and quickly obtain hot topic information from mass Weibo data and display it to the majority of users in time is a problem to be solved urgently by Weibo topic discovery technology. Based on the above research background, this paper combines Weibo's characteristics, improves the traditional topic discovery model and text clustering algorithm, and puts forward a topic discovery algorithm based on the combination of VSM model and MLDA model. On this basis, Weibo health topic discovery system is designed. The main work contents are as follows: firstly, by using Weibo platform open API interface and network crawler technology, we crawled the data in two aspects, the user information of Weibo and the content of Weibo, respectively, and removed the noise through the data. Text segmentation and other operations to pre-process Weibo text data; Secondly, using VSM model and MLDA model, the text data of Weibo are modeled jointly, and then the feature vector is constructed to realize the joint calculation of the similarity between the two texts. Thirdly, using the improved traditional Single-pass algorithm and the condensed hierarchical clustering algorithm, the Weibo text data are clustered twice to realize the hot topic extraction and the calculation and sorting of topic heat. Finally, the validity and accuracy of the system are proved by many experiments.
【學(xué)位授予單位】:西安理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.1;TP393.092

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 沈金萍;;第39次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》發(fā)布我國(guó)網(wǎng)民達(dá)7.3億[J];傳媒;2017年03期

2 仇麗青;陳卓艷;丁長(zhǎng)青;劉海燕;;基于改進(jìn)LDA主題模型的社會(huì)網(wǎng)絡(luò)話題發(fā)現(xiàn)算法iMLDA[J];情報(bào)科學(xué);2016年09期

3 彭雨龍;;基于VSM和LDA模型相結(jié)合的新聞文本分類研究[J];山東工業(yè)技術(shù);2016年06期

4 蔣玉婷;;Web數(shù)據(jù)挖掘及其在微博話題檢測(cè)中的應(yīng)用研究[J];現(xiàn)代電子技術(shù);2016年03期

5 林萌;羅森林;賈叢飛;韓磊;原玉嬌;潘麗敏;;融合句義結(jié)構(gòu)模型的微博話題摘要算法[J];浙江大學(xué)學(xué)報(bào)(工學(xué)版);2015年12期

6 鐘明翔;唐晉韜;謝松縣;王挺;;一種基于動(dòng)態(tài)網(wǎng)頁(yè)解析的微博數(shù)據(jù)抓取方法[J];艦船電子工程;2015年10期

7 陳晉音;何輝豪;;基于密度和混合距離度量方法的混合屬性數(shù)據(jù)聚類研究[J];控制理論與應(yīng)用;2015年08期

8 葛文鎮(zhèn);;基于LDA的文本特征選擇算法研究與探討[J];計(jì)算機(jī)光盤(pán)軟件與應(yīng)用;2015年03期

9 王鵬;高鋮;陳曉美;;基于LDA模型的文本聚類研究[J];情報(bào)科學(xué);2015年01期

10 馬雯雯;魏文晗;鄧一貴;;基于隱含語(yǔ)義分析的微博話題發(fā)現(xiàn)方法[J];計(jì)算機(jī)工程與應(yīng)用;2014年01期

相關(guān)博士學(xué)位論文 前1條

1 唐東明;聚類分析及其應(yīng)用研究[D];電子科技大學(xué);2010年

相關(guān)碩士學(xué)位論文 前10條

1 許笛;社區(qū)問(wèn)答系統(tǒng)中問(wèn)句推薦技術(shù)的研究[D];大連理工大學(xué);2015年

2 孫曰昕;面向微博的熱點(diǎn)話題發(fā)現(xiàn)與追蹤研究[D];西北師范大學(xué);2014年

3 彭利斌;微博熱點(diǎn)話題發(fā)現(xiàn)與話題演化的研究[D];桂林電子科技大學(xué);2014年

4 李妍;微博數(shù)據(jù)預(yù)處理及話題檢測(cè)方法研究[D];河北師范大學(xué);2014年

5 蘇圣瞳;微博熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2014年

6 詹勇;基于主題模型和混合模型的微博客交叉話題發(fā)現(xiàn)研究[D];西南交通大學(xué);2013年

7 黃波;基于向量空間模型和LDA模型相結(jié)合的微博客話題發(fā)現(xiàn)算法研究[D];西南交通大學(xué);2012年

8 羅武;農(nóng)業(yè)知識(shí)庫(kù)知識(shí)錄入系統(tǒng)關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];湖南農(nóng)業(yè)大學(xué);2011年

9 孫勝平;中文微博客熱點(diǎn)話題檢測(cè)與跟蹤技術(shù)研究[D];北京交通大學(xué);2011年

10 張靜;基于微博的網(wǎng)絡(luò)熱點(diǎn)發(fā)現(xiàn)模型及平臺(tái)研究[D];華中科技大學(xué);2010年

,

本文編號(hào):2375190

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2375190.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶beb0d***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com