天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于改進(jìn)CURE算法的微博熱點(diǎn)話題發(fā)現(xiàn)

發(fā)布時(shí)間:2018-11-10 22:52
【摘要】:由于微博平臺(tái)的信息量大,為對(duì)博文熱點(diǎn)進(jìn)行準(zhǔn)確識(shí)別,本文提出了一種基于經(jīng)典CURE聚類算法的改進(jìn)算法來發(fā)現(xiàn)微博熱點(diǎn)話題。本文選取了20391條中文微博作為樣本數(shù)據(jù)集,通過將博文稀疏矩陣化達(dá)到將高維數(shù)據(jù)降維的效果,很大程度上提高了計(jì)算的精度和速度。從選取CURE層次聚類的代表點(diǎn)出發(fā),將代表點(diǎn)轉(zhuǎn)換為博文種子集,同時(shí)調(diào)節(jié)收縮因子,加大排除博文的異常點(diǎn),利用CURE層次聚類算法的思想設(shè)計(jì)了改進(jìn)的CURE算法來發(fā)現(xiàn)微博熱點(diǎn)話題,通過實(shí)驗(yàn)發(fā)現(xiàn)改進(jìn)CURE層次聚類算法能夠?qū)?shù)據(jù)集中的74.65%作為孤立點(diǎn),更好的提高了算法的精度,同時(shí)準(zhǔn)確地抓住長尾效應(yīng)的"頭部",能夠更加直觀的發(fā)現(xiàn)微博熱點(diǎn)話題。
[Abstract]:Due to the large amount of information on Weibo platform, an improved algorithm based on classical CURE clustering algorithm is proposed to identify hot spots in blog posts. In this paper, 20391 Chinese characters Weibo are selected as sample data sets, and the accuracy and speed of calculation are greatly improved by reducing the dimension of high-dimensional data by thinning matrix. Based on the selection of representative points of CURE hierarchical clustering, the representative points are transformed into the seed set of blog posts, and the contraction factors are adjusted, and the abnormal points of eliminating blog posts are increased. Using the idea of CURE hierarchical clustering algorithm, an improved CURE algorithm is designed to find hot topics of Weibo. It is found through experiments that the improved CURE hierarchical clustering algorithm can take 74.65% of the data set as the outlier, which improves the accuracy of the algorithm better. At the same time, accurately grasp the long tail effect of the "head", can more intuitively find Weibo hot topic.
【作者單位】: 常州大學(xué)信息科學(xué)與工程學(xué)院;
【基金】:國家自然科學(xué)基金項(xiàng)目(61272367) 江蘇省科技廳項(xiàng)目(BZ2010021) 江蘇省研究生培養(yǎng)創(chuàng)新工程項(xiàng)目(20120515)
【分類號(hào)】:TP393.092

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 姚遠(yuǎn);劉鵬;王輝;笱程成;;基于稀疏矩陣存儲(chǔ)的狀態(tài)表壓縮算法[J];計(jì)算機(jī)應(yīng)用;2010年08期

2 李永昊;劉云;;網(wǎng)絡(luò)話題活性模型的仿真與分析[J];系統(tǒng)仿真學(xué)報(bào);2008年22期

3 王皓;李祥學(xué);鄭東;;基于稀疏矩陣的網(wǎng)絡(luò)編碼安全存儲(chǔ)系統(tǒng)[J];信息安全與通信保密;2011年06期

4 倪現(xiàn)君;;結(jié)構(gòu)挖掘中web有向圖模型的改進(jìn)算法[J];微計(jì)算機(jī)信息;2007年36期

5 賀海武;王宇;;GMRES算法在新型輕量級(jí)網(wǎng)格平臺(tái)XtremWeb上的實(shí)現(xiàn)[J];微電子學(xué)與計(jì)算機(jī);2006年09期

6 張媛媛;侯華;程軍;趙宇輝;;一種有限元網(wǎng)格節(jié)點(diǎn)編號(hào)的優(yōu)化算法[J];鑄造技術(shù);2007年04期

7 劉慧君;朱慶生;張程;周明強(qiáng);;基于用戶興趣的Web日志挖掘算法[J];計(jì)算機(jī)集成制造系統(tǒng);2009年11期

8 劉葵;;基于鏈接聚類算法分析Blog網(wǎng)頁[J];制造業(yè)自動(dòng)化;2010年09期

9 ;[J];;年期

10 ;[J];;年期

相關(guān)會(huì)議論文 前2條

1 樊景超;周國民;周義桃;;基于SDD改進(jìn)算法的中文農(nóng)業(yè)搜索引擎的研究[A];農(nóng)業(yè)工程科技創(chuàng)新與建設(shè)現(xiàn)代農(nóng)業(yè)——2005年中國農(nóng)業(yè)工程學(xué)會(huì)學(xué)術(shù)年會(huì)論文集第三分冊[C];2005年

2 賀海武;王宇;;GMRES算法在新型輕量級(jí)網(wǎng)格平臺(tái)XtremWeb上的實(shí)現(xiàn)[A];2006年全國開放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集(一)[C];2006年

相關(guān)碩士學(xué)位論文 前10條

1 羅亞平;基于用戶瀏覽行為的網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)模型研究[D];北京郵電大學(xué);2008年

2 周瑞波;網(wǎng)絡(luò)研究中的大稀疏矩陣求解和通信流量對(duì)蠕蟲傳播推測的影響[D];吉林大學(xué);2008年

3 時(shí)達(dá)明;Blog熱點(diǎn)話題發(fā)現(xiàn)及其作者聲譽(yù)度研究[D];大連理工大學(xué);2007年

4 黃振龍;關(guān)于微博熱點(diǎn)的WEB挖掘研究[D];華東師范大學(xué);2013年

5 李卉;基于微博的網(wǎng)絡(luò)突發(fā)事件分析研究[D];北京郵電大學(xué);2013年

6 任曉霞;BBS輿情智能分析系統(tǒng)研究與實(shí)現(xiàn)[D];沈陽理工大學(xué);2011年

7 秦宏宇;網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)相關(guān)技術(shù)研究[D];哈爾濱工程大學(xué);2010年

8 李永道;微博熱點(diǎn)話題發(fā)現(xiàn)方法研究[D];南京師范大學(xué);2013年

9 鄂華君;基于P2P的網(wǎng)絡(luò)編碼的應(yīng)用與分析[D];西安電子科技大學(xué);2010年

10 李純;P2P網(wǎng)絡(luò)中基于內(nèi)容的音樂信息檢索[D];大連理工大學(xué);2010年

,

本文編號(hào):2323794

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2323794.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶37fe7***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com