基于改進(jìn)CURE算法的微博熱點(diǎn)話題發(fā)現(xiàn)
[Abstract]:Due to the large amount of information on Weibo platform, an improved algorithm based on classical CURE clustering algorithm is proposed to identify hot spots in blog posts. In this paper, 20391 Chinese characters Weibo are selected as sample data sets, and the accuracy and speed of calculation are greatly improved by reducing the dimension of high-dimensional data by thinning matrix. Based on the selection of representative points of CURE hierarchical clustering, the representative points are transformed into the seed set of blog posts, and the contraction factors are adjusted, and the abnormal points of eliminating blog posts are increased. Using the idea of CURE hierarchical clustering algorithm, an improved CURE algorithm is designed to find hot topics of Weibo. It is found through experiments that the improved CURE hierarchical clustering algorithm can take 74.65% of the data set as the outlier, which improves the accuracy of the algorithm better. At the same time, accurately grasp the long tail effect of the "head", can more intuitively find Weibo hot topic.
【作者單位】: 常州大學(xué)信息科學(xué)與工程學(xué)院;
【基金】:國家自然科學(xué)基金項(xiàng)目(61272367) 江蘇省科技廳項(xiàng)目(BZ2010021) 江蘇省研究生培養(yǎng)創(chuàng)新工程項(xiàng)目(20120515)
【分類號(hào)】:TP393.092
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 姚遠(yuǎn);劉鵬;王輝;笱程成;;基于稀疏矩陣存儲(chǔ)的狀態(tài)表壓縮算法[J];計(jì)算機(jī)應(yīng)用;2010年08期
2 李永昊;劉云;;網(wǎng)絡(luò)話題活性模型的仿真與分析[J];系統(tǒng)仿真學(xué)報(bào);2008年22期
3 王皓;李祥學(xué);鄭東;;基于稀疏矩陣的網(wǎng)絡(luò)編碼安全存儲(chǔ)系統(tǒng)[J];信息安全與通信保密;2011年06期
4 倪現(xiàn)君;;結(jié)構(gòu)挖掘中web有向圖模型的改進(jìn)算法[J];微計(jì)算機(jī)信息;2007年36期
5 賀海武;王宇;;GMRES算法在新型輕量級(jí)網(wǎng)格平臺(tái)XtremWeb上的實(shí)現(xiàn)[J];微電子學(xué)與計(jì)算機(jī);2006年09期
6 張媛媛;侯華;程軍;趙宇輝;;一種有限元網(wǎng)格節(jié)點(diǎn)編號(hào)的優(yōu)化算法[J];鑄造技術(shù);2007年04期
7 劉慧君;朱慶生;張程;周明強(qiáng);;基于用戶興趣的Web日志挖掘算法[J];計(jì)算機(jī)集成制造系統(tǒng);2009年11期
8 劉葵;;基于鏈接聚類算法分析Blog網(wǎng)頁[J];制造業(yè)自動(dòng)化;2010年09期
9 ;[J];;年期
10 ;[J];;年期
相關(guān)會(huì)議論文 前2條
1 樊景超;周國民;周義桃;;基于SDD改進(jìn)算法的中文農(nóng)業(yè)搜索引擎的研究[A];農(nóng)業(yè)工程科技創(chuàng)新與建設(shè)現(xiàn)代農(nóng)業(yè)——2005年中國農(nóng)業(yè)工程學(xué)會(huì)學(xué)術(shù)年會(huì)論文集第三分冊[C];2005年
2 賀海武;王宇;;GMRES算法在新型輕量級(jí)網(wǎng)格平臺(tái)XtremWeb上的實(shí)現(xiàn)[A];2006年全國開放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集(一)[C];2006年
相關(guān)碩士學(xué)位論文 前10條
1 羅亞平;基于用戶瀏覽行為的網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)模型研究[D];北京郵電大學(xué);2008年
2 周瑞波;網(wǎng)絡(luò)研究中的大稀疏矩陣求解和通信流量對(duì)蠕蟲傳播推測的影響[D];吉林大學(xué);2008年
3 時(shí)達(dá)明;Blog熱點(diǎn)話題發(fā)現(xiàn)及其作者聲譽(yù)度研究[D];大連理工大學(xué);2007年
4 黃振龍;關(guān)于微博熱點(diǎn)的WEB挖掘研究[D];華東師范大學(xué);2013年
5 李卉;基于微博的網(wǎng)絡(luò)突發(fā)事件分析研究[D];北京郵電大學(xué);2013年
6 任曉霞;BBS輿情智能分析系統(tǒng)研究與實(shí)現(xiàn)[D];沈陽理工大學(xué);2011年
7 秦宏宇;網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)相關(guān)技術(shù)研究[D];哈爾濱工程大學(xué);2010年
8 李永道;微博熱點(diǎn)話題發(fā)現(xiàn)方法研究[D];南京師范大學(xué);2013年
9 鄂華君;基于P2P的網(wǎng)絡(luò)編碼的應(yīng)用與分析[D];西安電子科技大學(xué);2010年
10 李純;P2P網(wǎng)絡(luò)中基于內(nèi)容的音樂信息檢索[D];大連理工大學(xué);2010年
,本文編號(hào):2323794
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2323794.html