云計算環(huán)境下基于代表點增量層次密度聚類的微博事件檢測及跟蹤
本文選題:微博 切入點:事件檢測 出處:《計算機應(yīng)用》2013年12期 論文類型:期刊論文
【摘要】:為從微博服務(wù)平臺產(chǎn)生的大量實時信息中抽取新聞事件,提出了一套完整的云計算環(huán)境下的微博事件檢測跟蹤算法。首先采用新的基于微博轉(zhuǎn)發(fā)數(shù)和評論數(shù)的權(quán)值計算方法,將微博文本表示成向量空間模型;再利用基于代表點的增量層次密度聚類(RIHDBSCAN)算法抽取關(guān)鍵詞,最終實現(xiàn)新聞事件的檢測和跟蹤。針對單一節(jié)點無法快速高效地處理海量微博數(shù)據(jù)的問題,將算法部署在云計算平臺Hadoop上。通過在新浪微博平臺上獲取的真實數(shù)據(jù)進行實驗,結(jié)果表明,所提出的權(quán)值計算方法比TF-IDF和UF-ITUF有更高的性能,并且云框架的使用較好地提高了處理速度,適合用于海量數(shù)據(jù)的分析和挖掘。
[Abstract]:In order to extract news events from a large amount of real-time information generated from Weibo's service platform, a complete algorithm for the detection and tracking of Weibo events in cloud computing environment is proposed. Firstly, a new method of weight calculation based on Weibo forwarding number and comment number is adopted. Weibo text is represented as vector space model, and then the RIHDBSCAN-based incremental hierarchical density clustering algorithm based on representative points is used to extract keywords. Finally, the detection and tracking of news events will be realized. Aiming at the problem that a single node can not deal with mass Weibo data quickly and efficiently, the algorithm will be deployed on the cloud computing platform Hadoop. The results show that the proposed method has higher performance than TF-IDF and UF-ITUF, and the use of cloud framework can improve the processing speed and is suitable for mass data analysis and mining.
【作者單位】: 信息物理社會可信服務(wù)計算教育部重點實驗室(重慶大學);重慶大學計算機學院;
【基金】:國家自然科學基金資助項目(61103114) 國家科技支撐計劃項目(2012BAH19F00) 中央高校基本科研業(yè)務(wù)基金資助項目(106112013CDJZR185502) 重慶市高等教育教學改革研究重點項目(112023)
【分類號】:TP393.092
【參考文獻】
相關(guān)期刊論文 前4條
1 蔡穎琨,謝昆青,馬修軍;屏蔽了輸入?yún)?shù)敏感性的DBSCAN改進算法[J];北京大學學報(自然科學版);2004年03期
2 倪維健;黃亞樓;李飛;劉賞;;一種基于加權(quán)多代表點的層次聚類算法[J];計算機科學;2005年05期
3 鄭斐然;苗奪謙;張志飛;高燦;;一種中文微博新聞話題檢測的方法[J];計算機科學;2012年01期
4 馬帥,王騰蛟,唐世渭,楊冬青,高軍;一種基于參考點和密度的快速聚類算法[J];軟件學報;2003年06期
【共引文獻】
相關(guān)期刊論文 前10條
1 李玉擰;;基于最小樹切割的自適應(yīng)聚類方法[J];北京工業(yè)大學學報;2007年03期
2 左國才;周榮華;符開耀;;基于DBSCAN算法的電信客戶分類的應(yīng)用研究[J];北京聯(lián)合大學學報(自然科學版);2012年03期
3 王安志;李明東;李超;;各種聚類算法及改進算法的研究[J];電腦知識與技術(shù);2008年25期
4 李雄飛;孫濤;武佳薇;;對象間矢量感應(yīng)聚類算法[J];電子學報;2011年06期
5 陳宇;;聚類算法研究[J];福建電腦;2007年07期
6 陶運信;皮德常;;一種快速移動對象軌道聚類算法[J];高技術(shù)通訊;2010年01期
7 潘大慶;;基于層次聚類的微博敏感話題檢測算法研究[J];廣西民族大學學報(自然科學版);2012年04期
8 史科蕾;曹軍杰;;淺析科技項目查重方法的研究與現(xiàn)狀[J];中國科教創(chuàng)新導(dǎo)刊;2013年13期
9 徐海嘯;麻婧;吳旗;;DBSCAN算法在高性能計算中心用戶分類的應(yīng)用研究[J];吉林大學學報(信息科學版);2013年05期
10 王曉燕;;常用的聚類算法及改進算法的研究[J];辦公自動化;2013年18期
相關(guān)會議論文 前7條
1 ;A Hybrid Clustering Algorithm Based on Grid Density and Rough Sets[A];第二十七屆中國控制會議論文集[C];2008年
2 于健;陳子軍;李霞;李煒;;一種新的多密度聚類算法[A];2007北京地區(qū)高校研究生學術(shù)交流會通信與信息技術(shù)會議論文集(上冊)[C];2008年
3 劉彤;孫永香;張振洪;;一種有效的基于密度和層次的聚類算法[A];2007'儀表,,自動化及先進集成技術(shù)大會論文集(一)[C];2007年
4 康衛(wèi)鮮;葉德謙;;基于CURE的聚類算法研究[A];計算機技術(shù)與應(yīng)用進展·2007——全國第18屆計算機技術(shù)與應(yīng)用(CACIS)學術(shù)會議論文集[C];2007年
5 葛鵬程;李建中;張兆功;何震瀛;;一種基于勢能的快速聚類算法[A];第二十二屆中國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2005年
6 賴桃桃;馮少榮;張東站;;一種基于劃分和密度的快速聚類算法[A];第二十五屆中國數(shù)據(jù)庫學術(shù)會議論文集(一)[C];2008年
7 朱浩然;梁循;馬躍峰;紀陽;李啟東;馬超;;金融領(lǐng)域中文微博情感分析[A];第八屆(2013)中國管理學年會論文集(選編)[C];2013年
相關(guān)博士學位論文 前10條
1 魏建香;學科交叉知識發(fā)現(xiàn)及其可視化研究[D];南京大學;2010年
2 呂青;思維進化和支持向量機理論及其在煉焦配煤優(yōu)化中的應(yīng)用研究[D];太原理工大學;2011年
3 郁繼鋒;基于數(shù)據(jù)挖掘的Web應(yīng)用入侵異常檢測研究[D];華中科技大學;2011年
4 王莉;數(shù)據(jù)挖掘中聚類方法的研究[D];天津大學;2004年
5 季民;海洋漁業(yè)GIS時空數(shù)據(jù)組織與分析[D];山東科技大學;2004年
6 李潔;基于自然計算的模糊聚類新算法研究[D];西安電子科技大學;2004年
7 袁方;面向智能信息檢索的Web挖掘關(guān)鍵技術(shù)研究[D];東北大學;2006年
8 王天柱;變形物體碰撞檢測技術(shù)研究[D];吉林大學;2006年
9 張靜;基于粗糙集理論的數(shù)據(jù)挖掘算法研究[D];西北工業(yè)大學;2006年
10 馮永;基于計算智能的聚類技術(shù)及其應(yīng)用研究[D];重慶大學;2006年
相關(guān)碩士學位論文 前10條
1 李振;網(wǎng)絡(luò)輿情預(yù)測關(guān)鍵技術(shù)研究[D];鄭州大學;2010年
2 張進;我國施工勞動生產(chǎn)率管理研究[D];大連理工大學;2010年
3 楊建紅;基于密度的聚類算法研究[D];長春工業(yè)大學;2010年
4 劉繼勇;網(wǎng)絡(luò)輿情預(yù)警輔助決策支持系統(tǒng)模型及關(guān)鍵技術(shù)研究[D];石家莊經(jīng)濟學院;2010年
5 王小姣;聚類分析及其在Web日志挖掘中的應(yīng)用研究[D];山東師范大學;2011年
6 丁若堯;基于博客的網(wǎng)絡(luò)話題發(fā)現(xiàn)及追蹤的研究[D];北京交通大學;2011年
7 許芳芳;基于DBSCAN優(yōu)化算法的Web文本聚類研究[D];華東師范大學;2011年
8 康海源;基于密度和網(wǎng)格相結(jié)合的聚類算法及其在圖像分割中的應(yīng)用[D];中北大學;2011年
9 左浩;模糊聚類與粒子群算法在圖像分割中的應(yīng)用研究[D];江西理工大學;2011年
10 周方;面向智能信息檢索技術(shù)的Web挖掘關(guān)鍵技術(shù)的研究[D];內(nèi)蒙古農(nóng)業(yè)大學;2011年
【二級參考文獻】
相關(guān)期刊論文 前7條
1 周水庚,周傲英,曹晶;基于數(shù)據(jù)分區(qū)的DBSCAN算法[J];計算機研究與發(fā)展;2000年10期
2 周傲英,周水庚,曹晶,范曄,胡運發(fā);Approaches for Scaling DBSCAN Algorithm to Large Spatial Databases[J];Journal of Computer Science and Technology;2000年06期
3 洪宇;張宇;劉挺;李生;;話題檢測與跟蹤的評測及研究綜述[J];中文信息學報;2007年06期
4 曹鵬;李靜遠;滿彤;劉悅;程學旗;;Twitter中近似重復(fù)消息的判定方法研究[J];中文信息學報;2011年01期
5 周水庚,周傲英,金文,范曄,錢衛(wèi)寧;FDBSCAN:一種快速 DBSCAN算法(英文)[J];軟件學報;2000年06期
6 崔爭艷;;基于語義的微博短信息分類[J];現(xiàn)代計算機(專業(yè)版);2010年08期
7 蔡曉婷;;突發(fā)性事件中的微博客傳播[J];新聞愛好者;2010年11期
【相似文獻】
相關(guān)期刊論文 前10條
1 蔡構(gòu);胡欣薇;;云計算在網(wǎng)絡(luò)課程建設(shè)中的應(yīng)用探討[J];電子商務(wù);2010年03期
2 徐格靜;丁函;王毅;;云計算與網(wǎng)格計算分析比較[J];今日科苑;2010年24期
3 王威;;中小企業(yè)如何加強云安全措施[J];企業(yè)家天地(理論版);2011年06期
4 趙夢龍;龍士工;劉春英;;基于HITS算法的云化模型[J];微計算機信息;2009年30期
5 崔文;王國勇;;基于校園網(wǎng)的云計算應(yīng)用初探[J];微計算機信息;2010年18期
6 劉金;;Web服務(wù)在網(wǎng)格和云中的應(yīng)用[J];湖南電力;2010年03期
7 周鵬;李英;李志蜀;;大學計算機網(wǎng)絡(luò)課程教學模式探析[J];天中學刊;2010年05期
8 楊斌;劉海濤;;云計算對移動互聯(lián)網(wǎng)發(fā)展的助推作用[J];電信工程技術(shù)與標準化;2010年12期
9 高宏卿;翟炎杰;郭文鷺;;基于云計算的反垃圾郵件系統(tǒng)研究[J];河南師范大學學報(自然科學版);2011年02期
10 俞華鋒;;基于效益函數(shù)的云計算調(diào)度算法的研究[J];科技信息;2011年03期
相關(guān)會議論文 前10條
1 崔海東;;一種業(yè)務(wù)網(wǎng)架構(gòu)的網(wǎng)格云模型[A];中國通信學會信息通信網(wǎng)絡(luò)技術(shù)委員會2009年年會論文集(上冊)[C];2009年
2 周相兵;馬洪江;楊興江;;一種基于云計算的語義Web服務(wù)組合模型研究[A];2009年全國開放式分布與并行計算機學術(shù)會議論文集(上冊)[C];2009年
3 田s
本文編號:1595086
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1595086.html