基于Hadoop的微博熱點話題發(fā)現(xiàn)的聚類算法
[Abstract]:Aiming at the problem that massive Weibo data can not find hot topics accurately and high speed, a text clustering algorithm for hot topic discovery based on Hadoop big data technology is proposed in this paper. Using the open source machine learning software library Mahout, under big data processing platform Hadoop to combine text clustering with hot topic, the K-means algorithm based on cosine distance measure is improved. By properly increasing or narrowing the cosine distance between different ranges, the cluster clustering degree and the separation degree between clusters of Weibo hot topic clustering results are improved. The experimental results show that the improved K-means algorithm with modified cosine distance reduces the intra-cluster distance by 2.72 and increases the distance between clusters by 4.12. Recall rate and accuracy rate also increased by 7% and 6% respectively, which effectively improved the clustering quality of Weibo hot topic discovery.
【作者單位】: 河北工業(yè)大學(xué)計算機科學(xué)與軟件學(xué)院;
【分類號】:TP311.13;TP391.1
【相似文獻】
相關(guān)期刊論文 前10條
1 鄭瑋;;Hadoop釋放大數(shù)據(jù)潛能[J];軟件和信息服務(wù);2012年10期
2 劉爾凱;崔振東;;基于HADOOP技術(shù) 實現(xiàn)銀行歷史數(shù)據(jù)線上化研究[J];金融電子化;2014年01期
3 鄒群;;一種基于Hadoop的數(shù)字圖書存儲系統(tǒng)設(shè)計方案[J];黑龍江史志;2014年01期
4 諶章義;畢偉;向萬紅;王國安;吳愛國;;基于Hadoop的海量電費數(shù)據(jù)處理模型[J];計算機系統(tǒng)應(yīng)用;2014年05期
5 ;大數(shù)據(jù)不等于Hadoop[J];辦公自動化;2014年06期
6 ;保障Hadoop數(shù)據(jù)安全的十大措施[J];計算機與網(wǎng)絡(luò);2013年08期
7 蘇小會;何婧媛;;Hadoop中任務(wù)調(diào)度算法的改進[J];電子設(shè)計工程;2012年22期
8 黃德才;陳歡;;Hadoop平臺下海量數(shù)據(jù)排行榜過濾算法[J];計算機系統(tǒng)應(yīng)用;2012年03期
9 周航;申秋慧;王迤冉;;基于Hadoop平臺的任務(wù)調(diào)度方案分析[J];周口師范學(xué)院學(xué)報;2013年02期
10 陳吉榮;樂嘉錦;;基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J];計算機工程與科學(xué);2013年10期
相關(guān)重要報紙文章 前3條
1 本報記者 郭濤;機器大數(shù)據(jù)也離不開Hadoop[N];中國計算機報;2013年
2 樂天 編譯;Hadoop:打開大數(shù)據(jù)之門的金鑰匙[N];計算機世界;2012年
3 范范 編譯;Hadoop用戶可以使用多種搜索引擎[N];網(wǎng)絡(luò)世界;2013年
相關(guān)碩士學(xué)位論文 前10條
1 汲磊舉;大數(shù)據(jù)環(huán)境下動車組故障關(guān)聯(lián)關(guān)系分析關(guān)鍵技術(shù)研究與實現(xiàn)[D];北京交通大學(xué);2016年
2 王鄭委;基于大數(shù)據(jù)Hadoop平臺的出租車載客熱點區(qū)域挖掘研究[D];北京交通大學(xué);2016年
3 張博洋;基于Hadoop的動車組故障診斷關(guān)鍵技術(shù)的研究與實現(xiàn)[D];北京交通大學(xué);2016年
4 施云霄;Hadoop組件管理軟件Data Hub的設(shè)計與實現(xiàn)[D];南京大學(xué);2014年
5 宋瑩瑋;Hadoop云平臺下基于本體的圖像檢索系統(tǒng)研究[D];吉林大學(xué);2016年
6 王霄霄;基于Hadoop的電信云計算開放平臺研究設(shè)計[D];南京郵電大學(xué);2015年
7 白亮;基于Hadoop的民航高價值旅客發(fā)現(xiàn)方法研究[D];中國民航大學(xué);2015年
8 張麗云;基于Hadoop的企業(yè)知識管理系統(tǒng)的主要功能的研究與實現(xiàn)[D];東北師范大學(xué);2014年
9 夏志剛;基于Hadoop的數(shù)字大棚云系統(tǒng)的設(shè)計和實現(xiàn)[D];大連理工大學(xué);2014年
10 楊寧;基于Hadoop平臺的廣告檢測系統(tǒng)研究與實現(xiàn)[D];復(fù)旦大學(xué);2012年
,本文編號:2365141
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2365141.html