天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于Hadoop的微博熱點話題發(fā)現(xiàn)的聚類算法

發(fā)布時間:2018-11-29 13:39
【摘要】:針對海量微博數(shù)據(jù)無法高速、精準(zhǔn)發(fā)現(xiàn)熱點話題的問題,基于Hadoop大數(shù)據(jù)處理技術(shù),提出了一種面向微博熱點話題發(fā)現(xiàn)的文本聚類算法。利用大數(shù)據(jù)處理平臺Hadoop下開源機器學(xué)習(xí)軟件庫Mahout,將文本聚類和熱點話題相結(jié)合,對基于余弦距離測度的K-means算法進行改進,通過對不同區(qū)間范圍的余弦距離進行適當(dāng)?shù)脑龃蠡蚩s小,提高了微博熱點話題聚類結(jié)果的簇內(nèi)聚集度和簇間分離度。實驗結(jié)果表明,采用修改余弦距離的改進的K-means算法,微博熱點話題聚類結(jié)果的簇內(nèi)距離減少了2.72%,簇間距離增大了4.12%,召回率和準(zhǔn)確率也分別提高了7%和6%,有效的提高了微博熱點話題發(fā)現(xiàn)的聚類質(zhì)量。
[Abstract]:Aiming at the problem that massive Weibo data can not find hot topics accurately and high speed, a text clustering algorithm for hot topic discovery based on Hadoop big data technology is proposed in this paper. Using the open source machine learning software library Mahout, under big data processing platform Hadoop to combine text clustering with hot topic, the K-means algorithm based on cosine distance measure is improved. By properly increasing or narrowing the cosine distance between different ranges, the cluster clustering degree and the separation degree between clusters of Weibo hot topic clustering results are improved. The experimental results show that the improved K-means algorithm with modified cosine distance reduces the intra-cluster distance by 2.72 and increases the distance between clusters by 4.12. Recall rate and accuracy rate also increased by 7% and 6% respectively, which effectively improved the clustering quality of Weibo hot topic discovery.
【作者單位】: 河北工業(yè)大學(xué)計算機科學(xué)與軟件學(xué)院;
【分類號】:TP311.13;TP391.1

【相似文獻】

相關(guān)期刊論文 前10條

1 鄭瑋;;Hadoop釋放大數(shù)據(jù)潛能[J];軟件和信息服務(wù);2012年10期

2 劉爾凱;崔振東;;基于HADOOP技術(shù) 實現(xiàn)銀行歷史數(shù)據(jù)線上化研究[J];金融電子化;2014年01期

3 鄒群;;一種基于Hadoop的數(shù)字圖書存儲系統(tǒng)設(shè)計方案[J];黑龍江史志;2014年01期

4 諶章義;畢偉;向萬紅;王國安;吳愛國;;基于Hadoop的海量電費數(shù)據(jù)處理模型[J];計算機系統(tǒng)應(yīng)用;2014年05期

5 ;大數(shù)據(jù)不等于Hadoop[J];辦公自動化;2014年06期

6 ;保障Hadoop數(shù)據(jù)安全的十大措施[J];計算機與網(wǎng)絡(luò);2013年08期

7 蘇小會;何婧媛;;Hadoop中任務(wù)調(diào)度算法的改進[J];電子設(shè)計工程;2012年22期

8 黃德才;陳歡;;Hadoop平臺下海量數(shù)據(jù)排行榜過濾算法[J];計算機系統(tǒng)應(yīng)用;2012年03期

9 周航;申秋慧;王迤冉;;基于Hadoop平臺的任務(wù)調(diào)度方案分析[J];周口師范學(xué)院學(xué)報;2013年02期

10 陳吉榮;樂嘉錦;;基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J];計算機工程與科學(xué);2013年10期

相關(guān)重要報紙文章 前3條

1 本報記者 郭濤;機器大數(shù)據(jù)也離不開Hadoop[N];中國計算機報;2013年

2 樂天 編譯;Hadoop:打開大數(shù)據(jù)之門的金鑰匙[N];計算機世界;2012年

3 范范 編譯;Hadoop用戶可以使用多種搜索引擎[N];網(wǎng)絡(luò)世界;2013年

相關(guān)碩士學(xué)位論文 前10條

1 汲磊舉;大數(shù)據(jù)環(huán)境下動車組故障關(guān)聯(lián)關(guān)系分析關(guān)鍵技術(shù)研究與實現(xiàn)[D];北京交通大學(xué);2016年

2 王鄭委;基于大數(shù)據(jù)Hadoop平臺的出租車載客熱點區(qū)域挖掘研究[D];北京交通大學(xué);2016年

3 張博洋;基于Hadoop的動車組故障診斷關(guān)鍵技術(shù)的研究與實現(xiàn)[D];北京交通大學(xué);2016年

4 施云霄;Hadoop組件管理軟件Data Hub的設(shè)計與實現(xiàn)[D];南京大學(xué);2014年

5 宋瑩瑋;Hadoop云平臺下基于本體的圖像檢索系統(tǒng)研究[D];吉林大學(xué);2016年

6 王霄霄;基于Hadoop的電信云計算開放平臺研究設(shè)計[D];南京郵電大學(xué);2015年

7 白亮;基于Hadoop的民航高價值旅客發(fā)現(xiàn)方法研究[D];中國民航大學(xué);2015年

8 張麗云;基于Hadoop的企業(yè)知識管理系統(tǒng)的主要功能的研究與實現(xiàn)[D];東北師范大學(xué);2014年

9 夏志剛;基于Hadoop的數(shù)字大棚云系統(tǒng)的設(shè)計和實現(xiàn)[D];大連理工大學(xué);2014年

10 楊寧;基于Hadoop平臺的廣告檢測系統(tǒng)研究與實現(xiàn)[D];復(fù)旦大學(xué);2012年

,

本文編號:2365141

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2365141.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶70454***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com