一種MapReduce架構(gòu)下基于遺傳算法的K-Medoids聚類
本文選題:海量數(shù)據(jù) + K-Medoids ; 參考:《計(jì)算機(jī)科學(xué)》2017年03期
【摘要】:由互聯(lián)網(wǎng)時(shí)代快速發(fā)展而產(chǎn)生的海量數(shù)據(jù)給傳統(tǒng)聚類方法帶來(lái)了巨大挑戰(zhàn),如何改進(jìn)聚類算法從而獲取有效信息成為當(dāng)前的研究熱點(diǎn)。K-Medoids是一種常見(jiàn)的基于劃分的聚類算法,其優(yōu)點(diǎn)是可以有效處理孤立、噪聲點(diǎn),但面臨著初始中心敏感、容易陷入局部最優(yōu)值、處理大數(shù)據(jù)時(shí)的CPU和內(nèi)存瓶頸等問(wèn)題。為解決上述問(wèn)題,提出了一種MapReduce架構(gòu)下基于遺傳算法的K-Medoids聚類。利用遺傳算法的種群進(jìn)化特點(diǎn)改進(jìn)K-Medoids算法的初始中心敏感的問(wèn)題,在此基礎(chǔ)上,利用MapReduce并行遺傳K-Medoids算法提高算法效率。通過(guò)帶標(biāo)簽的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)的結(jié)果表明,運(yùn)行在Hadoop集群上的基于MapReduce和遺傳算法的K-Medoids算法能有效提高聚類的質(zhì)量和效率。
[Abstract]:The huge amount of data generated by the rapid development of the Internet era has brought great challenges to the traditional clustering methods. How to improve the clustering algorithm to obtain effective information has become the current research hotspot. K-Medoids is a common partition-based clustering algorithm. Its advantage is that it can deal with isolated and noise points effectively, but it is faced with some problems such as initial center sensitivity, easy to fall into local optimal value, CPU and memory bottleneck when processing big data. In order to solve the above problems, a genetic algorithm based K-Medoids clustering based on MapReduce is proposed. The problem of initial center sensitivity of K-Medoids algorithm is improved by using the characteristics of population evolution of genetic algorithm. On this basis, MapReduce parallel genetic K-Medoids algorithm is used to improve the efficiency of the algorithm. The experimental results of tagged data sets show that the K-Medoids algorithm based on MapReduce and genetic algorithm running on Hadoop cluster can effectively improve the quality and efficiency of clustering.
【作者單位】: 天津大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;天津市認(rèn)知計(jì)算與應(yīng)用重點(diǎn)實(shí)驗(yàn)室;
【基金】:國(guó)家自然科學(xué)基金項(xiàng)目(61170177) 國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃項(xiàng)目(2013CB32930X)資助
【分類號(hào)】:TP311.13;TP18
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 張雪萍;龔康莉;趙廣才;;基于MapReduce的K-Medoids并行算法[J];計(jì)算機(jī)應(yīng)用;2013年04期
2 唐朝霞;;一種改進(jìn)的基于遺傳算法的K均值聚類算法[J];成都大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年02期
3 賴玉霞;劉建平;楊國(guó)興;;基于遺傳算法的K均值聚類分析[J];計(jì)算機(jī)工程;2008年20期
4 王小良;李強(qiáng);;并行遺傳算法研究及其應(yīng)用[J];微計(jì)算機(jī)信息;2007年09期
5 郭彤城,慕春棣;并行遺傳算法的新進(jìn)展[J];系統(tǒng)工程理論與實(shí)踐;2002年02期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 賴向陽(yáng);宮秀軍;韓來(lái)明;;一種MapReduce架構(gòu)下基于遺傳算法的K-Medoids聚類[J];計(jì)算機(jī)科學(xué);2017年03期
2 馮勇;郭軍;徐紅艷;付瀟瑩;;一種基于解空間分割的并行遺傳算法[J];計(jì)算機(jī)與數(shù)字工程;2017年02期
3 李媛媛;孫玉強(qiáng);晁亞;劉陽(yáng);;云環(huán)境下的高效K-Medoids并行算法[J];計(jì)算機(jī)測(cè)量與控制;2016年12期
4 蔡娟;李東新;;基于優(yōu)化k均值建模的運(yùn)動(dòng)目標(biāo)檢測(cè)算法[J];國(guó)外電子測(cè)量技術(shù);2016年12期
5 戎容;吳萍;;基于遺傳算法的股票市場(chǎng)選擇模型[J];計(jì)算機(jī)工程與應(yīng)用;2016年18期
6 陳勇;;聚類分析在船舶碰撞中的應(yīng)用分析[J];艦船科學(xué)技術(shù);2016年14期
7 柯尊旺;于炯;廖彬;;適應(yīng)異構(gòu)集群的Mesos多資源調(diào)度DRF增強(qiáng)算法[J];計(jì)算機(jī)應(yīng)用;2016年05期
8 宋紅海;顏宏文;;基于優(yōu)化粒計(jì)算下微粒子動(dòng)態(tài)搜索的K-medoids聚類算法[J];智能計(jì)算機(jī)與應(yīng)用;2016年02期
9 牛東嶺;李笑;康熙;劉剛;;基于空間聚類的農(nóng)田土地平整區(qū)域規(guī)劃方法研究[J];農(nóng)業(yè)機(jī)械學(xué)報(bào);2015年S1期
10 楊光;鐘_,
本文編號(hào):2075190
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2075190.html