基于MapReduce的K-Medoids并行算法研究
本文關(guān)鍵詞: K-Medoids 分布式計(jì)算 Hadoop 并行采樣 出處:《遼寧工程技術(shù)大學(xué)》2015年碩士論文 論文類(lèi)型:學(xué)位論文
【摘要】:大數(shù)據(jù)時(shí)代,信息呈爆炸性增長(zhǎng),準(zhǔn)確的從海量數(shù)據(jù)中進(jìn)行數(shù)據(jù)的挖掘?qū)Ξ?dāng)今信息化社會(huì)具有重要的價(jià)值意義。作為基于劃分的聚類(lèi)算法K-Medoids,其較大的時(shí)間復(fù)雜度以及傳統(tǒng)的初始中心點(diǎn)隨機(jī)選擇策略已經(jīng)無(wú)法適應(yīng)海量數(shù)據(jù)下的聚類(lèi)要求。使用MapReduce并行計(jì)算模型對(duì)算法進(jìn)行改進(jìn),雖然能夠提高算法的運(yùn)行效率,但是無(wú)法解決大數(shù)據(jù)量下的聚類(lèi)結(jié)果不精確,以及收斂性低下的問(wèn)題,所以必須還要從算法本身出發(fā)去解決這些問(wèn)題。針對(duì)傳統(tǒng)的K-Medoids算法對(duì)初始聚類(lèi)中心敏感、收斂速度較慢,以及在海量數(shù)據(jù)環(huán)境下所面臨的單臺(tái)計(jì)算機(jī)的性能瓶頸問(wèn)題,從中心點(diǎn)替換方法以及初始簇心選擇方案入手,并利用MapReduce分布式編程模型結(jié)合并行隨機(jī)采樣策略,實(shí)現(xiàn)了一種高效的K-Medoids算法,最后利用Hadoop的分布式存儲(chǔ)及計(jì)算特性,實(shí)現(xiàn)算法的二次優(yōu)化。通過(guò)和傳統(tǒng)的K-Medoids算法以及K-Means算法比較,改進(jìn)后的K-Medoids算法在集群環(huán)境下不僅有著良好的加速比,在聚類(lèi)精度以及收斂性上都有了一定程度上的改善。
[Abstract]:In the big data era, the information is increasing explosively. It is of great value to mine the data accurately from the massive data. As a clustering algorithm based on partition K-Medoids, it is of great value to the information society today. Its large time complexity and the traditional random selection strategy of initial center can not meet the clustering requirements of massive data. The algorithm is improved by using MapReduce parallel computing model. Although it can improve the efficiency of the algorithm, it can not solve the problem of inaccurate clustering results and low convergence under the large amount of data. The traditional K-Medoids algorithm is sensitive to the initial clustering center and the convergence speed is slow. And the performance bottleneck of a single computer in the environment of massive data, starting with the center replacement method and the initial cluster center selection scheme. Using MapReduce distributed programming model and parallel random sampling strategy, an efficient K-Medoids algorithm is implemented. Finally, by using the distributed storage and computing characteristics of Hadoop, the quadratic optimization of the algorithm is realized, which is compared with the traditional K-Medoids algorithm and K-Means algorithm. The improved K-Medoids algorithm not only has a good speedup in the cluster environment, but also improves the clustering accuracy and convergence to some extent.
【學(xué)位授予單位】:遼寧工程技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP338.6
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 葛磊;武芳;王鵬波;張冬林;;3維建筑綜合中基于最小特征的面平移算法[J];測(cè)繪科學(xué)技術(shù)學(xué)報(bào);2009年02期
2 駱雯,孫延明,陳振威,陳錦昌;判斷點(diǎn)與封閉多邊形相對(duì)關(guān)系的改進(jìn)算法[J];機(jī)械;1999年03期
3 李林;盧顯良;;一種基于切割映射的規(guī)則沖突消除算法[J];電子學(xué)報(bào);2008年02期
4 劉巧玲;張紅英;林茂松;;一種簡(jiǎn)單快速的圖像去霧算法[J];計(jì)算機(jī)應(yīng)用與軟件;2013年07期
5 林亞平,楊小林;快速概率分析進(jìn)化算法及其性能研究[J];電子學(xué)報(bào);2001年02期
6 章郡鋒;吳曉紅;黃曉強(qiáng);何小海;;基于暗原色先驗(yàn)去霧的改進(jìn)算法[J];電視技術(shù);2013年23期
7 楊鐵軍;靳婷;;一種動(dòng)態(tài)整周模糊值求解算法及其仿真分析[J];系統(tǒng)工程與電子技術(shù);2007年01期
8 周秀玲;郭平;陳寶維;王靜;;幾種計(jì)算超體積算法的比較研究[J];計(jì)算機(jī)工程;2011年03期
9 吳一戎,胡東輝,彭海良;Chirp Scaling SAR成象算法及其實(shí)現(xiàn)[J];電子科學(xué)學(xué)刊;1995年03期
10 王貴竹;一種產(chǎn)生單向分解值的算法[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年03期
相關(guān)會(huì)議論文 前10條
1 尹冀鋒;;一種新的圖象自適應(yīng)增強(qiáng)算法[A];四川省通信學(xué)會(huì)一九九二年學(xué)術(shù)年會(huì)論文集[C];1992年
2 寧春平;田家瑋;郭延輝;王影;張英濤;鄭桂霞;劉研;;計(jì)算機(jī)輔助增強(qiáng)、分割算法在鑒別乳腺良、惡性腫塊中的應(yīng)用價(jià)值[A];中華醫(yī)學(xué)會(huì)第十次全國(guó)超聲醫(yī)學(xué)學(xué)術(shù)會(huì)議論文匯編[C];2009年
3 謝麗聰;;SVB查詢改寫(xiě)算法的改進(jìn)[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
4 鄭存紅;;復(fù)雜背景下相關(guān)跟蹤算法研究及DSP實(shí)現(xiàn)[A];中國(guó)光學(xué)學(xué)會(huì)2010年光學(xué)大會(huì)論文集[C];2010年
5 楊文杰;吳軍;;RFID抗沖突算法研究[A];2008通信理論與技術(shù)新進(jìn)展——第十三屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集(上)[C];2008年
6 高山;畢篤彥;魏娜;;一種基于UPF的小目標(biāo)TBD算法[A];第十四屆全國(guó)圖象圖形學(xué)學(xué)術(shù)會(huì)議論文集[C];2008年
7 周磊;張衛(wèi)華;王曉奇;張軍;;基于流水算法的智能路障機(jī)器人設(shè)計(jì)[A];2011年全國(guó)電子信息技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2011年
8 潘巍;李戰(zhàn)懷;陳群;索博;李衛(wèi)榜;;面向MapReduce的非對(duì)稱分片復(fù)制連接算法優(yōu)化技術(shù)研究[A];第29屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年
9 李偉偉;蔡康穎;鄭新;王文成;;3D模型中重復(fù)結(jié)構(gòu)的多尺度快速檢測(cè)算法[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年
10 楊任爾;陳懇;勵(lì)金祥;;基于棱邊方向檢測(cè)的運(yùn)動(dòng)自適應(yīng)去隔行算法[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
相關(guān)重要報(bào)紙文章 前1條
1 國(guó)泰君安資產(chǎn)管理部;“算法交易”是道指暴跌罪魁禍?zhǔn)?[N];上海證券報(bào);2010年
相關(guān)博士學(xué)位論文 前10條
1 馮輝;網(wǎng)絡(luò)化的并行與分布式優(yōu)化算法研究及應(yīng)用[D];復(fù)旦大學(xué);2013年
2 許玉杰;云計(jì)算環(huán)境下海量數(shù)據(jù)的并行聚類(lèi)算法研究[D];大連海事大學(xué);2014年
3 李琰;基于貓群算法的高光譜遙感森林類(lèi)型識(shí)別研究[D];東北林業(yè)大學(xué);2015年
4 陳加順;海洋環(huán)境下聚類(lèi)算法的研究[D];南京航空航天大學(xué);2014年
5 王洋;基于群體智能的通信網(wǎng)絡(luò)告警關(guān)聯(lián)規(guī)則挖掘算法研究[D];太原理工大學(xué);2015年
6 雷雨;面向考試時(shí)間表問(wèn)題的啟發(fā)式進(jìn)化算法研究[D];西安電子科技大學(xué);2015年
7 熊霖;大數(shù)據(jù)下的數(shù)據(jù)選擇與學(xué)習(xí)算法研究[D];西安電子科技大學(xué);2015年
8 周雷;基于圖結(jié)構(gòu)的目標(biāo)檢測(cè)與分割算法研究[D];上海交通大學(xué);2014年
9 王冰;人工蜂群算法的改進(jìn)及相關(guān)應(yīng)用的研究[D];北京理工大學(xué);2015年
10 蔣亦樟;多視角和遷移學(xué)習(xí)識(shí)別方法和智能建模研究[D];江南大學(xué);2015年
相關(guān)碩士學(xué)位論文 前10條
1 姚鑫宇;EMD去噪與MUSIC算法在DOA估計(jì)中的聯(lián)合應(yīng)用[D];昆明理工大學(xué);2015年
2 陸進(jìn);面向含噪數(shù)據(jù)聚類(lèi)相關(guān)算法的研究[D];復(fù)旦大學(xué);2014年
3 葉一舟;紅外弱小目標(biāo)檢測(cè)算法研究[D];上海交通大學(xué);2015年
4 王繼重;基于Hadoop和Mahout的K-Means算法設(shè)計(jì)與實(shí)現(xiàn)[D];大連海事大學(xué);2016年
5 何靜;遙感圖像的快速壓縮算法研究[D];北京交通大學(xué);2016年
6 章華燕;鋼軌擦傷檢測(cè)算法研究[D];北京交通大學(xué);2016年
7 王一博;MODIS地震熱異常的數(shù)據(jù)處理與算法研究[D];中國(guó)石油大學(xué)(華東);2014年
8 成鑫;基于組合優(yōu)化問(wèn)題的多目標(biāo)模因算法的研究[D];南京航空航天大學(xué);2015年
9 傅致暉;基于協(xié)同分割的視頻目標(biāo)分割算法研究[D];上海交通大學(xué);2015年
10 張媛;運(yùn)動(dòng)車(chē)輛檢測(cè)與跟蹤算法的研究與實(shí)現(xiàn)[D];大連海事大學(xué);2016年
,本文編號(hào):1483375
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1483375.html