一種基于MapReduce的改進(jìn)k-means聚類算法研究
本文關(guān)鍵詞:一種基于MapReduce的改進(jìn)k-means聚類算法研究 出處:《河北工業(yè)大學(xué)學(xué)報》2016年05期 論文類型:期刊論文
更多相關(guān)文章: k-means MapReduce 兩階段 單通道 并行化 加速比
【摘要】:傳統(tǒng)k-means算法的聚類中心需要經(jīng)過多次迭代運(yùn)算才能最終穩(wěn)定,而MapReduce計算框架下的k-means聚類算法在處理迭代運(yùn)算時效率并不理想.針對上述問題,提出一種新的基于MapReduce的k-means聚類算法.該算法對傳統(tǒng)k-means算法進(jìn)行了改進(jìn),通過將k-means聚類問題轉(zhuǎn)化為Map和Reduce兩階段的k-means++算法聚類問題,并將權(quán)值概念和單通道技術(shù)引入到傳統(tǒng)k-means++算法中,提升了算法在MapReduce框架中的執(zhí)行效率.實驗分析表明,該方法較之傳統(tǒng)方法具有更好的加速比和可擴(kuò)展性.
[Abstract]:The clustering center of the traditional k-means algorithm needs many iterations to be stable. But the k-means clustering algorithm under the MapReduce computing framework is not efficient in handling iterative operations. A new k-means clustering algorithm based on MapReduce is proposed, which improves the traditional k-means algorithm. The k-means clustering problem is transformed into the k-means clustering problem of Map and Reduce. The concept of weight and single-channel technology are introduced into the traditional k-means algorithm to improve the efficiency of the algorithm in the MapReduce framework. Compared with the traditional method, this method has better speedup and extensibility.
【作者單位】: 山西師范大學(xué)數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院;
【基金】:山西省自然科學(xué)基金(2015011040)
【分類號】:TP311.13
【正文快照】: 在數(shù)據(jù)挖掘中,聚類是重要的數(shù)據(jù)分析方法之一,它是在大量模式、樣本點(diǎn)以及對象中發(fā)現(xiàn)自然分組的過程.在統(tǒng)計學(xué)、模式識別、信息檢索、機(jī)器學(xué)習(xí)等廣泛的領(lǐng)域都扮演著重要的角色.然而,由于大數(shù)據(jù)體量巨大、元素復(fù)雜,傳統(tǒng)的統(tǒng)計工具和管理系統(tǒng)已經(jīng)很難適應(yīng).一方面,數(shù)據(jù)集主要存儲
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李建江;崔健;王聃;嚴(yán)林;黃義雙;;MapReduce并行編程模型研究綜述[J];電子學(xué)報;2011年11期
2 司方豪;鐘春琳;;使用MapReduce提高多路數(shù)組聚集效率[J];電腦編程技巧與維護(hù);2014年10期
3 翟東升;蔡萬江;陳晨;黃魯成;趙京;;基于MapReduce構(gòu)建專利技術(shù)功效圖的研究[J];情報雜志;2013年06期
4 賈瑞玉;劉范范;潘雯雯;王偉東;;基于MapReduce模型的并行量子進(jìn)化算法[J];計算機(jī)工程;2012年08期
5 亢麗蕓;王效岳;白如江;;MapReduce原理及其主要實現(xiàn)平臺分析[J];現(xiàn)代圖書情報技術(shù);2012年02期
6 周濤;賀其備;黃光明;林和平;;基于MapReduce的海量圖像處理模型的研究[J];信息技術(shù);2013年11期
7 楊紹禹;王世卿;;MapReduce模型下數(shù)據(jù)隱私保護(hù)機(jī)制研究[J];計算機(jī)科學(xué);2012年12期
8 黃志蘭;丁圣勇;楊國良;羅頌鋒;;基于MapReduce的PCA異常流量檢測系統(tǒng)實現(xiàn)[J];電信科學(xué);2010年06期
9 竇蒙;聞立杰;王建民;閆志強(qiáng);;基于MapReduce的海量事件日志并行轉(zhuǎn)化算法[J];計算機(jī)集成制造系統(tǒng);2013年08期
10 劉熱;;基于MapReduce的大規(guī)模話題網(wǎng)絡(luò)提取分析[J];淮海工學(xué)院學(xué)報(自然科學(xué)版);2014年02期
相關(guān)會議論文 前2條
1 鄭宇瀚;郭燕慧;;一種針對流水線任務(wù)的云計算模型基于MapReduce的改進(jìn)[A];2013年中國信息通信研究新進(jìn)展論文集[C];2014年
2 華中杰;徐錫山;楊樹強(qiáng);田勝利;;MapReduce本地優(yōu)先作業(yè)調(diào)度策略研究與實現(xiàn)[A];第九屆中國通信學(xué)會學(xué)術(shù)年會論文集[C];2012年
相關(guān)碩士學(xué)位論文 前10條
1 王姍姍;MapReduce框架下并行有序決策樹及有序決策森林[D];河北大學(xué);2015年
2 金鵬;MapReduce框架下基于閾值約束的空間文本相似連接[D];燕山大學(xué);2015年
3 周鳴愛;云計算中MapReduce高可用性和高效性的優(yōu)化研究[D];河北工程大學(xué);2015年
4 戴佳男;基于MapReduce模型的海量郵件社交關(guān)系分析研究[D];南京理工大學(xué);2015年
5 閆曉嫵;MapReduce下的約束頻繁模式挖掘與任務(wù)調(diào)度[D];太原科技大學(xué);2015年
6 王強(qiáng);基于MapReduce的大數(shù)據(jù)增量處理研究[D];東北大學(xué);2014年
7 魏博文;基于MapReduce的XML編碼查詢算法研究與實現(xiàn)[D];武漢紡織大學(xué);2016年
8 張鵬;基于MapReduce的分布式社區(qū)發(fā)現(xiàn)算法研究[D];燕山大學(xué);2016年
9 段秋丹;基于MapReduce的文獻(xiàn)發(fā)現(xiàn)系統(tǒng)研究與設(shè)計[D];山東大學(xué);2016年
10 李青;基于MapReduce的廣告點(diǎn)擊率預(yù)測系統(tǒng)設(shè)計與實現(xiàn)[D];云南大學(xué);2016年
,本文編號:1400170
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1400170.html