基于MapReduce的兩表數(shù)據(jù)傾斜連接的優(yōu)化算法
本文關(guān)鍵詞:基于MapReduce的兩表數(shù)據(jù)傾斜連接的優(yōu)化算法
更多相關(guān)文章: MapReduce Range partition算法 數(shù)據(jù)傾斜 連接算法優(yōu)化
【摘要】:針對(duì)Range partition算法不能優(yōu)化數(shù)據(jù)集嚴(yán)重傾斜情形下的兩表連接效率問(wèn)題,提出一種改進(jìn)的數(shù)據(jù)傾斜連接算法.該算法將傾斜數(shù)據(jù)和非傾斜數(shù)據(jù)區(qū)別處理,利用復(fù)制、廣播方法將數(shù)據(jù)發(fā)送到每個(gè)Reduce節(jié)點(diǎn),通過(guò)一輪Map/Reduce任務(wù)完成所有的連接操作,可有效均衡每個(gè)Reduce處理量,解決了數(shù)據(jù)嚴(yán)重傾斜對(duì)兩表連接性能的影響.與傳統(tǒng)的分區(qū)連接算法比較結(jié)果表明,該算法有效.
【作者單位】: 山西大學(xué)商務(wù)學(xué)院信息學(xué)院;
【關(guān)鍵詞】: MapReduce Range partition算法 數(shù)據(jù)傾斜 連接算法優(yōu)化
【基金】:國(guó)家自然科學(xué)基金(批準(zhǔn)號(hào):61303107)
【分類號(hào)】:TP301.6
【正文快照】: 數(shù)據(jù)傾斜是指一個(gè)數(shù)據(jù)集中的某個(gè)數(shù)據(jù)或某些數(shù)據(jù)的出現(xiàn)頻次遠(yuǎn)高于其他數(shù)據(jù)出現(xiàn)頻次的現(xiàn)象.由于傾斜的數(shù)據(jù)集會(huì)嚴(yán)重影響MapReduce程序的執(zhí)行效率,因此數(shù)據(jù)傾斜下連接算法的效率優(yōu)化問(wèn)題也是大數(shù)據(jù)處理背景下的研究熱點(diǎn)[1].目前,對(duì)Map/Reduce的數(shù)據(jù)傾斜問(wèn)題研究已有很多結(jié)果,如K
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 司方豪;鐘春琳;;使用MapReduce提高多路數(shù)組聚集效率[J];電腦編程技巧與維護(hù);2014年10期
2 賈瑞玉;劉范范;潘雯雯;王偉東;;基于MapReduce模型的并行量子進(jìn)化算法[J];計(jì)算機(jī)工程;2012年08期
3 周濤;賀其備;黃光明;林和平;;基于MapReduce的海量圖像處理模型的研究[J];信息技術(shù);2013年11期
4 楊紹禹;王世卿;;MapReduce模型下數(shù)據(jù)隱私保護(hù)機(jī)制研究[J];計(jì)算機(jī)科學(xué);2012年12期
5 劉熱;;基于MapReduce的大規(guī)模話題網(wǎng)絡(luò)提取分析[J];淮海工學(xué)院學(xué)報(bào)(自然科學(xué)版);2014年02期
6 冷芳玲;鮑玉斌;高偉;于戈;;基于MapReduce的數(shù)據(jù)聚集運(yùn)算算法[J];中國(guó)科技論文在線;2011年07期
7 潘巍;李戰(zhàn)懷;伍賽;陳群;;基于消息傳遞機(jī)制的MapReduce圖算法研究[J];計(jì)算機(jī)學(xué)報(bào);2011年10期
8 吳文忠;易平;;MapReduce在分布式搜索引擎中的應(yīng)用[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2012年02期
9 金健;陳群;趙保學(xué);;數(shù)據(jù)傾斜情況下基于MapReduce模型的連接算法研究[J];計(jì)算機(jī)與現(xiàn)代化;2013年05期
10 賈瑞玉;李亞龍;;基于MapReduce的量子蟻群算法[J];計(jì)算機(jī)工程與應(yīng)用;2013年19期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 金鵬;MapReduce框架下基于閾值約束的空間文本相似連接[D];燕山大學(xué);2015年
2 周鳴愛(ài);云計(jì)算中MapReduce高可用性和高效性的優(yōu)化研究[D];河北工程大學(xué);2015年
3 閆曉嫵;MapReduce下的約束頻繁模式挖掘與任務(wù)調(diào)度[D];太原科技大學(xué);2015年
4 王強(qiáng);基于MapReduce的大數(shù)據(jù)增量處理研究[D];東北大學(xué);2014年
5 魏博文;基于MapReduce的XML編碼查詢算法研究與實(shí)現(xiàn)[D];武漢紡織大學(xué);2016年
6 余川江;網(wǎng)格中基于MapReduce應(yīng)用的可視化系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2012年
7 陳存衡;基于MapReduce的數(shù)據(jù)圖檢索算法研究[D];大連海事大學(xué);2013年
8 鄒鵬;基于抽樣分區(qū)解決MapReduce中的數(shù)據(jù)傾斜問(wèn)題[D];大連理工大學(xué);2013年
9 何翔;異構(gòu)分布式環(huán)境下基于MapReduce模型的任務(wù)調(diào)度算法研究[D];湖南大學(xué);2013年
10 孫雨冰;基于MapReduce化的數(shù)據(jù)聚類算法的研究、設(shè)計(jì)與應(yīng)用[D];華東理工大學(xué);2013年
,本文編號(hào):547703
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/547703.html