基于MapReduce的兩表數(shù)據(jù)傾斜連接的優(yōu)化算法
本文關(guān)鍵詞:基于MapReduce的兩表數(shù)據(jù)傾斜連接的優(yōu)化算法
更多相關(guān)文章: MapReduce Range partition算法 數(shù)據(jù)傾斜 連接算法優(yōu)化
【摘要】:針對Range partition算法不能優(yōu)化數(shù)據(jù)集嚴(yán)重傾斜情形下的兩表連接效率問題,提出一種改進的數(shù)據(jù)傾斜連接算法.該算法將傾斜數(shù)據(jù)和非傾斜數(shù)據(jù)區(qū)別處理,利用復(fù)制、廣播方法將數(shù)據(jù)發(fā)送到每個Reduce節(jié)點,通過一輪Map/Reduce任務(wù)完成所有的連接操作,可有效均衡每個Reduce處理量,解決了數(shù)據(jù)嚴(yán)重傾斜對兩表連接性能的影響.與傳統(tǒng)的分區(qū)連接算法比較結(jié)果表明,該算法有效.
【作者單位】: 山西大學(xué)商務(wù)學(xué)院信息學(xué)院;
【關(guān)鍵詞】: MapReduce Range partition算法 數(shù)據(jù)傾斜 連接算法優(yōu)化
【基金】:國家自然科學(xué)基金(批準(zhǔn)號:61303107)
【分類號】:TP301.6
【正文快照】: 數(shù)據(jù)傾斜是指一個數(shù)據(jù)集中的某個數(shù)據(jù)或某些數(shù)據(jù)的出現(xiàn)頻次遠(yuǎn)高于其他數(shù)據(jù)出現(xiàn)頻次的現(xiàn)象.由于傾斜的數(shù)據(jù)集會嚴(yán)重影響MapReduce程序的執(zhí)行效率,因此數(shù)據(jù)傾斜下連接算法的效率優(yōu)化問題也是大數(shù)據(jù)處理背景下的研究熱點[1].目前,對Map/Reduce的數(shù)據(jù)傾斜問題研究已有很多結(jié)果,如K
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 司方豪;鐘春琳;;使用MapReduce提高多路數(shù)組聚集效率[J];電腦編程技巧與維護;2014年10期
2 賈瑞玉;劉范范;潘雯雯;王偉東;;基于MapReduce模型的并行量子進化算法[J];計算機工程;2012年08期
3 周濤;賀其備;黃光明;林和平;;基于MapReduce的海量圖像處理模型的研究[J];信息技術(shù);2013年11期
4 楊紹禹;王世卿;;MapReduce模型下數(shù)據(jù)隱私保護機制研究[J];計算機科學(xué);2012年12期
5 劉熱;;基于MapReduce的大規(guī)模話題網(wǎng)絡(luò)提取分析[J];淮海工學(xué)院學(xué)報(自然科學(xué)版);2014年02期
6 冷芳玲;鮑玉斌;高偉;于戈;;基于MapReduce的數(shù)據(jù)聚集運算算法[J];中國科技論文在線;2011年07期
7 潘巍;李戰(zhàn)懷;伍賽;陳群;;基于消息傳遞機制的MapReduce圖算法研究[J];計算機學(xué)報;2011年10期
8 吳文忠;易平;;MapReduce在分布式搜索引擎中的應(yīng)用[J];計算機系統(tǒng)應(yīng)用;2012年02期
9 金健;陳群;趙保學(xué);;數(shù)據(jù)傾斜情況下基于MapReduce模型的連接算法研究[J];計算機與現(xiàn)代化;2013年05期
10 賈瑞玉;李亞龍;;基于MapReduce的量子蟻群算法[J];計算機工程與應(yīng)用;2013年19期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 金鵬;MapReduce框架下基于閾值約束的空間文本相似連接[D];燕山大學(xué);2015年
2 周鳴愛;云計算中MapReduce高可用性和高效性的優(yōu)化研究[D];河北工程大學(xué);2015年
3 閆曉嫵;MapReduce下的約束頻繁模式挖掘與任務(wù)調(diào)度[D];太原科技大學(xué);2015年
4 王強;基于MapReduce的大數(shù)據(jù)增量處理研究[D];東北大學(xué);2014年
5 魏博文;基于MapReduce的XML編碼查詢算法研究與實現(xiàn)[D];武漢紡織大學(xué);2016年
6 余川江;網(wǎng)格中基于MapReduce應(yīng)用的可視化系統(tǒng)的設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2012年
7 陳存衡;基于MapReduce的數(shù)據(jù)圖檢索算法研究[D];大連海事大學(xué);2013年
8 鄒鵬;基于抽樣分區(qū)解決MapReduce中的數(shù)據(jù)傾斜問題[D];大連理工大學(xué);2013年
9 何翔;異構(gòu)分布式環(huán)境下基于MapReduce模型的任務(wù)調(diào)度算法研究[D];湖南大學(xué);2013年
10 孫雨冰;基于MapReduce化的數(shù)據(jù)聚類算法的研究、設(shè)計與應(yīng)用[D];華東理工大學(xué);2013年
,本文編號:547703
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/547703.html