基于增量式分區(qū)策略的MapReduce數(shù)據(jù)均衡方法
本文關(guān)鍵詞:基于增量式分區(qū)策略的MapReduce數(shù)據(jù)均衡方法
更多相關(guān)文章: 增量分配 細粒度分區(qū) 數(shù)據(jù)傾斜 均衡分區(qū) MapReduce 大數(shù)據(jù)
【摘要】:MapReduce以其簡潔的編程模型,被廣泛應(yīng)用于大規(guī)模和高維度數(shù)據(jù)集的處理,如日志分析、文檔聚類和其他數(shù)據(jù)分析.開源系統(tǒng)Hadoop很好地實現(xiàn)了MapReduce模型,但由于自身采用一次分區(qū)機制,即通過Hash/Range分區(qū)函數(shù)對數(shù)據(jù)進行一次劃分,導(dǎo)致在處理密集數(shù)據(jù)時,Reduce端常會出現(xiàn)數(shù)據(jù)傾斜的問題.雖然系統(tǒng)為用戶提供了自定義分區(qū)函數(shù)方法,但不幸的是在不清楚輸入數(shù)據(jù)分布的情況下,數(shù)據(jù)傾斜問題很難被避免.為解決數(shù)據(jù)劃分的不均衡,該文提出一種將分區(qū)向Reducer指派時按照多輪分配的分區(qū)策略.該方法首先在Map端產(chǎn)生多于Reducer個數(shù)的細粒度分區(qū),同時在Mapper運行過程中實時統(tǒng)計各細粒度分區(qū)的數(shù)據(jù)量;然后由JobTracker根據(jù)全局的分區(qū)分布信息篩選出部分未分配的細粒度分區(qū),并用代價評估模型將選中的細粒度分區(qū)分配到各Reducer上;依照此方法,經(jīng)過多輪的篩選、分配,最終在執(zhí)行Reduce()函數(shù)前,將所有細粒度分區(qū)分配到Reduce端,以此解決分區(qū)后各Reducer接收數(shù)據(jù)總量均衡的問題.最后在Zipf分布數(shù)據(jù)集和真實數(shù)據(jù)集上與現(xiàn)有的分區(qū)切分方法Closer進行了對比,增量式分區(qū)策略更好地解決了數(shù)據(jù)劃分后的均衡問題.
【作者單位】: 西北工業(yè)大學(xué)計算機學(xué)院;
【關(guān)鍵詞】: 增量分配 細粒度分區(qū) 數(shù)據(jù)傾斜 均衡分區(qū) MapReduce 大數(shù)據(jù)
【基金】:國家“九七三”重點基礎(chǔ)研究發(fā)展規(guī)劃項目基金(2012CB316203) 國家自然科學(xué)基金(61033007,61332006,61472321) 西北工業(yè)大學(xué)基礎(chǔ)研究基金(3102014JSJ0005,3102014JSJ0013)資助
【分類號】:TP311.13
【正文快照】: 然科學(xué)基金(61033007,61332006,61472321)和西北工業(yè)大學(xué)基礎(chǔ)研究基金(3102014JSJ0005,3102014JSJ0013)資助.王卓,男,1984年生,博士研究生,中國計算機學(xué)會(CCF)會員,主要研究方向為數(shù)據(jù)管理.E-mail:zhenwangzhuo@163.com.陳群,男,1976年生,博士,教授,主要研究領(lǐng)域為云計算、圖
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 王秀,葉東毅;基于分布約簡的獲取規(guī)則的增量式方法[J];福州大學(xué)學(xué)報(自然科學(xué)版);2005年01期
2 林俊偉;葉東毅;;基于鄰域辨識矩陣的屬性約簡增量式算法[J];計算機應(yīng)用;2009年S1期
3 李斌,馬戈,孫志揮;項目集發(fā)生變化的關(guān)聯(lián)規(guī)則增量式更新算法[J];計算機應(yīng)用;2004年12期
4 劉韶濤;余金山;王寧生;;一種迭代增量式的程序構(gòu)建方法[J];遼寧工程技術(shù)大學(xué)學(xué)報;2005年06期
5 王軍琴;;基于三菱FX_(2N)的增量式PID控制器設(shè)計[J];現(xiàn)代電子技術(shù);2010年12期
6 董學(xué)勤;劉希璐;;基于增量式PID的改進算法[J];浙江工商職業(yè)技術(shù)學(xué)院學(xué)報;2012年03期
7 黃文芝 ,倪國元;基于模糊相似系數(shù)的增量式聚類算法[J];微型機與應(yīng)用;2004年10期
8 羅維;;詞語對齊的快速增量式訓(xùn)練方法研究[J];北京大學(xué)學(xué)報(自然科學(xué)版);2013年01期
9 宋和平;胡成全;王力風(fēng);侯二娜;;新型雙溫度反饋增量式PID控制器的設(shè)計[J];自動化與儀表;2012年04期
10 劉宗田;屬性最小約簡的增量式算法[J];電子學(xué)報;1999年11期
中國重要會議論文全文數(shù)據(jù)庫 前6條
1 單莘;;一種網(wǎng)絡(luò)告警的增量式情景規(guī)則挖掘方法[A];中國通信學(xué)會第五屆學(xué)術(shù)年會論文集[C];2008年
2 王鑫;袁曉潔;李楠;;Native XML數(shù)據(jù)庫的增量式驗證[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2006年
3 程建軍;陳曉云;馬志新;;程序設(shè)計語言課程的增量式教學(xué)法改革與實踐[A];2005全國計算機程序設(shè)計類課程教學(xué)研討會論文集[C];2005年
4 陳恩紅;張振亞;王煦法;;基于神經(jīng)網(wǎng)絡(luò)的增量式數(shù)據(jù)索引機制研究[A];2001年中國智能自動化會議論文集(上冊)[C];2001年
5 欒江;唐常杰;黃曉冬;陰小雄;廖勇;;一種增量式支持向量機文本分類模型[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2003年
6 董云云;王中華;馮志全;程金;;吊車-雙擺系統(tǒng)的增量式滑?刂芠A];第二十七屆中國控制會議論文集[C];2008年
中國重要報紙全文數(shù)據(jù)庫 前1條
1 中國社會科學(xué)院金融研究所研究員 易憲容;地方增量式金融改革亟待有序規(guī)范[N];上海證券報;2012年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 朱真峰;快速增量式分類算法研究[D];復(fù)旦大學(xué);2010年
2 王毅;注塑模改模知識的增量式發(fā)現(xiàn)研究[D];廣東工業(yè)大學(xué);2014年
3 陳春雷;面向GPGPU的并行增量式聚類算法研究[D];西北工業(yè)大學(xué);2014年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 荊楠;服務(wù)網(wǎng)絡(luò)的構(gòu)建與面向增量式需求的動態(tài)定制方法[D];哈爾濱工業(yè)大學(xué);2015年
2 倪國元;基于模糊聚類的增量式挖掘算法研究[D];華中科技大學(xué);2004年
3 張晶;增量式關(guān)聯(lián)規(guī)則挖掘算法研究及其在飛行品質(zhì)監(jiān)控中的應(yīng)用[D];中國民航大學(xué);2008年
4 陳楠;基于粗集理論的增量式屬性約簡研究[D];長春理工大學(xué);2005年
5 張長城;基于增量式低秩學(xué)習(xí)的視頻目標(biāo)跟蹤[D];大連理工大學(xué);2014年
6 何志剛;多約束增量式布局[D];武漢理工大學(xué);2011年
7 陳飛龍;基于偏序關(guān)系的快速增量式概念格構(gòu)建算法[D];西安電子科技大學(xué);2011年
8 孫巖;增量式貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)研究[D];杭州電子科技大學(xué);2011年
9 郝允允;增量式數(shù)據(jù)競爭檢測[D];中國科學(xué)技術(shù)大學(xué);2009年
10 賴桃桃;增量式屬性約簡更新算法研究[D];廈門大學(xué);2009年
,本文編號:520004
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/520004.html