提高任務(wù)并行度以優(yōu)化MapReduce集群資源的利用

發(fā)布時間：2017-05-26 16:03

本文關(guān)鍵詞：提高任務(wù)并行度以優(yōu)化MapReduce集群資源的利用，由筆耕文化傳播整理發(fā)布。

【摘要】：作為一種編程模型,MapReduce已經(jīng)成為處理大規(guī)模數(shù)據(jù)處理問題的一個重要手段。目前,MapReduce已被廣泛地應(yīng)用于Web搜索,機器學(xué)習(xí),電子商務(wù)等領(lǐng)域。Hadoop,作為MapReduce的一種開源實現(xiàn),已經(jīng)被廣泛地用到離線大數(shù)據(jù)處理。目前因為對處理海量數(shù)據(jù)的要求持續(xù)增長,Hadoop集群的規(guī)模也變的越來越大。為了管理大規(guī)模集群,人們試圖去提高集群的效率水平,用更強大的計算節(jié)點和水平擴展去構(gòu)建的集群。這時高效地利用集群資源將變得更有挑戰(zhàn)性。在研究Hadoop的過程中,發(fā)現(xiàn)在Hadoop的數(shù)據(jù)處理的并行粒度是比較大的,同時它不能充分利用多核系統(tǒng)的優(yōu)勢。這些問題會降低整個集群資源利用率和集群效率。為此,本文提出一種更加細粒度的數(shù)據(jù)處理策略,在增加系統(tǒng)負擔(dān)的情況下,對HDFS的數(shù)據(jù)塊進一步地進行分片,同時,在MapReduce的任務(wù)下產(chǎn)生多線程,充分利用多核系統(tǒng),進一步地進行以提高任務(wù)執(zhí)行的并行度,從而優(yōu)化集群資源利用率和提升作業(yè)執(zhí)行的速度。我們把這個策略作為一個功能模塊實現(xiàn)在開源項目Hadoop上,并且這個的實現(xiàn)并不會影響Hadoop原來的執(zhí)行策略。為了驗證本文提出的這個策略,我們在搭建了Hadoop集群,并做了廣泛的實驗。實驗結(jié)果顯示本文提出的策略不僅能優(yōu)化MapReduce集群的資源利用率,還能縮短作業(yè)的完成時間至三倍。
【關(guān)鍵詞】：MapReduce 并行度 資源利用率 多核 子任務(wù)
【學(xué)位授予單位】：上海交通大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2015
【分類號】：TP311.13
【目錄】：

摘要3-4
ABSTRACT4-9
第一章緒論9-14
1.1 研究背景及意義9-11
1.2 國內(nèi)外研究現(xiàn)狀11-12
1.3 主要研究內(nèi)容12-13
1.4 論文結(jié)構(gòu)13-14
第二章本文相關(guān)技術(shù)介紹14-31
2.1 MapReduce編程模型14
2.2 Hadoop分布式文件系統(tǒng)14-20
2.2.1 數(shù)據(jù)塊15-16
2.2.2 名字節(jié)點和數(shù)據(jù)節(jié)點16-17
2.2.3 HDFS的數(shù)據(jù)讀寫操作17-20
2.3 Hadoop MapReduce介紹20-25
2.3.1 Hadoop MapReduce作業(yè)的生命周期22-23
2.3.2 Map和Reduce任務(wù)23-25
2.4 Hadoop RPC框架介紹25-30
2.4.1 Hadoop RPC基本框架26-29
2.4.2 基于RPC的MapReduce通信協(xié)議介紹29-30
2.5 本章小結(jié)30-31
第三章細粒度任務(wù)并行策略的設(shè)計31-37
3.1 概要31
3.2 子數(shù)據(jù)塊的設(shè)計31-33
3.3 MapReduce任務(wù)的設(shè)計33-36
3.3.1 概要33-34
3.3.2 Map子任務(wù)的設(shè)計34-35
3.3.3 Reduce子任務(wù)的設(shè)計35
3.3.4 備份任務(wù)的設(shè)計35-36
3.4 Pre-shuffle的設(shè)計36
3.5 本章小結(jié)36-37
第四章細粒度任務(wù)并行策略的實現(xiàn)37-61
4.1 子數(shù)據(jù)塊的實現(xiàn)37-46
4.1.1 概述37-38
4.1.2 流式接口的實現(xiàn)38-41
4.1.3 子數(shù)據(jù)塊的讀操作實現(xiàn)41-43
4.1.4 子數(shù)據(jù)塊的寫操作實現(xiàn)43-46
4.2 子任務(wù)的實現(xiàn)46-55
4.2.1 Map子任務(wù)的實現(xiàn)47-53
4.2.2 Reduce子任務(wù)的實現(xiàn)53-55
4.3 Pre-shuffle的實現(xiàn)55-60
4.4 本章小結(jié)60-61
第五章細粒度任務(wù)并行策略的實驗評估61-71
5.1 實驗環(huán)境的搭建61-62
5.2 擴展性的實驗評估62-64
5.3 在不同CPU個數(shù)下的性能實驗評估64-66
5.4 資源利用率的實驗評估66-70
5.5 Pre-shuffle的實驗評估70
5.6 本章小結(jié)70-71
參考文獻71-75
致謝75-76
攻讀碩士學(xué)位期間已發(fā)表或錄用的論文76-78

【參考文獻】

中國期刊全文數(shù)據(jù)庫前1條

1 林偉偉;;一種改進的Hadoop數(shù)據(jù)放置策略[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2012年01期

本文關(guān)鍵詞：提高任務(wù)并行度以優(yōu)化MapReduce集群資源的利用，由筆耕文化傳播整理發(fā)布。

，

本文編號：397320

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/shoufeilunwen/xixikjs/397320.html

上一篇：基于軟件定義網(wǎng)絡(luò)的無線網(wǎng)絡(luò)移交技術(shù)研究
下一篇：羅定邦健藥業(yè)連鎖配送系統(tǒng)的設(shè)計與實現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

提高任務(wù)并行度以優(yōu)化MapReduce集群資源的利用