Hadoop云平臺(tái)中調(diào)度策略研究
本文關(guān)鍵詞:Hadoop云平臺(tái)中調(diào)度策略研究
更多相關(guān)文章: Hadoop 任務(wù)調(diào)度 數(shù)據(jù)本地性 SDN LATE
【摘要】:在大數(shù)據(jù)時(shí)代,傳統(tǒng)數(shù)據(jù)計(jì)算和數(shù)據(jù)存儲(chǔ)能力已經(jīng)無法滿足不斷增長(zhǎng)變化的需求,云計(jì)算技術(shù)應(yīng)運(yùn)而生。其中,Hadoop是從Google云計(jì)算技術(shù)中衍生而來的開源實(shí)現(xiàn),并成為了Apache基金會(huì)的頂級(jí)項(xiàng)目,為大數(shù)據(jù)時(shí)代注入了強(qiáng)大的云計(jì)算中堅(jiān)力量。然而,隨著Hadoop持續(xù)改進(jìn),集群規(guī)模迅速增長(zhǎng),集群資源(網(wǎng)絡(luò)、存儲(chǔ)等資源)逐漸成為系統(tǒng)瓶頸。研究調(diào)度策略就是從資源管理及分配的角度對(duì)Hadoop系統(tǒng)進(jìn)行研究和改進(jìn)。本文主要工作由兩部分組成,分別是基于數(shù)據(jù)本地性的Reduce任務(wù)調(diào)度策略和基于帶寬感知的備份任務(wù)調(diào)度策略。1.基于數(shù)據(jù)本地性的Reduce任務(wù)調(diào)度策略。在MapReduce階段,集群網(wǎng)絡(luò)中主要有兩種數(shù)據(jù)流,分別是shuffle遠(yuǎn)程拷貝數(shù)據(jù)和慢任務(wù)遷移,這兩種重疊的突發(fā)式數(shù)據(jù)傳輸可能會(huì)形成網(wǎng)絡(luò)瓶頸。為降低遠(yuǎn)程拷貝數(shù)據(jù)量,結(jié)合數(shù)據(jù)本地性原理,建立了網(wǎng)絡(luò)資源消耗計(jì)算模型(MNRC)。它用于評(píng)估Reduce任務(wù)節(jié)點(diǎn)的網(wǎng)絡(luò)資源消耗量。基于此模型,為Reduce任務(wù)設(shè)計(jì)了以網(wǎng)絡(luò)資源消耗代價(jià)為參考的延時(shí)調(diào)度策略。最后,設(shè)計(jì)仿真實(shí)驗(yàn)加以驗(yàn)證,改進(jìn)策略減少了shuffle階段跨機(jī)架的數(shù)據(jù)傳輸量,在異構(gòu)集群中網(wǎng)絡(luò)資源節(jié)省平均效率為7.5%。2.基于帶寬感知的備份任務(wù)調(diào)度策略。在LATE機(jī)制中部分備份任務(wù)并不比原始慢任務(wù)更早結(jié)束,這不僅無法縮短任務(wù)運(yùn)行時(shí)間,而且浪費(fèi)了系統(tǒng)資源。本文在LATE備份任務(wù)調(diào)度中加入慢任務(wù)剩余時(shí)間與備份任務(wù)運(yùn)行時(shí)間的對(duì)比。其中,備份任務(wù)的運(yùn)行時(shí)間包含了輸入數(shù)據(jù)的網(wǎng)絡(luò)傳輸時(shí)間,帶寬為相應(yīng)鏈路的實(shí)時(shí)帶寬;诖烁倪M(jìn)思路,本文首次將SDN與備份任務(wù)調(diào)度相結(jié)合,提出了基于SDN帶寬感知的備份任務(wù)運(yùn)行時(shí)間估計(jì)模型(BWRE),利用此模型較準(zhǔn)確的預(yù)估備份任務(wù)運(yùn)行時(shí)間。并且,利用SDN帶寬保障為備份任務(wù)拷貝輸入數(shù)據(jù)保障帶寬。最后,設(shè)計(jì)仿真實(shí)驗(yàn)加以驗(yàn)證,相對(duì)于LATE機(jī)制,在作業(yè)周轉(zhuǎn)時(shí)間方面平均縮短了9.85%。
【關(guān)鍵詞】:Hadoop 任務(wù)調(diào)度 數(shù)據(jù)本地性 SDN LATE
【學(xué)位授予單位】:重慶郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13;TP393.09
【目錄】:
- 摘要3-4
- Abstract4-8
- 第1章 引言8-17
- 1.1 研究背景及意義8-10
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀10-15
- 1.2.1 Hadoop作業(yè)調(diào)度算法及框架設(shè)計(jì)10-12
- 1.2.2 MapReduce任務(wù)調(diào)度策略優(yōu)化12-14
- 1.2.3 Hadoop備份任務(wù)推測(cè)執(zhí)行機(jī)制改進(jìn)14-15
- 1.3 研究?jī)?nèi)容及創(chuàng)新點(diǎn)15-16
- 1.4 論文組織結(jié)構(gòu)16-17
- 第2章 相關(guān)核心技術(shù)概要17-28
- 2.1 Hadoop核心技術(shù)17-21
- 2.1.1 Hadoop系統(tǒng)架構(gòu)和集群部署17-19
- 2.1.2 Hadoop Distributed File System19-21
- 2.1.3 MapReduce21
- 2.2 Hadoop作業(yè)執(zhí)行及調(diào)度框架21-25
- 2.2.1 作業(yè)執(zhí)行過程22-23
- 2.2.2 作業(yè)調(diào)度框架23-25
- 2.3 SDN技術(shù)核心25-27
- 2.3.1 SDN介紹25-26
- 2.3.2 OpenFlow交換機(jī)26-27
- 2.3.3 OpenFlow控制器27
- 2.4 本章小結(jié)27-28
- 第3章 基于數(shù)據(jù)本地性的Reduce任務(wù)調(diào)度策略28-48
- 3.1 MapReduce任務(wù)執(zhí)行及調(diào)度策略28-32
- 3.1.1 任務(wù)執(zhí)行過程28-30
- 3.1.2 任務(wù)調(diào)度策略30-32
- 3.2 基于數(shù)據(jù)本地性的Reduce任務(wù)調(diào)度策略32-41
- 3.2.1 問題描述32-34
- 3.2.2 網(wǎng)絡(luò)資源消耗計(jì)算模型(MNRC)34-36
- 3.2.3 基于MNRC的Reduce任務(wù)調(diào)度策略36-41
- 3.3 仿真實(shí)驗(yàn)41-47
- 3.3.1 實(shí)驗(yàn)方法41-43
- 3.3.2 實(shí)驗(yàn)結(jié)果與分析43-47
- 3.4 本章小結(jié)47-48
- 第4章 基于帶寬感知的備份任務(wù)調(diào)度策略48-64
- 4.1 Hadoop備份任務(wù)推測(cè)執(zhí)行機(jī)制48-50
- 4.2 基于帶寬感知的備份任務(wù)調(diào)度策略50-57
- 4.2.1 問題描述50-51
- 4.2.2 基于BWRE的備份任務(wù)調(diào)度策略51-57
- 4.3 仿真實(shí)驗(yàn)57-63
- 4.3.1 實(shí)驗(yàn)方法57-58
- 4.3.2 實(shí)驗(yàn)結(jié)果與分析58-63
- 4.4 本章小結(jié)63-64
- 第5章 全文總結(jié)與展望64-66
- 參考文獻(xiàn)66-71
- 致謝71-72
- 攻讀碩士學(xué)位期間從事的科研工作及取得的成果72
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫 前7條
1 左青云;陳鳴;趙廣松;邢長(zhǎng)友;張國(guó)敏;蔣培成;;基于OpenFlow的SDN技術(shù)研究[J];軟件學(xué)報(bào);2013年05期
2 許丞;劉洪;譚良;;Hadoop云平臺(tái)的一種新的任務(wù)調(diào)度和監(jiān)控機(jī)制[J];計(jì)算機(jī)科學(xué);2013年01期
3 余正祥;;基于學(xué)習(xí)方式對(duì)Hadoop作業(yè)調(diào)度的改進(jìn)研究[J];計(jì)算機(jī)科學(xué);2012年S1期
4 李麗英;唐卓;李仁發(fā);;基于LATE的Hadoop數(shù)據(jù)局部性改進(jìn)調(diào)度算法[J];計(jì)算機(jī)科學(xué);2011年11期
5 覃雄派;王會(huì)舉;杜小勇;王珊;;大數(shù)據(jù)分析——RDBMS與MapReduce的競(jìng)爭(zhēng)與共生[J];軟件學(xué)報(bào);2012年01期
6 李喬;鄭嘯;;云計(jì)算研究現(xiàn)狀綜述[J];計(jì)算機(jī)科學(xué);2011年04期
7 劉黎明;;云計(jì)算起源探析[J];電信網(wǎng)技術(shù);2010年09期
,本文編號(hào):562253
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/562253.html