Hadoop平臺的作業(yè)調度算法研究與改進
發(fā)布時間:2017-08-24 20:26
本文關鍵詞:Hadoop平臺的作業(yè)調度算法研究與改進
更多相關文章: Hadoop 作業(yè)調度 Reduce任務 資源利用率 數(shù)據(jù)本地性
【摘要】:隨著云計算技術的發(fā)展成熟,云計算為企業(yè)提供了一種大數(shù)據(jù)的解決方案。Hadoop是Apach e組織下的一種開源分布式云計算框架的實現(xiàn),由于其具有高可靠性、高擴展性以及高容錯性等優(yōu)點,被諸多企業(yè)廣泛地用于大數(shù)據(jù)的處理。MapReduce是Hadoop對數(shù)據(jù)進行分布式處理的核心組件,其作業(yè)調度算法決定了MapReduce的性能,影響到整個Hadoo p系統(tǒng)的性能。目前,現(xiàn)有的Hadoop作業(yè)調度算法中Reduce任務調度算法過于簡單,制約了Hadoop系統(tǒng)性能的提升。一方面,存在小作業(yè)Reduce任務的饑餓以及較低的資源利用率的問題,另一方面,沒有考慮到Reduce任務的數(shù)據(jù)本地性的優(yōu)化。 本文針對Hadoop平臺作業(yè)調度算法展開了研究,并對其Reduce任務調度算法進行了優(yōu)化。本文的主要工作如下: 1)深入分析了小作業(yè)Reduce任務的饑餓以及較低的資源利用率的問題,提出了一種任務時間估計模型,并基于此模型提出了一種改進算法SBOTM (Scheduler Based On Time Model),將SBOTM算法的實現(xiàn)嵌入到當前比較流行的公平調度器中,通過與原生的公平調度器比較,該算法有效地改善了小作業(yè)Reduce任務的饑餓問題,提高了作業(yè)的執(zhí)行效率,并一定程度上提高了資源利用率。 2)深入分析了Reduce任務的數(shù)據(jù)本地性問題,并提出了一種延遲調度算法DSORT (Delay Scheduler Of Reduce Task),將延遲調度的思想應用到Reduce任務的數(shù)據(jù)本地性的優(yōu)化上,并將DSORT的實現(xiàn)嵌入公平調度器中,最后,通過與原生的公平調度器比較,該算法大大提高了Reduce任務的數(shù)據(jù)本地性,減少了網(wǎng)絡傳輸開銷,縮短了作業(yè)的執(zhí)行時間。 本文提出的算法有效地改善了Hadoop自帶的Reduce任務調度算法,提高了作業(yè)的執(zhí)行效率,優(yōu)化了Reduce任務的數(shù)據(jù)本地性,降低了網(wǎng)絡傳輸代價,并且算法具好擴展性,可移植到其他的調度器當中。
【關鍵詞】:Hadoop 作業(yè)調度 Reduce任務 資源利用率 數(shù)據(jù)本地性
【學位授予單位】:中國科學技術大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP301.6
【目錄】:
- 摘要5-6
- ABSTRACT6-7
- 目錄7-9
- 表格9-10
- 插圖10-12
- 第1章 緒論12-20
- 1.1 研究背景12-15
- 1.1.1 云計算的基本概念12-14
- 1.1.2 分布式計算框架概述14-15
- 1.2 研究現(xiàn)狀15-18
- 1.3 本文的研究內(nèi)容18
- 1.4 本文的內(nèi)容結構18-20
- 第2章 Hadoop平臺及相關技術20-34
- 2.1 Hadoop概述20
- 2.2 Hadoop的系統(tǒng)架構20-27
- 2.2.1 HDFS分布式文件系統(tǒng)22-23
- 2.2.2 MapReduce并行處理框架23-27
- 2.3 MapReduce作業(yè)調度算法27-31
- 2.3.1 作業(yè)調度算法概述27-28
- 2.3.2 FIFO調度算法28
- 2.3.3 計算能力調度算法28-29
- 2.3.4 公平調度算法29-31
- 2.4 Hadoop生態(tài)系統(tǒng)31-32
- 2.5 本章小結32-34
- 第3章 基于任務時間的Reduce任務調度優(yōu)化34-44
- 3.1 MapReduce作業(yè)執(zhí)行過程34-35
- 3.2 小作業(yè)的Reduce饑餓問題35-36
- 3.3 基于任務時間的Reduce任務調度算法:SBOTM36-40
- 3.3.1 任務時間評估模型37-38
- 3.3.2 算法描述38-40
- 3.4 實驗評估40-43
- 3.4.1 實驗環(huán)境40
- 3.4.2 實驗結果40-43
- 3.5 本章小結43-44
- 第4章 Reduce任務數(shù)據(jù)本地性優(yōu)化44-58
- 4.1 Hadoop作業(yè)調度本地化概述44-46
- 4.1.1 Map任務選擇策略44-45
- 4.1.2 Reduce任務選擇策略45
- 4.1.3 Hadoop的網(wǎng)絡拓撲結構45-46
- 4.2 Reduce任務本地性問題分析46-47
- 4.3 Reduce任務本地性優(yōu)化47-53
- 4.3.1 Reduce任務本地化相關定義48
- 4.3.2 Reduce任務的延遲調度算法DSORT48-50
- 4.3.3 DSORT算法實現(xiàn)50-53
- 4.4 實驗評估53-57
- 4.4.1 實驗設置53-54
- 4.4.2 實驗結果與分析54-57
- 4.5 本章小結57-58
- 第5章 總結與展望58-60
- 5.1 本文總結58
- 5.2 研究展望58-60
- 參考文獻60-64
- 致謝64-66
- 在讀期間發(fā)表的學術論文與取得的其他研究成果66
- 攻讀碩士學位期間參與的科研課題66
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前5條
1 孫健;賈曉菁;;Google云計算平臺的技術架構及對其成本的影響研究[J];電信科學;2010年01期
2 陳全;鄧倩妮;;云計算及其關鍵技術[J];計算機應用;2009年09期
3 劉再明;;騰訊云上的開放游戲生態(tài)圈——專訪騰訊云計算公司總裁陳磊[J];互聯(lián)網(wǎng)周刊;2014年16期
4 余望枝;朱少強;;BBS論壇與百度知道的信息評價機制探討[J];圖書館學研究;2008年12期
5 牛祿青;;阿里云:創(chuàng)新云計算[J];新經(jīng)濟導刊;2013年03期
,本文編號:732973
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/732973.html
最近更新
教材專著