Hadoop平臺作業(yè)調(diào)度算法研究與改進
發(fā)布時間:2017-09-10 01:00
本文關(guān)鍵詞:Hadoop平臺作業(yè)調(diào)度算法研究與改進
更多相關(guān)文章: Hadoop MapReduce 延遲調(diào)度 LATE調(diào)度算法 本地性 負載均衡
【摘要】:隨著搜索引擎、社交網(wǎng)絡(luò)等數(shù)據(jù)密集型互聯(lián)網(wǎng)應(yīng)用的發(fā)展,信息和數(shù)據(jù)量呈現(xiàn)爆炸式增長的趨勢,如何存儲和處理越來越龐大的數(shù)據(jù)信息,于是產(chǎn)生了云計算。云計算把原有的技術(shù)如網(wǎng)格計算和分布式計算進行整合并以新的模式呈現(xiàn)出來,它構(gòu)建在大量廉價的服務(wù)器上,利用虛擬化技術(shù)整合現(xiàn)有的計算資源、存儲資源和帶寬資源,通過統(tǒng)一的接口為用戶提供按需分配的各種資源。 在所有的云計算平臺中,,Hadoop是最流行的開源云平臺架構(gòu),其中的核心技術(shù)HDFS和MapReduce分別實現(xiàn)了Google云平臺中的GFS和MapReduce,它們分別具有對海量數(shù)據(jù)進行存儲和處理的功能。如何通過設(shè)計不同的作業(yè)調(diào)度算法來提升MapReduce性能,已然成為學(xué)術(shù)界和工業(yè)界都非常關(guān)注的一個熱點問題,本文主要研究了延遲調(diào)度算法和LATE調(diào)度算法,并針對算法中存在的問題提出了改進。 延遲調(diào)度算法是為了解決“數(shù)據(jù)本地性”問題而提出的一種算法,核心思想是空閑節(jié)點在申請作業(yè)時,優(yōu)先選擇作業(yè)隊列中在該節(jié)點上具有待處理數(shù)據(jù)的作業(yè),若在規(guī)定的時間內(nèi)仍沒有找到本地作業(yè),則選擇隊首作業(yè)執(zhí)行。這種方法大大提高了作業(yè)本地執(zhí)行的概率,同時也產(chǎn)生了一些問題,若作業(yè)待處理數(shù)據(jù)集中在某幾個節(jié)點上,則會加重這些節(jié)點的負載,容易導(dǎo)致集群負載不平衡,影響執(zhí)行效率。本文對延遲調(diào)度算法進行改進,思路如下:一是均衡負載,在作業(yè)等待本地目標(biāo)節(jié)點的同時,檢測空閑節(jié)點的負載情況,如果節(jié)點負載超過閾值,則暫時不予分配任務(wù);二是增加熱點數(shù)據(jù)塊的副本數(shù)量,以提高這些數(shù)據(jù)成功訪問的概率。通過上述兩種方式達到提升Hadoop集群運行效率的目的。 LATE調(diào)度算法是針對異構(gòu)集群節(jié)點運行速度不同提出的一種快節(jié)點運行慢節(jié)點上面任務(wù)的方法,以縮短集群的整體運行時間。但該調(diào)度算法未充分考慮備份任務(wù)在同一機架和不同機架推測執(zhí)行時數(shù)據(jù)傳輸消耗的時間差異性以及集群不同節(jié)點的負載情況。本文綜合這兩個方面進行改進,在推測作業(yè)剩余完成時間時,考慮數(shù)據(jù)遷移的時間成本,以剩余時間和遷移時間之和為權(quán)值進行排序,再結(jié)合集群中節(jié)點的負載情況進行分析,避免節(jié)點處于超負荷狀態(tài)仍分配任務(wù),縮短作業(yè)的響應(yīng)時間,提升集群的利用率。 通過搭建實驗平臺驗證,與原有的調(diào)度算法相比,延遲調(diào)度算法的改進縮短了作業(yè)平均響應(yīng)時間,提高了集群的效率。改進后的LATE調(diào)度算法比改進前對落后任務(wù)的判斷更加準確,對跨機架作業(yè)的推測執(zhí)行更加合理,提高了集群的效率。
【關(guān)鍵詞】:Hadoop MapReduce 延遲調(diào)度 LATE調(diào)度算法 本地性 負載均衡
【學(xué)位授予單位】:河北經(jīng)貿(mào)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP301.6
【目錄】:
- 摘要4-6
- Abstract6-11
- 1 緒論11-17
- 1.1 研究背景11
- 1.2 研究的目的和意義11-13
- 1.3 國內(nèi)外研究現(xiàn)狀13-14
- 1.4 本文的工作14-15
- 1.5 本文的結(jié)構(gòu)15-17
- 2 相關(guān)技術(shù)與現(xiàn)有調(diào)度算法17-29
- 2.1 云計算概述17-21
- 2.1.1 云計算定義17
- 2.1.2 云計算特點17-18
- 2.1.3 云計算關(guān)鍵技術(shù)18-20
- 2.1.4 云計算平臺20-21
- 2.2 Hadoop 平臺21-24
- 2.2.1 Hadoop 平臺概述21-22
- 2.2.2 HDFS 的系統(tǒng)架構(gòu)22-23
- 2.2.3 MapReduce 的工作原理23-24
- 2.3 Hadoop 調(diào)度算法24-28
- 2.3.1 先進先出調(diào)度算法25
- 2.3.2 計算能力調(diào)度算法25-26
- 2.3.3 公平調(diào)度算法26-27
- 2.3.4 延遲調(diào)度算法27
- 2.3.5 LATE 調(diào)度算法27-28
- 2.4 本章小結(jié)28-29
- 3 延遲調(diào)度算法的研究與改進29-39
- 3.1 延遲調(diào)度算法簡介29-30
- 3.1.1 基本概念29-30
- 3.1.2 延遲調(diào)度算法分析30
- 3.2 現(xiàn)有算法存在問題30-31
- 3.3 改進思路31-32
- 3.3.1 定義幾個概念31-32
- 3.3.2 算法過程描述32
- 3.4 改進后的算法32-33
- 3.5 實驗平臺搭建與結(jié)果分析33-38
- 3.5.1 實驗平臺搭建33-36
- 3.5.2 實驗平臺配置36-37
- 3.5.3 實驗結(jié)果與分析37-38
- 3.6 本章小結(jié)38-39
- 4 LATE 調(diào)度算法的研究與改進39-49
- 4.1 Hadoop 默認推測執(zhí)行算法39-40
- 4.2 LATE 調(diào)度算法的基本原理40
- 4.3 LATE 調(diào)度算法存在不足40-41
- 4.3.1 落后任務(wù)判斷問題40-41
- 4.3.2 節(jié)點負載不均衡問題41
- 4.3.3 數(shù)據(jù)局部性問題41
- 4.4 改進思路41-42
- 4.5 具體步驟42-44
- 4.6 實驗平臺搭建與結(jié)果分析44-47
- 4.6.1 實驗平臺搭建44-45
- 4.6.2 實驗平臺配置45-46
- 4.6.3 實驗結(jié)果與分析46-47
- 4.7 本章小結(jié)47-49
- 5 總結(jié)與展望49-51
- 5.1 總結(jié)49
- 5.2 展望49-51
- 參考文獻51-55
- 致謝55-56
- 攻讀學(xué)位期間取得的科研成果清單56
- 在校期間參研項目56
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李麗英;唐卓;李仁發(fā);;基于LATE的Hadoop數(shù)據(jù)局部性改進調(diào)度算法[J];計算機科學(xué);2011年11期
2 欒亞建;黃爛
本文編號:823793
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/823793.html
最近更新
教材專著