Hadoop平臺作業(yè)調(diào)度算法研究與改進(jìn)

發(fā)布時間：2017-09-10 01:00

本文關(guān)鍵詞：Hadoop平臺作業(yè)調(diào)度算法研究與改進(jìn)

【摘要】：隨著搜索引擎、社交網(wǎng)絡(luò)等數(shù)據(jù)密集型互聯(lián)網(wǎng)應(yīng)用的發(fā)展，信息和數(shù)據(jù)量呈現(xiàn)爆炸式增長的趨勢，如何存儲和處理越來越龐大的數(shù)據(jù)信息，于是產(chǎn)生了云計算。云計算把原有的技術(shù)如網(wǎng)格計算和分布式計算進(jìn)行整合并以新的模式呈現(xiàn)出來，它構(gòu)建在大量廉價的服務(wù)器上，利用虛擬化技術(shù)整合現(xiàn)有的計算資源、存儲資源和帶寬資源，通過統(tǒng)一的接口為用戶提供按需分配的各種資源。在所有的云計算平臺中，，Hadoop是最流行的開源云平臺架構(gòu)，其中的核心技術(shù)HDFS和MapReduce分別實(shí)現(xiàn)了Google云平臺中的GFS和MapReduce，它們分別具有對海量數(shù)據(jù)進(jìn)行存儲和處理的功能。如何通過設(shè)計不同的作業(yè)調(diào)度算法來提升MapReduce性能，已然成為學(xué)術(shù)界和工業(yè)界都非常關(guān)注的一個熱點(diǎn)問題，本文主要研究了延遲調(diào)度算法和LATE調(diào)度算法，并針對算法中存在的問題提出了改進(jìn)。延遲調(diào)度算法是為了解決“數(shù)據(jù)本地性”問題而提出的一種算法，核心思想是空閑節(jié)點(diǎn)在申請作業(yè)時，優(yōu)先選擇作業(yè)隊列中在該節(jié)點(diǎn)上具有待處理數(shù)據(jù)的作業(yè)，若在規(guī)定的時間內(nèi)仍沒有找到本地作業(yè)，則選擇隊首作業(yè)執(zhí)行。這種方法大大提高了作業(yè)本地執(zhí)行的概率，同時也產(chǎn)生了一些問題，若作業(yè)待處理數(shù)據(jù)集中在某幾個節(jié)點(diǎn)上，則會加重這些節(jié)點(diǎn)的負(fù)載，容易導(dǎo)致集群負(fù)載不平衡，影響執(zhí)行效率。本文對延遲調(diào)度算法進(jìn)行改進(jìn)，思路如下：一是均衡負(fù)載，在作業(yè)等待本地目標(biāo)節(jié)點(diǎn)的同時，檢測空閑節(jié)點(diǎn)的負(fù)載情況，如果節(jié)點(diǎn)負(fù)載超過閾值，則暫時不予分配任務(wù)；二是增加熱點(diǎn)數(shù)據(jù)塊的副本數(shù)量，以提高這些數(shù)據(jù)成功訪問的概率。通過上述兩種方式達(dá)到提升Hadoop集群運(yùn)行效率的目的。 LATE調(diào)度算法是針對異構(gòu)集群節(jié)點(diǎn)運(yùn)行速度不同提出的一種快節(jié)點(diǎn)運(yùn)行慢節(jié)點(diǎn)上面任務(wù)的方法，以縮短集群的整體運(yùn)行時間。但該調(diào)度算法未充分考慮備份任務(wù)在同一機(jī)架和不同機(jī)架推測執(zhí)行時數(shù)據(jù)傳輸消耗的時間差異性以及集群不同節(jié)點(diǎn)的負(fù)載情況。本文綜合這兩個方面進(jìn)行改進(jìn)，在推測作業(yè)剩余完成時間時，考慮數(shù)據(jù)遷移的時間成本，以剩余時間和遷移時間之和為權(quán)值進(jìn)行排序，再結(jié)合集群中節(jié)點(diǎn)的負(fù)載情況進(jìn)行分析，避免節(jié)點(diǎn)處于超負(fù)荷狀態(tài)仍分配任務(wù)，縮短作業(yè)的響應(yīng)時間，提升集群的利用率。通過搭建實(shí)驗平臺驗證，與原有的調(diào)度算法相比，延遲調(diào)度算法的改進(jìn)縮短了作業(yè)平均響應(yīng)時間，提高了集群的效率。改進(jìn)后的LATE調(diào)度算法比改進(jìn)前對落后任務(wù)的判斷更加準(zhǔn)確，對跨機(jī)架作業(yè)的推測執(zhí)行更加合理，提高了集群的效率。
【關(guān)鍵詞】：Hadoop MapReduce 延遲調(diào)度 LATE調(diào)度算法 本地性 負(fù)載均衡
【學(xué)位授予單位】：河北經(jīng)貿(mào)大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2015
【分類號】：TP301.6
【目錄】：

摘要4-6
Abstract6-11
1 緒論11-17
1.1 研究背景11
1.2 研究的目的和意義11-13
1.3 國內(nèi)外研究現(xiàn)狀13-14
1.4 本文的工作14-15
1.5 本文的結(jié)構(gòu)15-17
2 相關(guān)技術(shù)與現(xiàn)有調(diào)度算法17-29
2.1 云計算概述17-21
2.1.1 云計算定義17
2.1.2 云計算特點(diǎn)17-18
2.1.3 云計算關(guān)鍵技術(shù)18-20
2.1.4 云計算平臺20-21
2.2 Hadoop 平臺21-24
2.2.1 Hadoop 平臺概述21-22
2.2.2 HDFS 的系統(tǒng)架構(gòu)22-23
2.2.3 MapReduce 的工作原理23-24
2.3 Hadoop 調(diào)度算法24-28
2.3.1 先進(jìn)先出調(diào)度算法25
2.3.2 計算能力調(diào)度算法25-26
2.3.3 公平調(diào)度算法26-27
2.3.4 延遲調(diào)度算法27
2.3.5 LATE 調(diào)度算法27-28
2.4 本章小結(jié)28-29
3 延遲調(diào)度算法的研究與改進(jìn)29-39
3.1 延遲調(diào)度算法簡介29-30
3.1.1 基本概念29-30
3.1.2 延遲調(diào)度算法分析30
3.2 現(xiàn)有算法存在問題30-31
3.3 改進(jìn)思路31-32
3.3.1 定義幾個概念31-32
3.3.2 算法過程描述32
3.4 改進(jìn)后的算法32-33
3.5 實(shí)驗平臺搭建與結(jié)果分析33-38
3.5.1 實(shí)驗平臺搭建33-36
3.5.2 實(shí)驗平臺配置36-37
3.5.3 實(shí)驗結(jié)果與分析37-38
3.6 本章小結(jié)38-39
4 LATE 調(diào)度算法的研究與改進(jìn)39-49
4.1 Hadoop 默認(rèn)推測執(zhí)行算法39-40
4.2 LATE 調(diào)度算法的基本原理40
4.3 LATE 調(diào)度算法存在不足40-41
4.3.1 落后任務(wù)判斷問題40-41
4.3.2 節(jié)點(diǎn)負(fù)載不均衡問題41
4.3.3 數(shù)據(jù)局部性問題41
4.4 改進(jìn)思路41-42
4.5 具體步驟42-44
4.6 實(shí)驗平臺搭建與結(jié)果分析44-47
4.6.1 實(shí)驗平臺搭建44-45
4.6.2 實(shí)驗平臺配置45-46
4.6.3 實(shí)驗結(jié)果與分析46-47
4.7 本章小結(jié)47-49
5 總結(jié)與展望49-51
5.1 總結(jié)49
5.2 展望49-51
參考文獻(xiàn)51-55
致謝55-56
攻讀學(xué)位期間取得的科研成果清單56
在校期間參研項目56

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 李麗英;唐卓;李仁發(fā);;基于LATE的Hadoop數(shù)據(jù)局部性改進(jìn)調(diào)度算法[J];計算機(jī)科學(xué);2011年11期

2 欒亞建;黃爛

本文編號：823793

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/823793.html

上一篇：數(shù)字圖書館跨媒體檢索技術(shù)研究
下一篇：面向資源的高校圖書館資源推薦服務(wù)方法探討

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

Hadoop平臺作業(yè)調(diào)度算法研究與改進(jìn)