MapReduce模型在Hadoop實(shí)現(xiàn)中的性能分析及改進(jìn)優(yōu)化
發(fā)布時(shí)間:2021-04-14 02:48
云計(jì)算的提出是對(duì)互聯(lián)網(wǎng)的一個(gè)沖擊,它實(shí)現(xiàn)了計(jì)算能力的商品化,其透明性和簡(jiǎn)單的編程模式為開(kāi)發(fā)者帶來(lái)了更便捷的服務(wù)開(kāi)發(fā)和部署方式。2009年被稱為云計(jì)算元年,Amazon、Google、IBM等諸多IT巨頭都把目光聚焦在云計(jì)算,將其視為未來(lái)發(fā)展的主要戰(zhàn)略方向。因此,對(duì)云計(jì)算進(jìn)行研究即迎合了IT技術(shù)的發(fā)展趨勢(shì),又具有較強(qiáng)的實(shí)際意義和商用價(jià)值。MapReduce是一種簡(jiǎn)單的并行計(jì)算模型,它將簡(jiǎn)單的業(yè)務(wù)邏輯從復(fù)雜的實(shí)現(xiàn)細(xì)節(jié)中分離出來(lái),提供了一系列簡(jiǎn)單強(qiáng)大的接口,通過(guò)這些接口可以實(shí)現(xiàn)大規(guī)模計(jì)算得自發(fā)的并發(fā)和分布執(zhí)行。MapReduce的這種特性使得它成為了云計(jì)算的首要選擇。它不僅僅是編程模型,還是優(yōu)秀的任務(wù)調(diào)度模型,其作業(yè)調(diào)度問(wèn)題已成為業(yè)內(nèi)最熱烈的討論話題之一,并成為云計(jì)算系統(tǒng)高效穩(wěn)定運(yùn)行的關(guān)鍵技術(shù)。Hadoop是對(duì)Google公司MapReduce模型的開(kāi)源實(shí)現(xiàn),它已成為當(dāng)前應(yīng)用最廣泛的開(kāi)源云計(jì)算平臺(tái),但Hadoop發(fā)展時(shí)間較短,仍有許多不足的地方需要改進(jìn)。本文對(duì)云計(jì)算的關(guān)鍵技術(shù)之一MapReduce編程模型做了深入的研究,并在Hadoop平臺(tái)上對(duì)MapReduce的典型應(yīng)用進(jìn)行了關(guān)鍵性能指標(biāo)的...
【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:83 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 引言
1.1 研究背景
1.2 本文的工作
1.3 本文的結(jié)構(gòu)
1.4 本章小結(jié)
第二章 相關(guān)技術(shù)和系統(tǒng)平臺(tái)研究
2.1 云計(jì)算概述
2.1.1 云計(jì)算的基本概念
2.1.2 云計(jì)算模型
2.1.3 云計(jì)算的特性和應(yīng)用
2.1.3.1 云計(jì)算的特性
2.1.3.2 云計(jì)算的應(yīng)用
2.2 并行計(jì)算概述
2.2.1 并行計(jì)算的基本概念
2.2.2 并行計(jì)算中并行機(jī)模式
2.2.3 并行計(jì)算模型
2.2.4 并行算法
2.3 MAPREDUCE 模型概述
2.3.1 MapReduce 的編程模型
2.3.2 MapReduce 的典型應(yīng)用
2.3.3 MapReduce 模型的實(shí)現(xiàn)方法
2.3.3.1.G oogle 計(jì)算環(huán)境
2.3.3.2.M apReduce 實(shí)現(xiàn)框架
2.3.3.3.M apReduce 的任務(wù)顆粒度和并行
2.3.3.4.M apReduce 的容錯(cuò)考慮
2.3.4 Hadoop 中調(diào)度算法的研究
2.4 本章小結(jié)
第三章 MAPREDUCE 在HADOOP 中的性能評(píng)估及分析
3.1 HADOOP 平臺(tái)的研究
3.1.1 主從式的HDFS
3.1.2 主從式計(jì)算系統(tǒng)MapReduce
3.2 MAPREDUCE 性能評(píng)估指標(biāo)的設(shè)計(jì)
3.3 設(shè)計(jì)基準(zhǔn)測(cè)試程序集
3.3.1 基準(zhǔn)測(cè)試程序的設(shè)計(jì)
3.3.1.1 字?jǐn)?shù)統(tǒng)計(jì)
3.3.1.2 網(wǎng)頁(yè)級(jí)別
3.3.1.3 PennySort
3.3.2 基準(zhǔn)測(cè)試程序集的衡量指標(biāo)
3.4 實(shí)驗(yàn)平臺(tái)的搭建
3.4.1 集群配置方案
3.4.2 Hadoop 的配置與安裝
3.4.2.1 配置ssh 和JDK
3.4.2.2 Hadoop 的安裝配置
3.5 實(shí)驗(yàn)方案設(shè)計(jì)
3.5.1 數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)
3.5.2 對(duì)統(tǒng)計(jì)信息進(jìn)行分析
3.6 實(shí)驗(yàn)結(jié)果及分析
3.6.1 任務(wù)獨(dú)立響應(yīng)時(shí)間與任務(wù)總響應(yīng)時(shí)間
3.6.2 平均響應(yīng)時(shí)間
3.6.2.1 同構(gòu)機(jī)群下MapReduce 的平均響應(yīng)時(shí)間
3.6.2.2 異構(gòu)機(jī)群下MapReduce 的平均響應(yīng)時(shí)間
3.6.3 加速比
3.6.4 公平性
3.7 對(duì)實(shí)驗(yàn)結(jié)果的分析
3.8 本章小結(jié)
第四章 對(duì)HADOOP 調(diào)度算法的改進(jìn)優(yōu)化
4.1 HADOOP 中調(diào)度程序的研究
4.1.1 推測(cè)執(zhí)行任務(wù)(Speculative Executing Task)
4.1.2 Hadoop 中的推測(cè)執(zhí)行
4.1.3 Hadoop 調(diào)度程序中的幾點(diǎn)假設(shè)
4.1.4 異構(gòu)性使得Hadoop 中的假設(shè)失效
4.1.4.1 機(jī)群的異構(gòu)性
4.1.4.2 異構(gòu)行推翻Hadoop 的其他假設(shè)
4.2 HADOOP 中與任務(wù)調(diào)度有關(guān)的類
4.2.1 Job 創(chuàng)建過(guò)程
4.2.2 Job 初始化過(guò)程
4.2.3 Task 執(zhí)行過(guò)程
4.3 基于優(yōu)先級(jí)加權(quán)的滑動(dòng)窗口調(diào)度算法
4.3.1 權(quán)重的計(jì)算方法及任務(wù)分配策略
4.3.1.1 權(quán)重的計(jì)算方法
4.3.1.2 一個(gè)輪轉(zhuǎn)周期內(nèi)的任務(wù)分配策略
4.3.2 自適應(yīng)調(diào)整滑動(dòng)窗口的大小
4.3.2.1 調(diào)整滑動(dòng)窗口大小的基本思想和流程
4.3.2.2 滑動(dòng)窗口調(diào)整算法
4.3.3 更效率的推測(cè)執(zhí)行
4.3.3.1 掉隊(duì)者判定策略
4.3.3.2 慢節(jié)點(diǎn)判定策略
4.3.3.3 推測(cè)執(zhí)行的實(shí)現(xiàn)
4.3.4 PWSW 算法較Hadoop 調(diào)度算法的優(yōu)勢(shì)
4.3.5 本章小結(jié)
第五章 實(shí)驗(yàn)及結(jié)果分析
5.1 實(shí)驗(yàn)平臺(tái)選擇及配置
5.2 實(shí)驗(yàn)結(jié)果及分析
5.3 實(shí)驗(yàn)結(jié)果分析
5.4 本章小結(jié)
第六章 總結(jié)和展望
致謝
參考文獻(xiàn)
碩士期間經(jīng)歷及取得的成果
【參考文獻(xiàn)】:
期刊論文
[1]Hadoop集群作業(yè)的調(diào)度算法[J]. 王峰. 程序員. 2009(12)
[2]一種改進(jìn)的MapReduce并行編程模型[J]. 周鋒,李旭偉. 科協(xié)論壇(下半月). 2009(02)
[3]云計(jì)算中的存儲(chǔ)[J]. 馮大輝. 程序員. 2008(11)
[4]MapReduce模型的調(diào)度及容錯(cuò)機(jī)制研究[J]. 孫廣中,肖鋒,熊曦. 微電子學(xué)與計(jì)算機(jī). 2007(09)
本文編號(hào):3136505
【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:83 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 引言
1.1 研究背景
1.2 本文的工作
1.3 本文的結(jié)構(gòu)
1.4 本章小結(jié)
第二章 相關(guān)技術(shù)和系統(tǒng)平臺(tái)研究
2.1 云計(jì)算概述
2.1.1 云計(jì)算的基本概念
2.1.2 云計(jì)算模型
2.1.3 云計(jì)算的特性和應(yīng)用
2.1.3.1 云計(jì)算的特性
2.1.3.2 云計(jì)算的應(yīng)用
2.2 并行計(jì)算概述
2.2.1 并行計(jì)算的基本概念
2.2.2 并行計(jì)算中并行機(jī)模式
2.2.3 并行計(jì)算模型
2.2.4 并行算法
2.3 MAPREDUCE 模型概述
2.3.1 MapReduce 的編程模型
2.3.2 MapReduce 的典型應(yīng)用
2.3.3 MapReduce 模型的實(shí)現(xiàn)方法
2.3.3.1.G oogle 計(jì)算環(huán)境
2.3.3.2.M apReduce 實(shí)現(xiàn)框架
2.3.3.3.M apReduce 的任務(wù)顆粒度和并行
2.3.3.4.M apReduce 的容錯(cuò)考慮
2.3.4 Hadoop 中調(diào)度算法的研究
2.4 本章小結(jié)
第三章 MAPREDUCE 在HADOOP 中的性能評(píng)估及分析
3.1 HADOOP 平臺(tái)的研究
3.1.1 主從式的HDFS
3.1.2 主從式計(jì)算系統(tǒng)MapReduce
3.2 MAPREDUCE 性能評(píng)估指標(biāo)的設(shè)計(jì)
3.3 設(shè)計(jì)基準(zhǔn)測(cè)試程序集
3.3.1 基準(zhǔn)測(cè)試程序的設(shè)計(jì)
3.3.1.1 字?jǐn)?shù)統(tǒng)計(jì)
3.3.1.2 網(wǎng)頁(yè)級(jí)別
3.3.1.3 PennySort
3.3.2 基準(zhǔn)測(cè)試程序集的衡量指標(biāo)
3.4 實(shí)驗(yàn)平臺(tái)的搭建
3.4.1 集群配置方案
3.4.2 Hadoop 的配置與安裝
3.4.2.1 配置ssh 和JDK
3.4.2.2 Hadoop 的安裝配置
3.5 實(shí)驗(yàn)方案設(shè)計(jì)
3.5.1 數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)
3.5.2 對(duì)統(tǒng)計(jì)信息進(jìn)行分析
3.6 實(shí)驗(yàn)結(jié)果及分析
3.6.1 任務(wù)獨(dú)立響應(yīng)時(shí)間與任務(wù)總響應(yīng)時(shí)間
3.6.2 平均響應(yīng)時(shí)間
3.6.2.1 同構(gòu)機(jī)群下MapReduce 的平均響應(yīng)時(shí)間
3.6.2.2 異構(gòu)機(jī)群下MapReduce 的平均響應(yīng)時(shí)間
3.6.3 加速比
3.6.4 公平性
3.7 對(duì)實(shí)驗(yàn)結(jié)果的分析
3.8 本章小結(jié)
第四章 對(duì)HADOOP 調(diào)度算法的改進(jìn)優(yōu)化
4.1 HADOOP 中調(diào)度程序的研究
4.1.1 推測(cè)執(zhí)行任務(wù)(Speculative Executing Task)
4.1.2 Hadoop 中的推測(cè)執(zhí)行
4.1.3 Hadoop 調(diào)度程序中的幾點(diǎn)假設(shè)
4.1.4 異構(gòu)性使得Hadoop 中的假設(shè)失效
4.1.4.1 機(jī)群的異構(gòu)性
4.1.4.2 異構(gòu)行推翻Hadoop 的其他假設(shè)
4.2 HADOOP 中與任務(wù)調(diào)度有關(guān)的類
4.2.1 Job 創(chuàng)建過(guò)程
4.2.2 Job 初始化過(guò)程
4.2.3 Task 執(zhí)行過(guò)程
4.3 基于優(yōu)先級(jí)加權(quán)的滑動(dòng)窗口調(diào)度算法
4.3.1 權(quán)重的計(jì)算方法及任務(wù)分配策略
4.3.1.1 權(quán)重的計(jì)算方法
4.3.1.2 一個(gè)輪轉(zhuǎn)周期內(nèi)的任務(wù)分配策略
4.3.2 自適應(yīng)調(diào)整滑動(dòng)窗口的大小
4.3.2.1 調(diào)整滑動(dòng)窗口大小的基本思想和流程
4.3.2.2 滑動(dòng)窗口調(diào)整算法
4.3.3 更效率的推測(cè)執(zhí)行
4.3.3.1 掉隊(duì)者判定策略
4.3.3.2 慢節(jié)點(diǎn)判定策略
4.3.3.3 推測(cè)執(zhí)行的實(shí)現(xiàn)
4.3.4 PWSW 算法較Hadoop 調(diào)度算法的優(yōu)勢(shì)
4.3.5 本章小結(jié)
第五章 實(shí)驗(yàn)及結(jié)果分析
5.1 實(shí)驗(yàn)平臺(tái)選擇及配置
5.2 實(shí)驗(yàn)結(jié)果及分析
5.3 實(shí)驗(yàn)結(jié)果分析
5.4 本章小結(jié)
第六章 總結(jié)和展望
致謝
參考文獻(xiàn)
碩士期間經(jīng)歷及取得的成果
【參考文獻(xiàn)】:
期刊論文
[1]Hadoop集群作業(yè)的調(diào)度算法[J]. 王峰. 程序員. 2009(12)
[2]一種改進(jìn)的MapReduce并行編程模型[J]. 周鋒,李旭偉. 科協(xié)論壇(下半月). 2009(02)
[3]云計(jì)算中的存儲(chǔ)[J]. 馮大輝. 程序員. 2008(11)
[4]MapReduce模型的調(diào)度及容錯(cuò)機(jī)制研究[J]. 孫廣中,肖鋒,熊曦. 微電子學(xué)與計(jì)算機(jī). 2007(09)
本文編號(hào):3136505
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3136505.html
最近更新
教材專著