分布式云平臺(tái)資源優(yōu)化問(wèn)題研究
發(fā)布時(shí)間:2023-03-24 02:05
隨著移動(dòng)互聯(lián)網(wǎng)與計(jì)算機(jī)技術(shù)的快速發(fā)展,人類逐步踏入一個(gè)由龐大數(shù)據(jù)所支撐的信息社會(huì)。近年來(lái),對(duì)于海量數(shù)據(jù)的存儲(chǔ)和計(jì)算成為學(xué)術(shù)界以及工業(yè)界重點(diǎn)關(guān)注的問(wèn)題之一,尤其是以Hadoop和Spark為代表的云計(jì)算生態(tài)組件被廣泛應(yīng)用于數(shù)以千計(jì)的業(yè)務(wù)場(chǎng)景下。但是,隨著數(shù)據(jù)中心規(guī)模的不斷擴(kuò)大,運(yùn)維及資源開(kāi)銷成本的日益激增,人們?cè)谧非笥?jì)算性能提升的同時(shí),開(kāi)始關(guān)注于偌大集群的資源優(yōu)化問(wèn)題;谏鲜霰尘,本文著重對(duì)Hadoop及Spark分布式計(jì)算平臺(tái)在資源消耗方面的優(yōu)化問(wèn)題進(jìn)行研究,具體工作主要包含以下四個(gè)方面:1.提出了一種面向Hadoop2.0的資源消耗預(yù)測(cè)模型。模型構(gòu)建包含三步:首先,構(gòu)建單任務(wù)模型,基于MapReduce流程仿真與日志分析,擬合單任務(wù)資源消耗與數(shù)據(jù)量間的變化關(guān)系;其次,利用皮爾遜假設(shè)檢驗(yàn)方法,對(duì)并行場(chǎng)景下MapReduce各階段執(zhí)行時(shí)間的分布進(jìn)行估計(jì);最后,提出以平均場(chǎng)模型為核心的任務(wù)再生與調(diào)度策略,將賦予時(shí)間估計(jì)值的單任務(wù)模型在時(shí)間軸中進(jìn)行橫向追加與縱向累積,以平均效應(yīng)替代疊加效應(yīng),實(shí)現(xiàn)對(duì)Hadoop2.0集群各項(xiàng)資源消耗(CPU、內(nèi)存、磁盤讀寫、網(wǎng)絡(luò)讀寫)及應(yīng)用程序執(zhí)行時(shí)間的預(yù)測(cè)...
【文章頁(yè)數(shù)】:78 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 Hadoop資源優(yōu)化研究現(xiàn)狀
1.2.2 Spark資源優(yōu)化研究現(xiàn)狀
1.3 研究?jī)?nèi)容與技術(shù)路線
1.4 本文的組織結(jié)構(gòu)與研究?jī)?nèi)容
1.5 本章小結(jié)
第2章 相關(guān)技術(shù)概述
2.1 Hadoop生態(tài)圈
2.1.1 Hadoop基礎(chǔ)架構(gòu)
2.1.2 Hadoop生態(tài)系統(tǒng)
2.2 Spark生態(tài)圈
2.2.1 Spark基礎(chǔ)架構(gòu)
2.2.2 Spark生態(tài)系統(tǒng)
2.2.3 RDD
2.3 資源消耗優(yōu)化技術(shù)
2.4 本章小結(jié)
第3章 Hadoop2.0 資源消耗預(yù)測(cè)模型
3.1 MapReduce資源消耗分析
3.2 模型總體設(shè)計(jì)概覽
3.3 單任務(wù)模型
3.3.1 建模原理
3.3.2 算法設(shè)計(jì)與實(shí)現(xiàn)
3.4 多任務(wù)并發(fā)模型
3.4.1 統(tǒng)計(jì)學(xué)原理
3.4.2 算法設(shè)計(jì)與實(shí)現(xiàn)
3.5 多任務(wù)再生與調(diào)度策略
3.6 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
3.6.1 實(shí)驗(yàn)環(huán)境
3.6.2 實(shí)驗(yàn)流程
3.6.3 基準(zhǔn)測(cè)試
3.6.4 實(shí)驗(yàn)結(jié)果與分析
3.7 本章小結(jié)
第4章 Spark資源消耗成本優(yōu)化模型
4.1 基于DAG的 Spark計(jì)算框架
4.1.1 DAGScheduler原理
4.1.2 Spark Checkpoint原理及特性
4.2 模型總體設(shè)計(jì)概覽
4.3 成本計(jì)算模型
4.3.1 整體成本模型
4.3.2 基準(zhǔn)成本率模型
4.4 Attention-DAG抽取器
4.5 成本優(yōu)化模型
4.5.1 最優(yōu)化問(wèn)題定義
4.5.2 成本優(yōu)化建模
4.6 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
4.6.1 實(shí)驗(yàn)環(huán)境
4.6.2 實(shí)驗(yàn)流程
4.6.5 實(shí)驗(yàn)結(jié)果與分析
4.7 本章小結(jié)
第5章 系統(tǒng)集成與案例展示
5.1 系統(tǒng)設(shè)計(jì)
5.2 系統(tǒng)實(shí)現(xiàn)
5.3 案例展示
5.5 本章小結(jié)
結(jié)論與展望
本文工作總結(jié)
未來(lái)工作展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及科研成果
本文編號(hào):3769223
【文章頁(yè)數(shù)】:78 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 Hadoop資源優(yōu)化研究現(xiàn)狀
1.2.2 Spark資源優(yōu)化研究現(xiàn)狀
1.3 研究?jī)?nèi)容與技術(shù)路線
1.4 本文的組織結(jié)構(gòu)與研究?jī)?nèi)容
1.5 本章小結(jié)
第2章 相關(guān)技術(shù)概述
2.1 Hadoop生態(tài)圈
2.1.1 Hadoop基礎(chǔ)架構(gòu)
2.1.2 Hadoop生態(tài)系統(tǒng)
2.2 Spark生態(tài)圈
2.2.1 Spark基礎(chǔ)架構(gòu)
2.2.2 Spark生態(tài)系統(tǒng)
2.2.3 RDD
2.3 資源消耗優(yōu)化技術(shù)
2.4 本章小結(jié)
第3章 Hadoop2.0 資源消耗預(yù)測(cè)模型
3.1 MapReduce資源消耗分析
3.2 模型總體設(shè)計(jì)概覽
3.3 單任務(wù)模型
3.3.1 建模原理
3.3.2 算法設(shè)計(jì)與實(shí)現(xiàn)
3.4 多任務(wù)并發(fā)模型
3.4.1 統(tǒng)計(jì)學(xué)原理
3.4.2 算法設(shè)計(jì)與實(shí)現(xiàn)
3.5 多任務(wù)再生與調(diào)度策略
3.6 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
3.6.1 實(shí)驗(yàn)環(huán)境
3.6.2 實(shí)驗(yàn)流程
3.6.3 基準(zhǔn)測(cè)試
3.6.4 實(shí)驗(yàn)結(jié)果與分析
3.7 本章小結(jié)
第4章 Spark資源消耗成本優(yōu)化模型
4.1 基于DAG的 Spark計(jì)算框架
4.1.1 DAGScheduler原理
4.1.2 Spark Checkpoint原理及特性
4.2 模型總體設(shè)計(jì)概覽
4.3 成本計(jì)算模型
4.3.1 整體成本模型
4.3.2 基準(zhǔn)成本率模型
4.4 Attention-DAG抽取器
4.5 成本優(yōu)化模型
4.5.1 最優(yōu)化問(wèn)題定義
4.5.2 成本優(yōu)化建模
4.6 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
4.6.1 實(shí)驗(yàn)環(huán)境
4.6.2 實(shí)驗(yàn)流程
4.6.5 實(shí)驗(yàn)結(jié)果與分析
4.7 本章小結(jié)
第5章 系統(tǒng)集成與案例展示
5.1 系統(tǒng)設(shè)計(jì)
5.2 系統(tǒng)實(shí)現(xiàn)
5.3 案例展示
5.5 本章小結(jié)
結(jié)論與展望
本文工作總結(jié)
未來(lái)工作展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及科研成果
本文編號(hào):3769223
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3769223.html
最近更新
教材專著