Spark Shuffle過程性能優(yōu)化研究
發(fā)布時(shí)間:2023-02-13 14:46
隨著大數(shù)據(jù)應(yīng)用需求的發(fā)展,分布式計(jì)算也越來越流行,諸如Spark、Storm、Dryad等多個(gè)并行計(jì)算框架應(yīng)運(yùn)而生。與MapReduce不同,Spark計(jì)算過程中將數(shù)據(jù)存放在內(nèi)存中,減少了頻繁的I/O讀寫,因此在處理迭代型作業(yè)時(shí)有更好的表現(xiàn)。作為類MapReduce的通用并行框架,Spark計(jì)算過程中也會(huì)包含Shuffle過程,該過程用于連接Map階段和Reduce階段。由于Shuffle過程會(huì)觸發(fā)大量的網(wǎng)絡(luò)和磁盤I/O,所以Shuffle過程直接影響到整個(gè)系統(tǒng)的計(jì)算效率。論文針對(duì)Spark Shuffle過程中存在的網(wǎng)絡(luò)擁塞問題、異構(gòu)集群下“木桶效應(yīng)”問題,進(jìn)行優(yōu)化研究。具體完成了以下工作:1.為保持Stage的順序性,Shuffle過程需要節(jié)點(diǎn)之間進(jìn)行任務(wù)同步操作,目前的同步機(jī)制不僅會(huì)浪費(fèi)集群的計(jì)算資源,更會(huì)產(chǎn)生嚴(yán)重的網(wǎng)絡(luò)擁堵,最終降低集群計(jì)算性能。針對(duì)該問題,提出一種局部任務(wù)優(yōu)先Shuffle策略,動(dòng)態(tài)生成ShuffleWrite任務(wù),并對(duì)部分已完成的任務(wù)提前執(zhí)行Shuffle操作。該策略增加了數(shù)據(jù)計(jì)算與網(wǎng)絡(luò)傳輸?shù)牟⑿卸?降低了Shuffle階段網(wǎng)絡(luò)傳輸?shù)姆逯?使集群在執(zhí)行作業(yè)過...
【文章頁數(shù)】:61 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
注釋表
第1章 緒論
1.1 研究背景與意義
1.2 研究現(xiàn)狀
1.3 主要研究工作
1.4 論文的組織架構(gòu)
第2章 技術(shù)基礎(chǔ)
2.1 Spark框架結(jié)構(gòu)
2.2 Spark運(yùn)行模式
2.2.1 Standalone模式
2.2.2 YARN模式
2.3 彈性分布式數(shù)據(jù)集
2.3.1 基本屬性
2.3.2 RDD的操作
2.4 Shuffle過程
2.4.1 ShuffleWrite
2.4.2 ShuffleRead
2.5 本章小結(jié)
第3章 局部任務(wù)優(yōu)先Shuffle策略
3.1 相關(guān)工作
3.2 問題分析
3.3 Shuffle過程優(yōu)化
3.3.1 執(zhí)行狀態(tài)預(yù)測(cè)模型
3.3.2 局部任務(wù)優(yōu)先Shuffle策略
3.4 實(shí)驗(yàn)結(jié)果與分析
3.4.1 實(shí)驗(yàn)環(huán)境
3.4.2 數(shù)據(jù)集
3.4.3 實(shí)驗(yàn)分析
3.5 本章小結(jié)
第4章 異構(gòu)集群Spark Shuffle的自適應(yīng)分區(qū)策略
4.1 相關(guān)工作
4.2 問題分析
4.3 節(jié)點(diǎn)計(jì)算性能評(píng)估模型
4.3.1 計(jì)算效率模型
4.3.2 目標(biāo)函數(shù)
4.4 自適應(yīng)分區(qū)策略
4.4.1 整體結(jié)構(gòu)
4.4.2 分區(qū)策略
4.4.3 分區(qū)匹配算法
4.5 實(shí)驗(yàn)結(jié)果與分析
4.5.1 實(shí)驗(yàn)環(huán)境
4.5.2 實(shí)驗(yàn)分析
4.6 本章小結(jié)
第5章 總結(jié)與展望
5.1 總結(jié)
5.2 未來工作
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間從事的科研工作及取得的成果
本文編號(hào):3741917
【文章頁數(shù)】:61 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
注釋表
第1章 緒論
1.1 研究背景與意義
1.2 研究現(xiàn)狀
1.3 主要研究工作
1.4 論文的組織架構(gòu)
第2章 技術(shù)基礎(chǔ)
2.1 Spark框架結(jié)構(gòu)
2.2 Spark運(yùn)行模式
2.2.1 Standalone模式
2.2.2 YARN模式
2.3 彈性分布式數(shù)據(jù)集
2.3.1 基本屬性
2.3.2 RDD的操作
2.4 Shuffle過程
2.4.1 ShuffleWrite
2.4.2 ShuffleRead
2.5 本章小結(jié)
第3章 局部任務(wù)優(yōu)先Shuffle策略
3.1 相關(guān)工作
3.2 問題分析
3.3 Shuffle過程優(yōu)化
3.3.1 執(zhí)行狀態(tài)預(yù)測(cè)模型
3.3.2 局部任務(wù)優(yōu)先Shuffle策略
3.4 實(shí)驗(yàn)結(jié)果與分析
3.4.1 實(shí)驗(yàn)環(huán)境
3.4.2 數(shù)據(jù)集
3.4.3 實(shí)驗(yàn)分析
3.5 本章小結(jié)
第4章 異構(gòu)集群Spark Shuffle的自適應(yīng)分區(qū)策略
4.1 相關(guān)工作
4.2 問題分析
4.3 節(jié)點(diǎn)計(jì)算性能評(píng)估模型
4.3.1 計(jì)算效率模型
4.3.2 目標(biāo)函數(shù)
4.4 自適應(yīng)分區(qū)策略
4.4.1 整體結(jié)構(gòu)
4.4.2 分區(qū)策略
4.4.3 分區(qū)匹配算法
4.5 實(shí)驗(yàn)結(jié)果與分析
4.5.1 實(shí)驗(yàn)環(huán)境
4.5.2 實(shí)驗(yàn)分析
4.6 本章小結(jié)
第5章 總結(jié)與展望
5.1 總結(jié)
5.2 未來工作
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間從事的科研工作及取得的成果
本文編號(hào):3741917
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3741917.html
最近更新
教材專著