Spark緩存機(jī)制和作業(yè)調(diào)度策略研究
發(fā)布時間:2023-03-04 11:35
隨著互聯(lián)網(wǎng)的高速發(fā)展,每天都會產(chǎn)生海量數(shù)據(jù)。如何快速且準(zhǔn)確的從海量數(shù)據(jù)中提取高價值的信息,成為當(dāng)前的研究熱點(diǎn),大數(shù)據(jù)處理技術(shù)便隨之產(chǎn)生,F(xiàn)如今,應(yīng)用最廣泛的大數(shù)據(jù)處理框架有Hadoop和Spark,Hadoop最先誕生,其使用MapReduce計(jì)算框架結(jié)合磁盤完成任務(wù)處理。Spark通過對數(shù)據(jù)集進(jìn)行抽象處理提出了 RDD數(shù)據(jù)模型,并引入基于內(nèi)存的計(jì)算模式,從而大大的減少了數(shù)據(jù)傳輸?shù)臅r間并提高了作業(yè)運(yùn)行效率。本文基于Spark計(jì)算平臺,研究了其進(jìn)行分布式計(jì)算時內(nèi)存管理和作業(yè)調(diào)度策略,首先通過對內(nèi)存管理進(jìn)行建模和分析,發(fā)現(xiàn)現(xiàn)有的內(nèi)存管理中的緩存替換算法存在缺陷,并提出進(jìn)行改進(jìn)方案,使得有限的內(nèi)存可以得到充分的利用。然后對Spark Standalone中默認(rèn)的作業(yè)調(diào)度策略進(jìn)行形式化分析,提出了新的作業(yè)調(diào)度策略,該策略提高了作業(yè)的運(yùn)行效率。下面將詳細(xì)介紹本文的主要研究工作:(1)提出一種基于RDD分區(qū)權(quán)重的緩存替換算法。目前,Spark采用的緩存替換算法LRU存在缺陷,即會使高重用但最近未使用的Block容易被換出緩存。針對上述問題,現(xiàn)有的研究工作提出了以權(quán)重大小為替換依據(jù)的緩存替換算法。但...
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景及意義
1.2 研究現(xiàn)狀
1.2.1 Spark緩存替換研究現(xiàn)狀
1.2.2 Spark作業(yè)調(diào)度研究現(xiàn)狀
1.3 論文的研究內(nèi)容與組織結(jié)構(gòu)
1.3.1 本文研究內(nèi)容
1.3.2 本文組織結(jié)構(gòu)
1.4 本章小結(jié)
2 基本理論與關(guān)鍵技術(shù)
2.1 Spark簡述
2.2 Spark基礎(chǔ)架構(gòu)
2.2.1 Spark設(shè)計(jì)思想
2.2.2 Spark計(jì)算模型
2.3 Spark作業(yè)執(zhí)行過程
2.4 本章小結(jié)
3 基于RDD分區(qū)權(quán)重緩存替換算法
3.1 Spark緩存機(jī)制
3.2 Spark緩存替換優(yōu)化方案
3.2.1 RDD計(jì)算代價CRDDi
3.2.2 RDD使用次數(shù)FRDDi
3.2.3 RDD分區(qū)大小Sp
3.2.4 RDD生命周期LTRDDi
3.2.5 RDD輸入位置ILRDDi
3.3 基于WCSRP模型的緩存替換算法
3.4 實(shí)驗(yàn)與結(jié)果分析
3.4.1 實(shí)驗(yàn)設(shè)置
3.4.2 實(shí)驗(yàn)分析
3.5 本章小結(jié)
4 基于作業(yè)分類自適應(yīng)作業(yè)調(diào)度策略
4.1 問題描述與建模
4.1.1 作業(yè)模型
4.1.2 作業(yè)分類模型
4.1.3 節(jié)點(diǎn)計(jì)算能力評估模型
4.1.4 自適應(yīng)作業(yè)調(diào)度策略問題定義
4.2 Spark作業(yè)調(diào)度策略優(yōu)化設(shè)計(jì)
4.2.1 數(shù)據(jù)收集模塊設(shè)計(jì)
4.2.2 作業(yè)分類模塊設(shè)計(jì)
4.2.3 計(jì)算能力評估模塊設(shè)計(jì)
4.2.4 作業(yè)分類算法
4.2.5 自適應(yīng)作業(yè)調(diào)度算法
4.3 實(shí)驗(yàn)與結(jié)果分析
4.3.1 作業(yè)分類的實(shí)驗(yàn)結(jié)果
4.3.2 自適應(yīng)作業(yè)調(diào)度的實(shí)驗(yàn)結(jié)果
4.4 本章小結(jié)
5 總結(jié)與展望
5.1 工作總結(jié)
5.2 未來展望
參考文獻(xiàn)
致謝
在校期間研究成果
本文編號:3754220
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景及意義
1.2 研究現(xiàn)狀
1.2.1 Spark緩存替換研究現(xiàn)狀
1.2.2 Spark作業(yè)調(diào)度研究現(xiàn)狀
1.3 論文的研究內(nèi)容與組織結(jié)構(gòu)
1.3.1 本文研究內(nèi)容
1.3.2 本文組織結(jié)構(gòu)
1.4 本章小結(jié)
2 基本理論與關(guān)鍵技術(shù)
2.1 Spark簡述
2.2 Spark基礎(chǔ)架構(gòu)
2.2.1 Spark設(shè)計(jì)思想
2.2.2 Spark計(jì)算模型
2.3 Spark作業(yè)執(zhí)行過程
2.4 本章小結(jié)
3 基于RDD分區(qū)權(quán)重緩存替換算法
3.1 Spark緩存機(jī)制
3.2 Spark緩存替換優(yōu)化方案
3.2.1 RDD計(jì)算代價CRDDi
3.4 實(shí)驗(yàn)與結(jié)果分析
3.4.1 實(shí)驗(yàn)設(shè)置
3.4.2 實(shí)驗(yàn)分析
3.5 本章小結(jié)
4 基于作業(yè)分類自適應(yīng)作業(yè)調(diào)度策略
4.1 問題描述與建模
4.1.1 作業(yè)模型
4.1.2 作業(yè)分類模型
4.1.3 節(jié)點(diǎn)計(jì)算能力評估模型
4.1.4 自適應(yīng)作業(yè)調(diào)度策略問題定義
4.2 Spark作業(yè)調(diào)度策略優(yōu)化設(shè)計(jì)
4.2.1 數(shù)據(jù)收集模塊設(shè)計(jì)
4.2.2 作業(yè)分類模塊設(shè)計(jì)
4.2.3 計(jì)算能力評估模塊設(shè)計(jì)
4.2.4 作業(yè)分類算法
4.2.5 自適應(yīng)作業(yè)調(diào)度算法
4.3 實(shí)驗(yàn)與結(jié)果分析
4.3.1 作業(yè)分類的實(shí)驗(yàn)結(jié)果
4.3.2 自適應(yīng)作業(yè)調(diào)度的實(shí)驗(yàn)結(jié)果
4.4 本章小結(jié)
5 總結(jié)與展望
5.1 工作總結(jié)
5.2 未來展望
參考文獻(xiàn)
致謝
在校期間研究成果
本文編號:3754220
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3754220.html
最近更新
教材專著