基于內(nèi)存與文件共享機(jī)制的Spark I/O性能優(yōu)化
發(fā)布時(shí)間:2023-02-06 18:45
通過對Spark采用的彈性分布式數(shù)據(jù)集及任務(wù)調(diào)度等關(guān)鍵技術(shù)進(jìn)行分析,發(fā)現(xiàn)數(shù)據(jù)處理I/O時(shí)間是影響Spark計(jì)算性能的主要瓶頸。為此,研究Spark合并文件運(yùn)行模式,該模式能夠減少緩存文件數(shù)量,提高Spark的I/O效率,但存在內(nèi)存開銷較高的缺點(diǎn)。在此基礎(chǔ)上,給出改進(jìn)的Spark Shuffle過程,即通過設(shè)計(jì)一種使每個(gè)Mapper只生成一個(gè)緩存文件的運(yùn)行模式,并且每個(gè)Mapper共享同一個(gè)內(nèi)存緩沖區(qū),從而提高I/O效率和減少內(nèi)存開銷。仿真結(jié)果表明,與Spark默認(rèn)模式相比,該運(yùn)行模式寬依賴計(jì)算過程的I/O時(shí)間縮短42.9%,可有效提高內(nèi)存利用率和Spark平臺(tái)運(yùn)算效率。
【文章頁數(shù)】:6 頁
【文章目錄】:
0概述
1 Spark內(nèi)核關(guān)鍵技術(shù)
1.1 RDD技術(shù)
1.2 Spark任務(wù)調(diào)度
1.2.1 Spark窄依賴過程
1.2.2 Spark寬依賴過程
1.2.3 Spark任務(wù)調(diào)度器
2 Spark寬依賴技術(shù)優(yōu)化
3 仿真與性能分析
3.1 I/O性能模擬
3.1.1 仿真環(huán)境設(shè)置
3.1.2 仿真結(jié)果分析
3.2 實(shí)際運(yùn)行結(jié)果
4 結(jié)束語
本文編號:3736418
【文章頁數(shù)】:6 頁
【文章目錄】:
0概述
1 Spark內(nèi)核關(guān)鍵技術(shù)
1.1 RDD技術(shù)
1.2 Spark任務(wù)調(diào)度
1.2.1 Spark窄依賴過程
1.2.2 Spark寬依賴過程
1.2.3 Spark任務(wù)調(diào)度器
2 Spark寬依賴技術(shù)優(yōu)化
3 仿真與性能分析
3.1 I/O性能模擬
3.1.1 仿真環(huán)境設(shè)置
3.1.2 仿真結(jié)果分析
3.2 實(shí)際運(yùn)行結(jié)果
4 結(jié)束語
本文編號:3736418
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3736418.html
最近更新
教材專著