基于內存與文件共享機制的Spark I/O性能優(yōu)化
發(fā)布時間:2023-02-06 18:45
通過對Spark采用的彈性分布式數(shù)據集及任務調度等關鍵技術進行分析,發(fā)現(xiàn)數(shù)據處理I/O時間是影響Spark計算性能的主要瓶頸。為此,研究Spark合并文件運行模式,該模式能夠減少緩存文件數(shù)量,提高Spark的I/O效率,但存在內存開銷較高的缺點。在此基礎上,給出改進的Spark Shuffle過程,即通過設計一種使每個Mapper只生成一個緩存文件的運行模式,并且每個Mapper共享同一個內存緩沖區(qū),從而提高I/O效率和減少內存開銷。仿真結果表明,與Spark默認模式相比,該運行模式寬依賴計算過程的I/O時間縮短42.9%,可有效提高內存利用率和Spark平臺運算效率。
【文章頁數(shù)】:6 頁
【文章目錄】:
0概述
1 Spark內核關鍵技術
1.1 RDD技術
1.2 Spark任務調度
1.2.1 Spark窄依賴過程
1.2.2 Spark寬依賴過程
1.2.3 Spark任務調度器
2 Spark寬依賴技術優(yōu)化
3 仿真與性能分析
3.1 I/O性能模擬
3.1.1 仿真環(huán)境設置
3.1.2 仿真結果分析
3.2 實際運行結果
4 結束語
本文編號:3736418
【文章頁數(shù)】:6 頁
【文章目錄】:
0概述
1 Spark內核關鍵技術
1.1 RDD技術
1.2 Spark任務調度
1.2.1 Spark窄依賴過程
1.2.2 Spark寬依賴過程
1.2.3 Spark任務調度器
2 Spark寬依賴技術優(yōu)化
3 仿真與性能分析
3.1 I/O性能模擬
3.1.1 仿真環(huán)境設置
3.1.2 仿真結果分析
3.2 實際運行結果
4 結束語
本文編號:3736418
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3736418.html