基于內存與文件共享機制的Spark I/O性能優(yōu)化

發(fā)布時間：2023-02-06 18:45

　　通過對Spark采用的彈性分布式數(shù)據集及任務調度等關鍵技術進行分析,發(fā)現(xiàn)數(shù)據處理I/O時間是影響Spark計算性能的主要瓶頸。為此,研究Spark合并文件運行模式,該模式能夠減少緩存文件數(shù)量,提高Spark的I/O效率,但存在內存開銷較高的缺點。在此基礎上,給出改進的Spark Shuffle過程,即通過設計一種使每個Mapper只生成一個緩存文件的運行模式,并且每個Mapper共享同一個內存緩沖區(qū),從而提高I/O效率和減少內存開銷。仿真結果表明,與Spark默認模式相比,該運行模式寬依賴計算過程的I/O時間縮短42.9%,可有效提高內存利用率和Spark平臺運算效率。

【文章頁數(shù)】：6 頁

【文章目錄】：
0概述
1 Spark內核關鍵技術
    1.1 RDD技術
    1.2 Spark任務調度
        1.2.1 Spark窄依賴過程
        1.2.2 Spark寬依賴過程
        1.2.3 Spark任務調度器
2 Spark寬依賴技術優(yōu)化
3 仿真與性能分析
    3.1 I/O性能模擬
        3.1.1 仿真環(huán)境設置
        3.1.2 仿真結果分析
    3.2 實際運行結果
4 結束語

本文編號：3736418

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3736418.html

上一篇：信息技術應用于高校思政課改革的主要形態(tài)及其實效研究
下一篇：基于WebGL的城市地下管網三維可視化研究及應用

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于內存與文件共享機制的Spark I/O性能優(yōu)化