天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于內存與文件共享機制的Spark I/O性能優(yōu)化

發(fā)布時間:2023-02-06 18:45
  通過對Spark采用的彈性分布式數(shù)據集及任務調度等關鍵技術進行分析,發(fā)現(xiàn)數(shù)據處理I/O時間是影響Spark計算性能的主要瓶頸。為此,研究Spark合并文件運行模式,該模式能夠減少緩存文件數(shù)量,提高Spark的I/O效率,但存在內存開銷較高的缺點。在此基礎上,給出改進的Spark Shuffle過程,即通過設計一種使每個Mapper只生成一個緩存文件的運行模式,并且每個Mapper共享同一個內存緩沖區(qū),從而提高I/O效率和減少內存開銷。仿真結果表明,與Spark默認模式相比,該運行模式寬依賴計算過程的I/O時間縮短42.9%,可有效提高內存利用率和Spark平臺運算效率。

【文章頁數(shù)】:6 頁

【文章目錄】:
0概述
1 Spark內核關鍵技術
    1.1 RDD技術
    1.2 Spark任務調度
        1.2.1 Spark窄依賴過程
        1.2.2 Spark寬依賴過程
        1.2.3 Spark任務調度器
2 Spark寬依賴技術優(yōu)化
3 仿真與性能分析
    3.1 I/O性能模擬
        3.1.1 仿真環(huán)境設置
        3.1.2 仿真結果分析
    3.2 實際運行結果
4 結束語



本文編號:3736418

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3736418.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶33ebe***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com