并行計算框架Spark的自適應(yīng)緩存管理策略
發(fā)布時間:2020-03-01 18:18
【摘要】:并行計算框架Spark缺乏有效緩存選擇機制,不能自動識別并緩存高重用度數(shù)據(jù);緩存替換算法采用LRU,度量方法不夠細(xì)致,影響任務(wù)的執(zhí)行效率.本文提出一種Spark框架自適應(yīng)緩存管理策略(Self-Adaptive Cache Management,SACM),包括緩存自動選擇算法(Selection)、并行緩存清理算法(Parallel Cache Cleanup,PCC)和權(quán)重緩存替換算法(Lowest Weight Replacement,LWR).其中,緩存自動選擇算法通過分析任務(wù)的DAG(Directed Acyclic Graph)結(jié)構(gòu),識別重用的RDD并自動緩存.并行緩存清理算法異步清理無價值的RDD,提高集群內(nèi)存利用率.權(quán)重替換算法通過權(quán)重值判定替換目標(biāo),避免重新計算復(fù)雜RDD產(chǎn)生的任務(wù)延時,保障資源瓶頸下的計算效率.實驗表明:我們的策略提高了Spark的任務(wù)執(zhí)行效率,并使內(nèi)存資源得到有效利用.
【圖文】:
本節(jié)首先分析Spark任務(wù)的執(zhí)行機制,建立內(nèi)存資,,,則任務(wù)i'在分配方案棗下成功調(diào)度的概率為:逡逑源模型、任務(wù)執(zhí)行效率模型和RDD權(quán)重模型,最后提出邐P邋=邋^L邐(4)逡逑自適應(yīng)緩存管理策略的問題定義.邐_邐4逡逑2.邋1邋Spark任務(wù)執(zhí)行機制邐任務(wù)!的兩種內(nèi)存分配方案為K且邋<邋>久.逡逑Spark的任務(wù)執(zhí)行采用了延時調(diào)度機制,即當(dāng)用P邐W種分配方案下任務(wù)的執(zhí)行時間均為邋<,由H,為常逡逑對-個乫執(zhí)行Action操作時,調(diào)度器會根據(jù)_的數(shù),因此A邋<[’即內(nèi)存一占神越低的分配方案調(diào)丨if成逡逑lineage來_-個DAG,販為工作結(jié)點分野
本文編號:2584110
【圖文】:
本節(jié)首先分析Spark任務(wù)的執(zhí)行機制,建立內(nèi)存資,,,則任務(wù)i'在分配方案棗下成功調(diào)度的概率為:逡逑源模型、任務(wù)執(zhí)行效率模型和RDD權(quán)重模型,最后提出邐P邋=邋^L邐(4)逡逑自適應(yīng)緩存管理策略的問題定義.邐_邐4逡逑2.邋1邋Spark任務(wù)執(zhí)行機制邐任務(wù)!的兩種內(nèi)存分配方案為K且邋<邋>久.逡逑Spark的任務(wù)執(zhí)行采用了延時調(diào)度機制,即當(dāng)用P邐W種分配方案下任務(wù)的執(zhí)行時間均為邋<,由H,為常逡逑對-個乫執(zhí)行Action操作時,調(diào)度器會根據(jù)_的數(shù),因此A邋<[’即內(nèi)存一占神越低的分配方案調(diào)丨if成逡逑lineage來_-個DAG,販為工作結(jié)點分野
本文編號:2584110
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2584110.html
最近更新
教材專著