帶不可移動數(shù)據(jù)的Spark任務(wù)調(diào)度
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1.2RDD之間的依賴關(guān)系
用戶提交的作業(yè)(Job)可以描述成一組RDD的轉(zhuǎn)換操作,Spark調(diào)度器會根據(jù)RDD的“血統(tǒng)”(依賴關(guān)系)將整個作業(yè)根據(jù)寬依賴構(gòu)建成由若干調(diào)度階段(Stage)組成的有向無環(huán)圖(DAG),每個調(diào)度階段由一系列RDD之間的連續(xù)窄依賴構(gòu)成,一個Stage內(nèi)部各個RDD分區(qū)的連續(xù)窄依賴....
圖1.3Spark調(diào)度階段的劃分
圖1.2RDD之間的依賴關(guān)系1.1.2應(yīng)用場景
圖1.4單基因遺傳病預(yù)測工作流
為了減少最大完工時間,其中一個很常采用的方法就是提高數(shù)據(jù)本地化程度。在分布式計算中,數(shù)據(jù)通常分布在地理位置不同的數(shù)據(jù)中心,通過將任務(wù)分配在其輸入數(shù)據(jù)所在的數(shù)據(jù)中心,可以減少任務(wù)執(zhí)行所需輸入數(shù)據(jù)的傳輸時間,使任務(wù)提前完成,有利于縮短整個工作流的完工時間。Guo等[26]在MapRe....
圖2.1基于現(xiàn)有Spark架構(gòu)的改進(jìn)
針對本文給出的問題,在Spark框架的基礎(chǔ)上提出改進(jìn)的系統(tǒng)架構(gòu),如圖2.1所示。該系統(tǒng)架構(gòu)下,存在一個MasterNode用于任務(wù)調(diào)度,其他Node為WorkNode。其中Master節(jié)點(diǎn)用于調(diào)度的Driver模塊分為三層:第一層STSID(SparkTaskSchedu....
本文編號:3893708
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3893708.html