基于磁盤I/O性能的Hadoop任務(wù)選擇策略
發(fā)布時(shí)間:2021-07-23 21:07
最大化利用本地磁盤的I/O資源是提升計(jì)算集群性能的關(guān)鍵,但Hadoop系統(tǒng)中多數(shù)調(diào)度算法未考慮此項(xiàng)因素。為此,引入磁盤負(fù)載作為Map任務(wù)選擇的權(quán)衡參數(shù),任務(wù)調(diào)度時(shí)參照磁盤負(fù)載程度選擇合適的任務(wù),以保證數(shù)據(jù)節(jié)點(diǎn)上各磁盤的負(fù)載相對均衡,并據(jù)此設(shè)計(jì)新的任務(wù)選擇模塊集成到Hadoop的調(diào)度器中。同時(shí)為進(jìn)一步提升Hadoop系統(tǒng)的性能,實(shí)現(xiàn)Map作業(yè)的近似完全本地化執(zhí)行。實(shí)驗(yàn)結(jié)果表明,該任務(wù)選擇策略能夠充分利用數(shù)據(jù)節(jié)點(diǎn)本地磁盤的I/O資源,可使節(jié)點(diǎn)的I/O Wait平均降低5%,CPU利用率平均上升15%,作業(yè)的執(zhí)行時(shí)間縮短20%。
【文章來源】:計(jì)算機(jī)工程. 2016,42(11)北大核心CSCD
【文章頁數(shù)】:7 頁
【部分圖文】:
作業(yè)調(diào)度架構(gòu)
MapsList結(jié)構(gòu)
op02/data8/dfs/dn35……Hadoop07/data8/dfs/dn24在作業(yè)初始化時(shí)會讀取該配置文件,若沒有指定,默認(rèn)Accept值為2,maxAccept值為999(表示沒有限制)。3實(shí)驗(yàn)結(jié)果與分析實(shí)驗(yàn)環(huán)境是一個(gè)由8個(gè)節(jié)點(diǎn)組成的Hadoop集群,其中一個(gè)作為JobTracker,另外7個(gè)作為TaskTracker。所采用的Hadoop版本為HDFS2.0,MapReduce0.20。單個(gè)節(jié)點(diǎn)的配置為12×2.4GHzCPU,24GB內(nèi)存,千兆以太網(wǎng)卡,5×1TB的7200轉(zhuǎn)的SATA硬盤。本文測試Hadoop調(diào)度算法是在計(jì)算能力調(diào)度算法基礎(chǔ)上實(shí)現(xiàn)的。3.1磁盤性能測試對單塊磁盤的性能測試結(jié)果如圖4所示。從圖中可以看出,當(dāng)一塊磁盤上同時(shí)運(yùn)行的任務(wù)數(shù)小于3時(shí),用戶的CPU利用率cpu_user近似于占用的CPU核數(shù)/機(jī)器總核數(shù),且CPU等待I/O操作時(shí)間cpu_wio較低;當(dāng)同時(shí)運(yùn)行的任務(wù)數(shù)超過6個(gè)時(shí),cpu_user不在增高,而cpu_wio持續(xù)上升。因此,本文實(shí)驗(yàn)環(huán)境設(shè)定diskAccept=3,maxDiskAccept=6。圖4磁盤性能測試結(jié)果3.2實(shí)際作業(yè)測試測試作業(yè)使用高能物理中的真實(shí)的BESIII實(shí)驗(yàn)數(shù)據(jù),分析程序采用樣例程序(Rhopi事例分析程序)。由于在高能物理中用戶是批量提交作業(yè),且同一用戶的同一批作業(yè)優(yōu)先級相同,因此Map任務(wù)選擇優(yōu)先級設(shè)置為user級。作業(yè)的參數(shù)設(shè)置如表2所示。表2作業(yè)參數(shù)設(shè)置作業(yè)編號文件數(shù)文件總大小/GBJob15067Job25065Job35062Job45066Job55071Job65064Job75061Job8506080
【參考文獻(xiàn)】:
期刊論文
[1]基于負(fù)載均衡的Hadoop動態(tài)延遲調(diào)度機(jī)制[J]. 陶永才,李文潔,石磊,劉磊,衛(wèi)琳,曹仰杰. 小型微型計(jì)算機(jī)系統(tǒng). 2015(03)
[2]基于MapReduce的高能物理數(shù)據(jù)分析系統(tǒng)[J]. 臧冬松,霍菁,梁棟,孫功星. 計(jì)算機(jī)工程. 2014(02)
本文編號:3300040
【文章來源】:計(jì)算機(jī)工程. 2016,42(11)北大核心CSCD
【文章頁數(shù)】:7 頁
【部分圖文】:
作業(yè)調(diào)度架構(gòu)
MapsList結(jié)構(gòu)
op02/data8/dfs/dn35……Hadoop07/data8/dfs/dn24在作業(yè)初始化時(shí)會讀取該配置文件,若沒有指定,默認(rèn)Accept值為2,maxAccept值為999(表示沒有限制)。3實(shí)驗(yàn)結(jié)果與分析實(shí)驗(yàn)環(huán)境是一個(gè)由8個(gè)節(jié)點(diǎn)組成的Hadoop集群,其中一個(gè)作為JobTracker,另外7個(gè)作為TaskTracker。所采用的Hadoop版本為HDFS2.0,MapReduce0.20。單個(gè)節(jié)點(diǎn)的配置為12×2.4GHzCPU,24GB內(nèi)存,千兆以太網(wǎng)卡,5×1TB的7200轉(zhuǎn)的SATA硬盤。本文測試Hadoop調(diào)度算法是在計(jì)算能力調(diào)度算法基礎(chǔ)上實(shí)現(xiàn)的。3.1磁盤性能測試對單塊磁盤的性能測試結(jié)果如圖4所示。從圖中可以看出,當(dāng)一塊磁盤上同時(shí)運(yùn)行的任務(wù)數(shù)小于3時(shí),用戶的CPU利用率cpu_user近似于占用的CPU核數(shù)/機(jī)器總核數(shù),且CPU等待I/O操作時(shí)間cpu_wio較低;當(dāng)同時(shí)運(yùn)行的任務(wù)數(shù)超過6個(gè)時(shí),cpu_user不在增高,而cpu_wio持續(xù)上升。因此,本文實(shí)驗(yàn)環(huán)境設(shè)定diskAccept=3,maxDiskAccept=6。圖4磁盤性能測試結(jié)果3.2實(shí)際作業(yè)測試測試作業(yè)使用高能物理中的真實(shí)的BESIII實(shí)驗(yàn)數(shù)據(jù),分析程序采用樣例程序(Rhopi事例分析程序)。由于在高能物理中用戶是批量提交作業(yè),且同一用戶的同一批作業(yè)優(yōu)先級相同,因此Map任務(wù)選擇優(yōu)先級設(shè)置為user級。作業(yè)的參數(shù)設(shè)置如表2所示。表2作業(yè)參數(shù)設(shè)置作業(yè)編號文件數(shù)文件總大小/GBJob15067Job25065Job35062Job45066Job55071Job65064Job75061Job8506080
【參考文獻(xiàn)】:
期刊論文
[1]基于負(fù)載均衡的Hadoop動態(tài)延遲調(diào)度機(jī)制[J]. 陶永才,李文潔,石磊,劉磊,衛(wèi)琳,曹仰杰. 小型微型計(jì)算機(jī)系統(tǒng). 2015(03)
[2]基于MapReduce的高能物理數(shù)據(jù)分析系統(tǒng)[J]. 臧冬松,霍菁,梁棟,孫功星. 計(jì)算機(jī)工程. 2014(02)
本文編號:3300040
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3300040.html
最近更新
教材專著