面向高吞吐率計(jì)算的編程模型和運(yùn)行框架系統(tǒng)
發(fā)布時(shí)間:2020-05-12 21:29
【摘要】:處理大規(guī)模問題的常用技術(shù)手段包括高性能計(jì)算、高吞吐率計(jì)算和大數(shù)據(jù)處理技術(shù)等。由于高吞吐率計(jì)算存在計(jì)算時(shí)間長(zhǎng)、使用計(jì)算資源多、多任務(wù)、容錯(cuò)性要求較高的特點(diǎn),Hadoop等大數(shù)據(jù)計(jì)算框架和在高性能計(jì)算領(lǐng)域應(yīng)用廣泛的MPI都不完全適用于開發(fā)高吞吐率計(jì)算應(yīng)用。為了降低高吞吐率計(jì)算應(yīng)用的開發(fā)難度、提高開發(fā)效率,本文對(duì)已有的DCR編程模型和運(yùn)行框架進(jìn)行了改進(jìn),使其能夠滿足高吞吐率計(jì)算多任務(wù)、容錯(cuò)等方面的需求。借助本文的編程模型和運(yùn)行框架,用戶開發(fā)高吞吐率計(jì)算應(yīng)用時(shí),只需要實(shí)現(xiàn)編程模型中的分解、計(jì)算和規(guī)約過程,任務(wù)的執(zhí)行、任務(wù)之間的計(jì)算資源分配、節(jié)點(diǎn)管理、負(fù)載均衡、容錯(cuò)等功能均由運(yùn)行框架實(shí)現(xiàn)。本文首先介紹了改進(jìn)后的編程模型,包括任務(wù)、任務(wù)模板和任務(wù)組的概念;任務(wù)組中任務(wù)依賴關(guān)系的描述;用于任務(wù)間通信的消息模型;任務(wù)間的計(jì)算資源分配原則。然后,本文介紹了運(yùn)行框架的總體結(jié)構(gòu),包括調(diào)度節(jié)點(diǎn)和計(jì)算節(jié)點(diǎn)的總體結(jié)構(gòu)、隊(duì)列結(jié)構(gòu)、線程結(jié)構(gòu)以及兩者之間的通信。隨后,本文詳細(xì)介紹了運(yùn)行框架多任務(wù)機(jī)制的設(shè)計(jì)與實(shí)現(xiàn),包括:任務(wù)模板的管理、任務(wù)的創(chuàng)建、任務(wù)的狀態(tài)、任務(wù)的管理功能和任務(wù)管理器的實(shí)現(xiàn)、任務(wù)執(zhí)行器的實(shí)現(xiàn)、消息機(jī)制的設(shè)計(jì)與實(shí)現(xiàn)。同時(shí),本文還對(duì)任務(wù)執(zhí)行過程、任務(wù)計(jì)算資源分配、負(fù)載均衡和容錯(cuò)等方面的實(shí)現(xiàn)進(jìn)行了介紹。最后,本文在“神威太湖之光”、“天河二號(hào)A”以及GPU集群上對(duì)運(yùn)行框架進(jìn)行了多任務(wù)、消息通信和大規(guī)模集群支撐能力等多方面的測(cè)試,驗(yàn)證了運(yùn)行框架能夠滿足高吞吐率計(jì)算的需要。
【圖文】:
任務(wù)
(3)(5)圖 6-1 不同拓?fù)浣Y(jié)構(gòu)的任務(wù)任務(wù)的兩倍。以案例 3 為例,任務(wù) T2 將在任務(wù) T1 執(zhí)行完后執(zhí)行,任務(wù) T4 將在任T3 執(zhí)行完后執(zhí)行。任務(wù) T2 和 T3 的 P 相同,均為任務(wù) T1 和任務(wù) T4 的兩倍。每測(cè)試案例都會(huì)使用一個(gè)任務(wù)組來(lái)描述。任務(wù)組內(nèi)所有任務(wù)的 L 相同,,即平分計(jì)算資源測(cè)試時(shí)使用了 200 個(gè)計(jì)算節(jié)點(diǎn),每個(gè)計(jì)算節(jié)點(diǎn)的任務(wù)隊(duì)列的長(zhǎng)度都設(shè)置為 8。因此測(cè)試時(shí)的計(jì)算資源總量為 1600。6.2.2 測(cè)試結(jié)果相同任務(wù)規(guī)模的多任務(wù)調(diào)度測(cè)試結(jié)果如表 6-9 所示。表 6-9 相同任務(wù)規(guī)模的測(cè)試結(jié)果任務(wù)組 G1 G2 G3 G4預(yù)計(jì)完成時(shí)間(s)8,192 8,192 16,384 16,384
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP311.13;TP38
本文編號(hào):2660866
【圖文】:
任務(wù)
(3)(5)圖 6-1 不同拓?fù)浣Y(jié)構(gòu)的任務(wù)任務(wù)的兩倍。以案例 3 為例,任務(wù) T2 將在任務(wù) T1 執(zhí)行完后執(zhí)行,任務(wù) T4 將在任T3 執(zhí)行完后執(zhí)行。任務(wù) T2 和 T3 的 P 相同,均為任務(wù) T1 和任務(wù) T4 的兩倍。每測(cè)試案例都會(huì)使用一個(gè)任務(wù)組來(lái)描述。任務(wù)組內(nèi)所有任務(wù)的 L 相同,,即平分計(jì)算資源測(cè)試時(shí)使用了 200 個(gè)計(jì)算節(jié)點(diǎn),每個(gè)計(jì)算節(jié)點(diǎn)的任務(wù)隊(duì)列的長(zhǎng)度都設(shè)置為 8。因此測(cè)試時(shí)的計(jì)算資源總量為 1600。6.2.2 測(cè)試結(jié)果相同任務(wù)規(guī)模的多任務(wù)調(diào)度測(cè)試結(jié)果如表 6-9 所示。表 6-9 相同任務(wù)規(guī)模的測(cè)試結(jié)果任務(wù)組 G1 G2 G3 G4預(yù)計(jì)完成時(shí)間(s)8,192 8,192 16,384 16,384
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP311.13;TP38
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 林彥宇;陳虎;苗軍;韓佳龍媚;賴路雙;;提升大規(guī)模集群上并行計(jì)算軟件系統(tǒng)可靠性和服務(wù)性的方法與實(shí)踐[J];計(jì)算機(jī)工程與科學(xué);2015年01期
相關(guān)碩士學(xué)位論文 前2條
1 劉本俊;基于任務(wù)類型的并行計(jì)算框架研究與應(yīng)用[D];華南理工大學(xué);2017年
2 江嘉治;并行計(jì)算支撐系統(tǒng)DCR的研究和實(shí)現(xiàn)[D];華南理工大學(xué);2016年
本文編號(hào):2660866
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2660866.html
最近更新
教材專著