天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 計算機論文 >

異構(gòu)融合平臺上的數(shù)據(jù)流運行時系統(tǒng)研究

發(fā)布時間:2020-08-11 23:09
【摘要】:隨著半導體工藝的發(fā)展越來越逼近物理極限,以及大數(shù)據(jù)和人工智能等新型應用不斷涌現(xiàn),為了獲得更好的計算能效比,微處理器芯片也越來越朝著專用化的方向發(fā)展,各種新型的領(lǐng)域?qū)S眉铀傩酒瑢映霾桓F。隨著加速硬件的多樣性不斷增加,高性能計算系統(tǒng)也由早期的簡單異構(gòu)變?yōu)楦訌碗s的異構(gòu)結(jié)構(gòu)。如何將這些異構(gòu)的加速器硬件有機地融合在統(tǒng)一的軟件生態(tài)系統(tǒng)里,縮小它們在編程效率和運行效率方面的差異,實現(xiàn)高效能的計算,是一個極為挑戰(zhàn)的問題。特別地,在高度異構(gòu)系統(tǒng)里,硬件的多樣性將導致同步和數(shù)據(jù)移動的代價十分昂貴。如果采用整體同步這樣的粗粒度并行計算模型,需要依靠大量的同步操作來協(xié)同計算,無法組織起高效的計算;如果采用數(shù)據(jù)流模型來組織細粒度的并行計算,以一種點到點的方式表達任務(wù)之間的依賴,不僅可以消除在異構(gòu)系統(tǒng)中代價高昂的全局同步操作,還可以最大限度地消除由于任務(wù)劃分不均勻和硬件多樣性帶來的性能瓶頸。但是,數(shù)據(jù)流計算模型在實際應用中仍然面臨諸多問題,包括:對應用和異構(gòu)平臺進行一般化的抽象、系統(tǒng)資源分配、在新場景下高效地調(diào)度任務(wù),以及在與實際應用結(jié)合的過程中如何保證各層次的計算效率等。對這些問題的研究和解決,有助于我們重新思考超異構(gòu)計算時代的程序執(zhí)行模型,為今后在大規(guī)模復雜異構(gòu)平臺上實現(xiàn)應用程序的統(tǒng)一編程和高效計算提供借鑒和參考。本文旨在從運行時的角度研究數(shù)據(jù)流模型在異構(gòu)平臺上的若干關(guān)鍵問題,重點研究數(shù)據(jù)流程序執(zhí)行模型如何更有效地組織異構(gòu)計算。通過對程序和異構(gòu)平臺進行一般化的抽象,構(gòu)建數(shù)據(jù)流運行時模擬器和性能模型。在此基礎(chǔ)上,基于異構(gòu)平臺上數(shù)據(jù)流運行時系統(tǒng)的軟硬件特點,提出具有更高調(diào)度效率的細粒度任務(wù)調(diào)度算法。在實際系統(tǒng)的研究中,則重點討論了面向深度學習的數(shù)據(jù)流運行時軟件系統(tǒng)。本文的主要研究工作和成果主要包括以下四個方面:1.在總結(jié)了目前已有的數(shù)據(jù)流程序執(zhí)行模型的基礎(chǔ)上,本文提出了更一般化的抽象機器模型和基于有向無環(huán)圖的抽象程序模型,并構(gòu)建出一個通用的數(shù)據(jù)流運行時模型,同時設(shè)計了數(shù)據(jù)流運行時模擬器TripletRun。在模擬器中一方面實現(xiàn)了多種異構(gòu)系統(tǒng)上主流的啟發(fā)式任務(wù)調(diào)度算法,為新調(diào)度算法的實現(xiàn)提供了擴展接口;另一方面也為新數(shù)據(jù)流模型的探索提供了新視角。TripletRun對程序執(zhí)行過程中任務(wù)的不同行為進行了明確定義,這保證了在運行時層面對程序行為的精確模擬,另外它也為程序性能評估提供了不同衡量指標。2.在異構(gòu)平臺上的數(shù)據(jù)流運行時中,任務(wù)調(diào)度問題更為復雜,在研究了異構(gòu)系統(tǒng)上主流的任務(wù)調(diào)度算法之后,本文結(jié)合數(shù)據(jù)流程序執(zhí)行模型與異構(gòu)系統(tǒng)的特點,提出了基于任務(wù)節(jié)點加權(quán)出度的任務(wù)調(diào)度算法:DONF算法。首先,在數(shù)據(jù)流程序執(zhí)行模型中,任務(wù)數(shù)量更多,且任務(wù)間依賴關(guān)系更復雜,DONF調(diào)度算法采用加權(quán)出度這種更簡單的方式計算任務(wù)優(yōu)先級,在降低了任務(wù)選擇階段時間復雜度的情況下,還避免了對程序有向無環(huán)圖的遍歷,以支持動態(tài)調(diào)度;其次,異構(gòu)系統(tǒng)中不同硬件之間差異大,通信在程序執(zhí)行過程中扮演著更重要的角色,DONF調(diào)度算法考慮了通信鏈路沖突的情況,構(gòu)建了通信模型以更好地為被調(diào)度任務(wù)選擇處理器。與參與實驗評估的異構(gòu)系統(tǒng)上主流調(diào)度算法HEFT、CPOP、PEFT和HSIP相比,DONF系列算法的調(diào)度長度比降低了 34.6%-65.8%,并行效率提高了 19%-137%。3.TensorFlow是一個流行的深度學習軟件框架,它基于數(shù)據(jù)流程序執(zhí)行模型構(gòu)建。本文在神威超級計算機上,基于TensorFlow構(gòu)建了數(shù)據(jù)流深度學習框架swFLOW。經(jīng)過性能分析與熱點優(yōu)化后,swFLOW在單核組上的性能加速比達到10.42倍。在大規(guī)模分布式深度學習中,本文重點就運行時中的通信和數(shù)據(jù)讀取進行了討論與優(yōu)化,使得swFLOW在512進程時達到81.01%的并行效率。作為神威系統(tǒng)上最早支持分布式深度學習的框架之一,swFLOW對神威系統(tǒng)上深度學習軟件生態(tài)的發(fā)展以及未來針對深度學習的軟硬件協(xié)同設(shè)計具有重要的參考意義。4.作為理論研究與實際系統(tǒng)相結(jié)合的嘗試,本文融合TripletRun與Tensor-Flow/swFLOW,提出了一種統(tǒng)一的調(diào)度框架。統(tǒng)一調(diào)度框架隱藏了實際系統(tǒng)中任務(wù)調(diào)度策略的實現(xiàn)細節(jié),便于新調(diào)度算法的快速實現(xiàn)和效果驗證,也允許采用空間搜索等方法實現(xiàn)任務(wù)調(diào)度或映射;而且統(tǒng)一調(diào)度框架可以令TensorFlow/swFLOW自動實現(xiàn)并行計算,免去了由用戶對神經(jīng)網(wǎng)絡(luò)進行手動分割及反復試驗尋找最佳分配方案之虞;再次,通過統(tǒng)一調(diào)度框架確定的映射策略可以打破一些緊耦合算子被綁定到一起的限制,在更大解空間內(nèi)尋找并行策略。初步的實驗結(jié)果表明了統(tǒng)一調(diào)度框架的可行性與實用價值。本文的研究以異構(gòu)平臺上的數(shù)據(jù)流運行時系統(tǒng)為中心,以任務(wù)調(diào)度為主線,以通信、數(shù)據(jù)讀取等為重點,涵蓋理論研究與實際系統(tǒng)實踐,對異構(gòu)平臺上數(shù)據(jù)流運行時系統(tǒng)的關(guān)鍵問題進行了深入研究與討論。本文設(shè)計的數(shù)據(jù)流運行時系統(tǒng)模型很好地抽象了異構(gòu)融合平臺上數(shù)據(jù)流程序的執(zhí)行過程,提出的任務(wù)調(diào)度算法與異構(gòu)系統(tǒng)上主流調(diào)度算法相比具有更好的效果。swFLOW框架的設(shè)計與實現(xiàn)則為類似平臺上數(shù)據(jù)流深度學習框架的構(gòu)建提供了有益借鑒,也對神威系統(tǒng)上深度學習軟件生態(tài)的發(fā)展具有重要的參考意義。
【學位授予單位】:中國科學技術(shù)大學
【學位級別】:博士
【學位授予年份】:2019
【分類號】:TN305;TP338
【圖文】:

制程,工藝發(fā)展,版本,趨勢


Year逡逑圖1.1邋ITRS預測制程工藝發(fā)展趨勢逡逑ITRS于2015年發(fā)布了最終版本,圖1.1中展示了邋ITRS最近的兩個版本在物逡逑理門電路制程工藝上對集成電路(integrated邋circuit,邋1C)發(fā)展的預測,分別于2013逡逑1逡逑

細粒度并行,粗粒度,例子


圖1.2例子:粗粒度并行和細粒度并行逡逑除了更高效地組織計算,數(shù)據(jù)流運行時系統(tǒng)中程序被抽象為數(shù)據(jù)流圖,這助于隱藏硬件細節(jié),對上層提供統(tǒng)一編程接口,以實現(xiàn)在不同異構(gòu)硬件上無差化地編程,這是本文“融合”概念中的又一層含義。由此可見,數(shù)據(jù)流運行時統(tǒng)在高效組織計算、提供更好的統(tǒng)一編程接口等方面都有得天獨厚的優(yōu)勢,在構(gòu)融合平臺上可以更好地實現(xiàn)協(xié)同計算,對解決異構(gòu)融合場景下的計算問題具意義。逡逑總體來看,發(fā)展異構(gòu)融合計算是大勢所趨,而在如何統(tǒng)一編程和高效組織算的問題上,數(shù)據(jù)流運行時系統(tǒng)具有得天獨厚的優(yōu)勢。研究異構(gòu)融合平臺上的據(jù)流運行時系統(tǒng),其必要性可見一斑。逡逑1.2異構(gòu)融合平臺上數(shù)據(jù)流運行時系統(tǒng)設(shè)計的關(guān)鍵問題逡逑隨著半導體芯片工業(yè)走向?qū)S没陌l(fā)展方向,全面的、大規(guī)模的異構(gòu)計算大勢所趨。在這一新場景下,粗粒度并行模型難以高效地組織計算,以數(shù)據(jù)流

數(shù)據(jù)流圖,指令序列,數(shù)據(jù)流計算機,控制流


邐第2章相關(guān)研究工作綜述邐逡逑方式同步),數(shù)據(jù)驅(qū)動意味著任務(wù)的激活完全取決于其輸入數(shù)據(jù)是否就緒。逡逑1.數(shù)據(jù)流機器語言:數(shù)據(jù)流圖逡逑在大多數(shù)數(shù)據(jù)流計算機中,數(shù)據(jù)流程序通常以圖的方式表達。盡管數(shù)據(jù)流程逡逑序與控制流程序差異不大,但卻需要完全不同的計算機架構(gòu)。圖2.1展示了一個逡逑例子,用以對比控制流(control邋flow)和數(shù)據(jù)流(dataflow)架構(gòu)。左圖中是控制逡逑流程序,包含“內(nèi)存到內(nèi)存”的指令序列,程序的指令和數(shù)據(jù)存放在不同的內(nèi)存逡逑空間。圖中的實線箭頭指向需要被讀寫的數(shù)據(jù)地址;控制流則用虛線箭頭表示,逡逑通常這種控制流關(guān)系在程序中都是隱式表達的。右圖中是一個等價的數(shù)據(jù)流程逡逑序,具有唯一的內(nèi)存空間,每條指令指向所有依賴于其計算結(jié)果的指令。在控制逡逑流計算機中,控制流隱含在指令序列中,為了保證程序執(zhí)行的正確性,指令的執(zhí)逡逑行必須嚴格依照其在指令序列中的順序依次完成。數(shù)據(jù)流計算機則采用了數(shù)據(jù)逡逑驅(qū)動執(zhí)行的機制:被依賴數(shù)據(jù)項的就緒作為激活新指令執(zhí)行的信號,這就完全避逡逑免了控制流計算機中對指令執(zhí)行順序的嚴格限制,可以很好地發(fā)掘指令級并行逡逑性(instruction邋level邋parallelism,邋ILP)邋0逡逑a邋=邋x邋+邋y逡逑

【相似文獻】

相關(guān)期刊論文 前7條

1 黃勃田;;太極2220外圍子系統(tǒng)概述[J];計算機工程與應用;1987年S1期

2 韓鑫強;薛蕾;王博;張來恩;;新一代天氣雷達數(shù)據(jù)流重傳機制設(shè)計與實現(xiàn)[J];氣象科技進展;2018年01期

3 楊松 ,蘆康俊;Video For Windows中視頻數(shù)據(jù)流的使用[J];電子與電腦;1997年11期

4 湯光明,王娜,韓繼紅,陳偉;基于TCP/IP的多媒體通信實現(xiàn)[J];計算機應用研究;2001年04期

5 袁仁亮;杜沖;袁梅;;試飛遙測系統(tǒng)硬件方案設(shè)計[J];硅谷;2010年18期

6 范文輝;對傳統(tǒng)網(wǎng)絡(luò)會話系統(tǒng)的改進新思路[J];現(xiàn)代電子技術(shù);2002年12期

7 侯亞玲;;基于GPRS的水情監(jiān)測系統(tǒng)設(shè)計[J];自動化與儀器儀表;2016年06期

相關(guān)博士學位論文 前1條

1 林晗;異構(gòu)融合平臺上的數(shù)據(jù)流運行時系統(tǒng)研究[D];中國科學技術(shù)大學;2019年

相關(guān)碩士學位論文 前1條

1 韓旭明;面向隔離交換的應用數(shù)據(jù)流檢測系統(tǒng)的設(shè)計與實現(xiàn)[D];國防科學技術(shù)大學;2015年



本文編號:2789685

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2789685.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e477d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com