異構(gòu)平臺上流水線程序優(yōu)化技術(shù)研究

發(fā)布時間：2021-08-09 21:55

　　以GPU為加速器的異構(gòu)系統(tǒng)是高性能程序重要的運行平臺,GPU編程模型可以為數(shù)據(jù)并行的程序提供很好的支持,但缺乏對流水線編程的良好支持。流水線編程模式可以用來簡化程序編寫,更好地利用多部件、多設(shè)備平臺的計算優(yōu)勢,挖掘更多維度的并行,因此其應(yīng)用領(lǐng)域十分廣泛。在GPU異構(gòu)系統(tǒng)上,通過挖掘流水線程序不同任務(wù)階段之間的并行性（即任務(wù)并行）,可以使程序更好地利用硬件的計算能力。然而,當(dāng)前的GPU編程模型對于流水線并行的支持不足,使得開發(fā)高性能的流水線程序非常困難。首先,當(dāng)前GPU編程模型缺乏對任務(wù)并行模式的良好支持,已有的任務(wù)并行相關(guān)研究方法會帶來GPU計算資源利用率低、程序并行度降低等問題。同時,目前缺乏對于CPU-GPU系統(tǒng)上跨設(shè)備流水線優(yōu)化的研究,當(dāng)前的編程模型難以支持跨設(shè)備的流水線式的數(shù)據(jù)傳輸。圍繞這些問題,本文從計算、通信和編程等三個方面研究了異構(gòu)系統(tǒng)上流水線程序性能優(yōu)化問題,并提出了一系列的解決方案。本文主要研究內(nèi)容及貢獻(xiàn)如下:（1）系統(tǒng)性地分析總結(jié)了已有的GPU上流水線執(zhí)行模型的性能瓶頸,在已有的時間維度任務(wù)調(diào)度的基礎(chǔ)上,提出了空間維度上的流水線任務(wù)調(diào)度方法,并提出了兩種新的流水線任...

【文章來源】：清華大學(xué)北京市 211工程院校 985工程院校教育部直屬院校

【文章頁數(shù)】：105 頁

【學(xué)位級別】：博士

【部分圖文】：

圖１．１英偉達(dá)特斯拉系列ＧＰＵ計算能力變化

模型圖,模型,流水線,線程

”。另一種方法是在ａ前編程模型之上添加一層軟件調(diào)度??模塊，從而調(diào)度流水線任務(wù)的執(zhí)行。通過使用這種策略，程序的不詞階段可以在??不同的ＧＰＵ線程中并發(fā)地執(zhí)行，從而發(fā)掘更多的并行性。這種策略最常見的模型??是Ｍｅｇａｋｅｍｅｌｔ３２，８７＾在本章中，我們將依次介紹這些執(zhí)行模型的特性及性能優(yōu)缺??點。??３．１．１合并執(zhí)行模型??合并執(zhí)行模鍾（Ｒｕｎ?ｔｏ?ｃｏｍｐｌｅｔｉｏｎ，ＲＴＣ）基翁現(xiàn)流水線程序的一種基本的編??程模式。在合并執(zhí)行模型中，所有的任務(wù)階段實現(xiàn)在同一個ＧＰＵ函數(shù)中＊圖３．１描??述了這種模型的基本實現(xiàn)方式和執(zhí)行方式。??ｇｐｕＫｅｒｎｅｌ??Ｉ?ｆ?＊?零?ｆ??■?Ｂ?■?Ｂ?Ｊ??％?％?％?％?＼??＼＼＼＼?ｓｔａｇｅ一?１（）；??ＳＭ１?／?ｓｔ?ａｇｅ一２?（）；??｝?Ｓｔａｇｅ－３〇；??圖３．１合并執(zhí)行模型。??在這種模型中，所有計算任務(wù)的調(diào)度都完全依賴于ＧＰＵ系統(tǒng)上原有的調(diào)度??機(jī)制，所有的流水線控制邏輯都實現(xiàn)在同一個ＧＰＵ函數(shù)中。如圖３．１所示，每??個ＧＰＵ函數(shù)中的線程會依次執(zhí)行流水線的各個任務(wù)階段，而不回的線程在同＾時??１８??

模型圖,模型,流水線,函數(shù)

?第３章ＧＰＵ平臺上流水線計算任務(wù)調(diào)度｜莫型研究???｜?ｇｐｕＫｅｒｎｅｌ＿ｌ｛??ｓｔａｇｅ?ｌ７）；??ＳＭＩ?｝｝｝｝｝｝＼?｝??４＾４４＾４?ｇｐｕＫｅｒｎｅｌ＿２｛??ｓｔａｇｅ＿２（）；??？？？／／／／？？？?｝??ＳＭ２?Ｖ：Ｖ：Ｖ：?ｇｐｕＫｅｒｎｅｌ＿３｛??４＾｜｜｝ｓｔ；ｇ＾〇ｊ??圖３．２依次執(zhí)行模型。??依次執(zhí)行模型的優(yōu)點去要包括實現(xiàn)簡單、表達(dá)能力強、ＧＰＵ函數(shù)占用存儲資??源較少等。依次執(zhí)行模型的實現(xiàn)難易程度和合并執(zhí)行模型相當(dāng)，將一個以合并??執(zhí)行模型實現(xiàn)的流水線轉(zhuǎn)換為依次執(zhí)行模型的實現(xiàn)也比較容易。在依次執(zhí)行模＿??中，不詞階段之間存在隱式的同步，這使得它可以實現(xiàn)需要全局Ｍ步的或者存??在遞歸結(jié)構(gòu)的流水線應(yīng)用。理論上，任何流水線結(jié)構(gòu)都可以用依次執(zhí)行模型來實??現(xiàn)，該模型的表達(dá)能力非常強。詞時，在這個模型中，由于整個流水線被分成幾??個ＧＰＵ函數(shù)來實現(xiàn)，每個ＧＰＵ函數(shù)將消耗更少的存儲資源，ＧＰＵ函數(shù)的并行度會??大于合并執(zhí)衧模型ｂ而旦》這些�。牵校蘸瘮�(shù)對指令緩存利用效率更高。??另一方面，依次執(zhí)行模型也存在一些問題。首先，在此模型中，每兩個連??續(xù)ＧＰＵ函數(shù)之間存在隱式同步，所有ＧＰＵ函數(shù)按流水線依賴關(guān)系的順序執(zhí)行，因??此，某個任務(wù)階段中少量長時間運行的線程可能會嚴(yán)重延遲不一階段的開始。這??是缺乏對任務(wù)并行的支持導(dǎo)致的結(jié)果，這一模型沒有任務(wù)并行所能夠帶來的細(xì)粒??度利用硬件資源的優(yōu)勢。其次，該模型可能會導(dǎo)致頻繁的ＧＰＵ函數(shù)調(diào)用開銷，尤??其是對于具有遞歸或循環(huán)結(jié)構(gòu)的流水線，啟動開銷可能很大［７Ｑ］。此外，流水線??執(zhí)行的控制邏輯在ＣＰＵ端，ＣＰＵ與ＧＰＵ之間環(huán)境切

【參考文獻(xiàn)】：
期刊論文
[1]基于CUPTI接口的典型GPU程序負(fù)載特征分析[J]. 鄭禎,翟季冬,李焱,陳文光. 計算機(jī)研究與發(fā)展. 2016(06)

本文編號：3332867

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/shoufeilunwen/xxkjbs/3332867.html

上一篇：基于酰亞胺室溫磷光材料的研究
下一篇：基于低秩重構(gòu)及成分分析理論的SAR圖像去噪算法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

異構(gòu)平臺上流水線程序優(yōu)化技術(shù)研究