基于線程調(diào)度的通用圖形處理器性能優(yōu)化方法研究
發(fā)布時間:2022-12-07 04:34
通用圖形處理器(General Purpose Graphics Processing Unit,GPGPU)是當(dāng)前面向高吞吐量、高性能計算領(lǐng)域的主要加速部件之一。它支持數(shù)以萬計線程的并發(fā)執(zhí)行,尤其面對規(guī)則計算模式時,性能能夠超過CPU的數(shù)倍。即使在任務(wù)執(zhí)行過程中遇到訪存操作,它也可以通過高效的線程切換來隱藏由此產(chǎn)生的長延時。隨著GPGPU體系結(jié)構(gòu)的發(fā)展,它在通用計算領(lǐng)域也得到了廣泛的應(yīng)用。然而,通用計算領(lǐng)域存在大量不規(guī)則計算模型和不規(guī)則訪存模型,而且由于超大規(guī)模線程的并發(fā)執(zhí)行,片上資源尤其是存儲資源很容易出現(xiàn)訪問競爭。這些原因均會不同程度的影響GPGPU的性能發(fā)揮。針對這些問題,國內(nèi)外已有不少學(xué)者開展了大量的研究工作。其中,通過線程調(diào)度優(yōu)化來提升GPGPU的性能是他們此方面研究工作的熱點之一。本文在分析了前人研究成果的基礎(chǔ)上,圍繞不規(guī)則計算模式中的主要因素即分支轉(zhuǎn)移、不規(guī)訪存模型中的主要因素即訪存離散、片上資源尤其是cache資源的訪問競爭等三個方面,開展了基于線程調(diào)度的GPGPU性能優(yōu)化方法的研究。1.面向分支轉(zhuǎn)移,提出了一種基于兩階段同步的線程塊壓縮調(diào)度機制。分支轉(zhuǎn)移降低了執(zhí)行任...
【文章頁數(shù)】:103 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景
1.1.1 通用圖形處理器的發(fā)展
1.1.2 通用圖形處理器的微體系結(jié)構(gòu)
1.1.3 通用圖形處理器發(fā)展面臨的性能瓶頸
1.2 國內(nèi)外相關(guān)研究工作
1.2.1 針對分支轉(zhuǎn)移的GPGPU線程調(diào)度
1.2.2 減少片上存儲資源訪問競爭的GPGPU線程調(diào)度
1.2.3 針對訪存離散的GPGPU線程調(diào)度
1.2.4 優(yōu)化GPGPU功耗的線程調(diào)度
1.3 本文研究的主要內(nèi)容
1.4 本文的主要工作和創(chuàng)新
1.5 論文結(jié)構(gòu)
第2章 基于兩階段同步的GPGPU線程塊壓縮調(diào)度優(yōu)化
2.1 研究動機
2.2 基于重匯聚棧的分支轉(zhuǎn)移控制
2.3 CAPRI機制的分析
2.4 兩階段同步的線程塊壓縮重組調(diào)度(TSTBC)
2.4.1 線程塊局部壓縮重組
2.4.2 TSTBC的算法思想
2.4.3 TSTBC微體系結(jié)構(gòu)
2.4.4 TSTBC與CAPRI的比較
2.4.5 硬件開銷
2.5 實驗及結(jié)果分析
2.5.1 實驗方法
2.5.2 結(jié)果分析
2.6 本章小結(jié)
第3章 基于訪存感知的TLP調(diào)節(jié)結(jié)合cache繞行機制
3.1 研究動機
3.2 應(yīng)用程序cache敏感性分析
3.3 TLP對性能的影響
3.4 數(shù)據(jù)局部性分析
3.4.1 Warp內(nèi)的數(shù)據(jù)局部性分析
3.4.2 Warp間的數(shù)據(jù)局部性分析
3.5 TLP調(diào)節(jié)結(jié)合cache繞行的實例分析
3.6 訪存感知的TLP調(diào)節(jié)結(jié)合cache繞行機制(MATB)
3.6.1 MATB機制
3.6.2 MATB微體系結(jié)構(gòu)
3.6.3 MATB調(diào)度算法
3.6.4 硬件開銷
3.7 實驗及結(jié)果分析
3.7.1 實驗方法
3.7.2 結(jié)果分析
3.8 本章小節(jié)
第4章 基于訪存優(yōu)先級的GPGPU線程調(diào)度優(yōu)化
4.1 研究動機
4.2 應(yīng)用程序warp間數(shù)據(jù)局部性分析
4.3 基于訪存優(yōu)先級調(diào)度的一個實例分析
4.4 基于訪存優(yōu)先級的線程調(diào)度(MPWS)
4.4.1 MPWS機制
4.4.2 MPWS微體系結(jié)構(gòu)
4.4.3 MPWS相關(guān)算法
4.4.4 開銷
4.5 實驗及結(jié)果分析
4.5.1 實驗方法
4.5.2 結(jié)果分析
4.6 本章小結(jié)
第5章 結(jié)論與展望
5.1 工作總結(jié)
5.2 研究展望
參考文獻
攻讀博士學(xué)位期間發(fā)表的論文
攻讀博士學(xué)位期間主持參與的科研項目
致謝
【參考文獻】:
期刊論文
[1]一種基于并行度分析模型的GPU功耗優(yōu)化技術(shù)[J]. 林一松,楊學(xué)軍,唐滔,王桂彬,徐新海. 計算機學(xué)報. 2011(04)
[2]天河一號:中國速度[J]. 錢煒. 中國新聞周刊. 2010(48)
本文編號:3712242
【文章頁數(shù)】:103 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景
1.1.1 通用圖形處理器的發(fā)展
1.1.2 通用圖形處理器的微體系結(jié)構(gòu)
1.1.3 通用圖形處理器發(fā)展面臨的性能瓶頸
1.2 國內(nèi)外相關(guān)研究工作
1.2.1 針對分支轉(zhuǎn)移的GPGPU線程調(diào)度
1.2.2 減少片上存儲資源訪問競爭的GPGPU線程調(diào)度
1.2.3 針對訪存離散的GPGPU線程調(diào)度
1.2.4 優(yōu)化GPGPU功耗的線程調(diào)度
1.3 本文研究的主要內(nèi)容
1.4 本文的主要工作和創(chuàng)新
1.5 論文結(jié)構(gòu)
第2章 基于兩階段同步的GPGPU線程塊壓縮調(diào)度優(yōu)化
2.1 研究動機
2.2 基于重匯聚棧的分支轉(zhuǎn)移控制
2.3 CAPRI機制的分析
2.4 兩階段同步的線程塊壓縮重組調(diào)度(TSTBC)
2.4.1 線程塊局部壓縮重組
2.4.2 TSTBC的算法思想
2.4.3 TSTBC微體系結(jié)構(gòu)
2.4.4 TSTBC與CAPRI的比較
2.4.5 硬件開銷
2.5 實驗及結(jié)果分析
2.5.1 實驗方法
2.5.2 結(jié)果分析
2.6 本章小結(jié)
第3章 基于訪存感知的TLP調(diào)節(jié)結(jié)合cache繞行機制
3.1 研究動機
3.2 應(yīng)用程序cache敏感性分析
3.3 TLP對性能的影響
3.4 數(shù)據(jù)局部性分析
3.4.1 Warp內(nèi)的數(shù)據(jù)局部性分析
3.4.2 Warp間的數(shù)據(jù)局部性分析
3.5 TLP調(diào)節(jié)結(jié)合cache繞行的實例分析
3.6 訪存感知的TLP調(diào)節(jié)結(jié)合cache繞行機制(MATB)
3.6.1 MATB機制
3.6.2 MATB微體系結(jié)構(gòu)
3.6.3 MATB調(diào)度算法
3.6.4 硬件開銷
3.7 實驗及結(jié)果分析
3.7.1 實驗方法
3.7.2 結(jié)果分析
3.8 本章小節(jié)
第4章 基于訪存優(yōu)先級的GPGPU線程調(diào)度優(yōu)化
4.1 研究動機
4.2 應(yīng)用程序warp間數(shù)據(jù)局部性分析
4.3 基于訪存優(yōu)先級調(diào)度的一個實例分析
4.4 基于訪存優(yōu)先級的線程調(diào)度(MPWS)
4.4.1 MPWS機制
4.4.2 MPWS微體系結(jié)構(gòu)
4.4.3 MPWS相關(guān)算法
4.4.4 開銷
4.5 實驗及結(jié)果分析
4.5.1 實驗方法
4.5.2 結(jié)果分析
4.6 本章小結(jié)
第5章 結(jié)論與展望
5.1 工作總結(jié)
5.2 研究展望
參考文獻
攻讀博士學(xué)位期間發(fā)表的論文
攻讀博士學(xué)位期間主持參與的科研項目
致謝
【參考文獻】:
期刊論文
[1]一種基于并行度分析模型的GPU功耗優(yōu)化技術(shù)[J]. 林一松,楊學(xué)軍,唐滔,王桂彬,徐新海. 計算機學(xué)報. 2011(04)
[2]天河一號:中國速度[J]. 錢煒. 中國新聞周刊. 2010(48)
本文編號:3712242
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3712242.html
最近更新
教材專著