高效能GPU微體系結(jié)構(gòu)關(guān)鍵技術(shù)研究
發(fā)布時間:2024-02-14 10:57
擁有強(qiáng)大運(yùn)算能力和高能效的多核/眾核處理器是提升高性能計算機(jī)系統(tǒng)性能的關(guān)鍵。本文探索一種新型眾核處理器體系結(jié)構(gòu),使得其能夠滿足未來高性能的需求并兼顧高能效,從而能夠應(yīng)用于下一代E級超級計算機(jī)系統(tǒng)中。本文對眾核處理器中一個最常用的處理器GPU進(jìn)行了深入研究,取得的研究成果主要包括以下幾個方面:1.提出了基于局部性保護(hù)和延遲隱藏的線程束調(diào)度方法。本章在現(xiàn)有的線程調(diào)度器基礎(chǔ)之上,設(shè)計和實(shí)現(xiàn)了一個性能更優(yōu)的調(diào)度器,它能夠更好地維持?jǐn)?shù)據(jù)局部性和隱藏長訪存延遲。此方法在不同測試程序中能獲得相對基準(zhǔn)方法平均2.2%的性能提升,而總的硬件開銷可以忽略。2.提出了一種基于指令PC(Program Counter)的cache內(nèi)的數(shù)據(jù)局部性保護(hù)方法,用來保持?jǐn)?shù)據(jù)局部性。本章對傳統(tǒng)的LRU替換策略進(jìn)行了改進(jìn),設(shè)計了一種基于PC信息的局部信息收集器。此外,還設(shè)計了一個與改進(jìn)后的LRU單元協(xié)同的cache分配單元,來更好的分配cache塊中的優(yōu)先級,優(yōu)化逐出策略。它可以在低硬件開銷下得到超過基準(zhǔn)方法平均5.0%的性能改善。3.本文提出了一種協(xié)同的cache管理和線程束調(diào)度方法。它利用cache收集的局部性信息來...
【文章頁數(shù)】:115 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究動機(jī)
1.2 本文的主要工作和創(chuàng)新點(diǎn)
1.3 論文結(jié)構(gòu)
第二章 課題背景及意義
2.1 單核到多核的轉(zhuǎn)變
2.2 存儲墻與功耗墻的限制
2.3 眾核加速器和異構(gòu)系統(tǒng)
2.4 GPU結(jié)構(gòu)
2.5 并行編程與CUDA編程模型
2.6 GPU的主要性能瓶頸
2.7 高性能GPU優(yōu)化方法
2.8 課題研究意義
2.9 本章小結(jié)
第三章 相關(guān)工作
3.1 GPU中調(diào)度方法的優(yōu)化
3.2 GPU中 cache的優(yōu)化
3.3 協(xié)同的cache管理和線程束調(diào)度
3.4 其它提升眾核處理器性能的重要技術(shù)
3.5 本章小結(jié)
第四章 基于局部性和延遲隱藏的warp調(diào)度方法
4.1 引言
4.2 研究動機(jī)
4.3 基準(zhǔn)的線程調(diào)度方法
4.4 調(diào)度對局部性和延遲的影響
4.5 存儲分離
4.6 warp間和warp內(nèi)的局部性
4.7 基于局部性和延遲隱藏的warp調(diào)度
4.7.1 LPI的組成與結(jié)構(gòu)
4.7.2 LPI的工作過程和原理
4.8 實(shí)驗(yàn)環(huán)境和結(jié)果
4.8.1 實(shí)驗(yàn)環(huán)境及測試程序
4.8.2 實(shí)驗(yàn)結(jié)果
4.8.3 硬件開銷分析
4.9 本章小結(jié)
第五章 GPU上局部性保護(hù)的低開銷cache分配策略
5.1 引言
5.2 研究動機(jī)
5.3 GPU中 cache的結(jié)構(gòu)
5.4 GPU程序中的數(shù)據(jù)局部性
5.5 分支分離和存儲分離
5.6 兩種重用性收集方法
5.7 基于PC信息的局部性保護(hù)的cache管理方法
5.7.1 局部性檢測器的結(jié)構(gòu)
5.7.2 局部性檢測的過程
5.7.3 帶有重用信息和時間戳信息的cache分配單元
5.7.4 硬件開銷和復(fù)雜度
5.8 實(shí)驗(yàn)評估
5.8.1 實(shí)驗(yàn)環(huán)境的建立
5.8.2 實(shí)驗(yàn)結(jié)果和分析
5.9 本章小結(jié)
第六章 協(xié)同的cache管理和warp調(diào)度方法
6.1 非規(guī)則程序的影響
6.2 單獨(dú)cache優(yōu)化和單獨(dú)調(diào)度優(yōu)化的局限性
6.2.1 單獨(dú)調(diào)度優(yōu)化的局限性
6.2.2 單獨(dú)cache優(yōu)化的局限性
6.3 基于反饋信息進(jìn)行協(xié)同優(yōu)化的優(yōu)勢
6.4 協(xié)同的cache管理和warp重排序方法
6.4.1 CWLP的組成和結(jié)構(gòu)
6.4.2 CWLP工作原理和過程
6.4.3 CWLP的有效性
6.4.4 硬件開銷分析
6.5 協(xié)同的cache管理和warp限流方法
6.5.1 CTLP結(jié)構(gòu)
6.5.2 CTLP工作原理和過程
6.5.3 CTLP的有效性
6.5.4 硬件開銷分析
6.6 實(shí)驗(yàn)環(huán)境及結(jié)果
6.6.1 實(shí)驗(yàn)環(huán)境及測試程序
6.6.2 實(shí)驗(yàn)結(jié)果
6.7 本章小結(jié)
第七章 結(jié)束語
7.1 本文工作總結(jié)
7.2 未來研究方向
致謝
參考文獻(xiàn)
作者在學(xué)期間取得的學(xué)術(shù)成果
本文編號:3897984
【文章頁數(shù)】:115 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究動機(jī)
1.2 本文的主要工作和創(chuàng)新點(diǎn)
1.3 論文結(jié)構(gòu)
第二章 課題背景及意義
2.1 單核到多核的轉(zhuǎn)變
2.2 存儲墻與功耗墻的限制
2.3 眾核加速器和異構(gòu)系統(tǒng)
2.4 GPU結(jié)構(gòu)
2.5 并行編程與CUDA編程模型
2.6 GPU的主要性能瓶頸
2.7 高性能GPU優(yōu)化方法
2.8 課題研究意義
2.9 本章小結(jié)
第三章 相關(guān)工作
3.1 GPU中調(diào)度方法的優(yōu)化
3.2 GPU中 cache的優(yōu)化
3.3 協(xié)同的cache管理和線程束調(diào)度
3.4 其它提升眾核處理器性能的重要技術(shù)
3.5 本章小結(jié)
第四章 基于局部性和延遲隱藏的warp調(diào)度方法
4.1 引言
4.2 研究動機(jī)
4.3 基準(zhǔn)的線程調(diào)度方法
4.4 調(diào)度對局部性和延遲的影響
4.5 存儲分離
4.6 warp間和warp內(nèi)的局部性
4.7 基于局部性和延遲隱藏的warp調(diào)度
4.7.1 LPI的組成與結(jié)構(gòu)
4.7.2 LPI的工作過程和原理
4.8 實(shí)驗(yàn)環(huán)境和結(jié)果
4.8.1 實(shí)驗(yàn)環(huán)境及測試程序
4.8.2 實(shí)驗(yàn)結(jié)果
4.8.3 硬件開銷分析
4.9 本章小結(jié)
第五章 GPU上局部性保護(hù)的低開銷cache分配策略
5.1 引言
5.2 研究動機(jī)
5.3 GPU中 cache的結(jié)構(gòu)
5.4 GPU程序中的數(shù)據(jù)局部性
5.5 分支分離和存儲分離
5.6 兩種重用性收集方法
5.7 基于PC信息的局部性保護(hù)的cache管理方法
5.7.1 局部性檢測器的結(jié)構(gòu)
5.7.2 局部性檢測的過程
5.7.3 帶有重用信息和時間戳信息的cache分配單元
5.7.4 硬件開銷和復(fù)雜度
5.8 實(shí)驗(yàn)評估
5.8.1 實(shí)驗(yàn)環(huán)境的建立
5.8.2 實(shí)驗(yàn)結(jié)果和分析
5.9 本章小結(jié)
第六章 協(xié)同的cache管理和warp調(diào)度方法
6.1 非規(guī)則程序的影響
6.2 單獨(dú)cache優(yōu)化和單獨(dú)調(diào)度優(yōu)化的局限性
6.2.1 單獨(dú)調(diào)度優(yōu)化的局限性
6.2.2 單獨(dú)cache優(yōu)化的局限性
6.3 基于反饋信息進(jìn)行協(xié)同優(yōu)化的優(yōu)勢
6.4 協(xié)同的cache管理和warp重排序方法
6.4.1 CWLP的組成和結(jié)構(gòu)
6.4.2 CWLP工作原理和過程
6.4.3 CWLP的有效性
6.4.4 硬件開銷分析
6.5 協(xié)同的cache管理和warp限流方法
6.5.1 CTLP結(jié)構(gòu)
6.5.2 CTLP工作原理和過程
6.5.3 CTLP的有效性
6.5.4 硬件開銷分析
6.6 實(shí)驗(yàn)環(huán)境及結(jié)果
6.6.1 實(shí)驗(yàn)環(huán)境及測試程序
6.6.2 實(shí)驗(yàn)結(jié)果
6.7 本章小結(jié)
第七章 結(jié)束語
7.1 本文工作總結(jié)
7.2 未來研究方向
致謝
參考文獻(xiàn)
作者在學(xué)期間取得的學(xué)術(shù)成果
本文編號:3897984
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3897984.html
最近更新
教材專著