可編程自重構(gòu)光照渲染加速器的研究與設(shè)計(jì)
發(fā)布時(shí)間:2021-08-11 10:09
渲染一直都是計(jì)算機(jī)圖形學(xué)的核心課題之一,是從三維場(chǎng)景中合成二維圖像的過程;光照渲染是圖形處理器(Graphic Processing Unit,GPU)不可或缺的關(guān)鍵環(huán)節(jié),為了獲得較高的真實(shí)感,光照的研究一直被開發(fā)人員和研究人員所重視。目前大多數(shù)圖形處理器不能根據(jù)當(dāng)前場(chǎng)景的實(shí)際需求實(shí)現(xiàn)不同算法的靈活調(diào)度與重構(gòu),無法發(fā)揮最優(yōu)性能。而可重構(gòu)計(jì)算兼具通用處理器的靈活性和專用處理器的高效性以及天然具有的高可靠性、低能耗、低成本等特點(diǎn),與算法可切換的需求一致。根據(jù)這一思路,論文設(shè)計(jì)了一種可編程自重構(gòu)光照渲染加速器,能夠?qū)崿F(xiàn)算法之間的自主切換,高效完成圖形渲染的光照處理。首先,本文詳細(xì)分析了現(xiàn)有GPU的渲染架構(gòu)中光照渲染處理器只能處理一種或一類算法,無法實(shí)現(xiàn)算法的自主切換。再分析了可編程可重構(gòu)體系結(jié)構(gòu)高能效、低能耗的優(yōu)勢(shì),為了在光照渲染處理器中結(jié)合可編程可重構(gòu)的優(yōu)勢(shì),實(shí)現(xiàn)光照算法的自主切換,提出了可編程自重構(gòu)光照渲染加速器的設(shè)計(jì),并詳細(xì)介紹該結(jié)構(gòu)的實(shí)現(xiàn)方案。其次,對(duì)可編程自重構(gòu)光照渲染加速器設(shè)計(jì)進(jìn)行實(shí)現(xiàn),主要包括:1)通過測(cè)試環(huán)境配置和性能指標(biāo)定義對(duì)四種典型光照算法的性能進(jìn)行特性化分析,完成性能模...
【文章來源】:西安郵電大學(xué)陜西省
【文章頁數(shù)】:86 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Bifrost架構(gòu)框圖
第1章緒論3動(dòng)程序交互的任務(wù)管理器、一個(gè)負(fù)責(zé)處理內(nèi)存頁表的MMU以及一個(gè)生成tile鏈表的Tiler[13]。在Bifrost架構(gòu)中統(tǒng)一著色器核被設(shè)計(jì)成quad-basedarithmeticunits,由三個(gè)執(zhí)行引擎和一個(gè)管理單元構(gòu)成,可以并行執(zhí)行四標(biāo)量的計(jì)算,設(shè)計(jì)單元更孝更高效,一個(gè)指令字包含兩個(gè)指令,并且在該架構(gòu)中設(shè)計(jì)了新的數(shù)據(jù)流,減少了系統(tǒng)的內(nèi)存帶寬和占用空間;谠摷軜(gòu)的Mali-G71配置更加靈活,性能更高,同樣在API規(guī)范的支持上,可支持OpenGLES3.2、Vulkan1.0、OpenCL2.0、DX11、FL11_2和RenderScriptAPI接口。圖1.1Bifrost架構(gòu)框圖NVIDIA推出的Kepler架構(gòu)[14]采用1536個(gè)CUDA核心的統(tǒng)一渲染架構(gòu),如圖1.2所示,運(yùn)算能力達(dá)到3090GFLOPS,在NVIDIAGPUGeForceGTX680中進(jìn)行使用,Kepler架構(gòu)設(shè)計(jì)了一種流式多處理器結(jié)構(gòu)(StreamingMultiprocessorArchitecture,SMX),每個(gè)流式多處理器結(jié)構(gòu)中具有192個(gè)CUDA內(nèi)核,并且每個(gè)內(nèi)核具有完整的流水線浮點(diǎn)和整數(shù)算術(shù)邏輯單元,精度更高,可用于雙精度計(jì)算。在Kepler架構(gòu)中包含15個(gè)流式多處理器和6個(gè)64位的存儲(chǔ)控制器,同樣流式多處理器也是是可拓展,并且提供附加的緩存功能,在層次結(jié)構(gòu)的每一級(jí)上都具有更大的帶寬,整個(gè)設(shè)計(jì)中的硬件也支持新的可編程模式。盡管架構(gòu)一直在改變,性能也在提高,但同一時(shí)刻只能在流水線中處理一種或一類算法,無法對(duì)算法進(jìn)行切換。圖1.2Kepler架構(gòu)框圖
西安郵電大學(xué)碩士學(xué)位論文41.2.2可編程可重構(gòu)體系結(jié)構(gòu)隨著通用處理器功耗墻的出現(xiàn),芯片制造成本急劇上升,可重構(gòu)由于硬件的高能效、低能耗和軟件的靈活性吸引學(xué)術(shù)界和工業(yè)界的更多關(guān)注[15],并且可重構(gòu)計(jì)算可以突破馮諾依曼體系結(jié)構(gòu)的局限性,采用時(shí)空多維計(jì)算方法,將標(biāo)準(zhǔn)化與定制化、計(jì)算效率與可編程靈活性相結(jié)合,將是未來計(jì)算機(jī)架構(gòu)的發(fā)展方向[16][17],相比于傳統(tǒng)指令流驅(qū)動(dòng)和數(shù)據(jù)流驅(qū)動(dòng)的計(jì)算技術(shù),CGRA[18][19]是一種特殊的體系結(jié)構(gòu),可以在運(yùn)行時(shí)通過配置上下文動(dòng)態(tài)的部分重新配置。文獻(xiàn)[20]設(shè)計(jì)了一種靜態(tài)配置、動(dòng)態(tài)調(diào)度的粗粒度可重構(gòu)結(jié)構(gòu),用來解決靜態(tài)配置、靜態(tài)調(diào)度的低效率問題,如圖1.3所示的可重構(gòu)結(jié)構(gòu),由一個(gè)4×4處理元(Processingelement,PE)陣列、一個(gè)數(shù)據(jù)存儲(chǔ)器和一個(gè)指令存儲(chǔ)器組成。圖1.3靜態(tài)配置、動(dòng)態(tài)調(diào)度的可重構(gòu)結(jié)構(gòu)PE通過路由器網(wǎng)絡(luò)與環(huán)面拓?fù)溥B接,在PE內(nèi)部,每個(gè)PE都連接一個(gè)路由器,此外每個(gè)PE還有緩沖區(qū)和ALU,緩沖區(qū)可以緩存從先前PE路由的輸入操作數(shù),更新使用輸入操作數(shù)的操作的屬性,并根據(jù)其狀態(tài)將操作發(fā)送給ALU。在緩沖區(qū)向ALU發(fā)出操作后,操作數(shù)將立即以最小的延遲通過路由器網(wǎng)絡(luò)發(fā)送到其目標(biāo)PE。因此,從操作數(shù)的產(chǎn)生到使用,共有三個(gè)步驟,可以以流水線方式工作提高硬件的吞吐量。在緩沖區(qū)內(nèi)部,有一個(gè)狀態(tài)表,該表負(fù)責(zé)記錄操作的屬性。這些屬性包括:(1)ready標(biāo)簽,用于記錄是否準(zhǔn)備好發(fā)出操作數(shù);(2)如果輸入的操作數(shù)可用,則記錄1個(gè)avai標(biāo)簽和2個(gè)avai標(biāo)簽;(3)記錄操作級(jí)別編號(hào)的標(biāo)簽;(4)rterid標(biāo)簽,記錄操作的迭代次數(shù)。此外,狀態(tài)表還緩存輸入操作數(shù)的數(shù)據(jù),緩沖區(qū)還包含一個(gè)仲裁器,該仲裁器從所有就緒操作中選擇一個(gè)操作,并將其發(fā)送給ALU。
【參考文獻(xiàn)】:
期刊論文
[1]HRM: H-tree based reconfiguration mechanism in reconfigurable homogeneous PE array[J]. Junyong Deng,Lin Jiang,Yun Zhu,Xiaoyan Xie,Xinchuang Liu,Feilong He,Shuang Song,L.K.John. Journal of Semiconductors. 2020(02)
[2]Design of a unified rendering shader for mobile device[J]. Jiang Lin,Tian Rujia,Yang Bowen,Tian Pu. The Journal of China Universities of Posts and Telecommunications. 2019(03)
[3]面向OpenGL的圖形加速器設(shè)計(jì)與實(shí)現(xiàn)[J]. 鄧軍勇,李濤,蔣林,韓俊剛,沈緒榜. 西安電子科技大學(xué)學(xué)報(bào). 2015(06)
[4]可重構(gòu)計(jì)算處理器技術(shù)[J]. 魏少軍,劉雷波,尹首一. 中國(guó)科學(xué):信息科學(xué). 2012(12)
本文編號(hào):3335969
【文章來源】:西安郵電大學(xué)陜西省
【文章頁數(shù)】:86 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Bifrost架構(gòu)框圖
第1章緒論3動(dòng)程序交互的任務(wù)管理器、一個(gè)負(fù)責(zé)處理內(nèi)存頁表的MMU以及一個(gè)生成tile鏈表的Tiler[13]。在Bifrost架構(gòu)中統(tǒng)一著色器核被設(shè)計(jì)成quad-basedarithmeticunits,由三個(gè)執(zhí)行引擎和一個(gè)管理單元構(gòu)成,可以并行執(zhí)行四標(biāo)量的計(jì)算,設(shè)計(jì)單元更孝更高效,一個(gè)指令字包含兩個(gè)指令,并且在該架構(gòu)中設(shè)計(jì)了新的數(shù)據(jù)流,減少了系統(tǒng)的內(nèi)存帶寬和占用空間;谠摷軜(gòu)的Mali-G71配置更加靈活,性能更高,同樣在API規(guī)范的支持上,可支持OpenGLES3.2、Vulkan1.0、OpenCL2.0、DX11、FL11_2和RenderScriptAPI接口。圖1.1Bifrost架構(gòu)框圖NVIDIA推出的Kepler架構(gòu)[14]采用1536個(gè)CUDA核心的統(tǒng)一渲染架構(gòu),如圖1.2所示,運(yùn)算能力達(dá)到3090GFLOPS,在NVIDIAGPUGeForceGTX680中進(jìn)行使用,Kepler架構(gòu)設(shè)計(jì)了一種流式多處理器結(jié)構(gòu)(StreamingMultiprocessorArchitecture,SMX),每個(gè)流式多處理器結(jié)構(gòu)中具有192個(gè)CUDA內(nèi)核,并且每個(gè)內(nèi)核具有完整的流水線浮點(diǎn)和整數(shù)算術(shù)邏輯單元,精度更高,可用于雙精度計(jì)算。在Kepler架構(gòu)中包含15個(gè)流式多處理器和6個(gè)64位的存儲(chǔ)控制器,同樣流式多處理器也是是可拓展,并且提供附加的緩存功能,在層次結(jié)構(gòu)的每一級(jí)上都具有更大的帶寬,整個(gè)設(shè)計(jì)中的硬件也支持新的可編程模式。盡管架構(gòu)一直在改變,性能也在提高,但同一時(shí)刻只能在流水線中處理一種或一類算法,無法對(duì)算法進(jìn)行切換。圖1.2Kepler架構(gòu)框圖
西安郵電大學(xué)碩士學(xué)位論文41.2.2可編程可重構(gòu)體系結(jié)構(gòu)隨著通用處理器功耗墻的出現(xiàn),芯片制造成本急劇上升,可重構(gòu)由于硬件的高能效、低能耗和軟件的靈活性吸引學(xué)術(shù)界和工業(yè)界的更多關(guān)注[15],并且可重構(gòu)計(jì)算可以突破馮諾依曼體系結(jié)構(gòu)的局限性,采用時(shí)空多維計(jì)算方法,將標(biāo)準(zhǔn)化與定制化、計(jì)算效率與可編程靈活性相結(jié)合,將是未來計(jì)算機(jī)架構(gòu)的發(fā)展方向[16][17],相比于傳統(tǒng)指令流驅(qū)動(dòng)和數(shù)據(jù)流驅(qū)動(dòng)的計(jì)算技術(shù),CGRA[18][19]是一種特殊的體系結(jié)構(gòu),可以在運(yùn)行時(shí)通過配置上下文動(dòng)態(tài)的部分重新配置。文獻(xiàn)[20]設(shè)計(jì)了一種靜態(tài)配置、動(dòng)態(tài)調(diào)度的粗粒度可重構(gòu)結(jié)構(gòu),用來解決靜態(tài)配置、靜態(tài)調(diào)度的低效率問題,如圖1.3所示的可重構(gòu)結(jié)構(gòu),由一個(gè)4×4處理元(Processingelement,PE)陣列、一個(gè)數(shù)據(jù)存儲(chǔ)器和一個(gè)指令存儲(chǔ)器組成。圖1.3靜態(tài)配置、動(dòng)態(tài)調(diào)度的可重構(gòu)結(jié)構(gòu)PE通過路由器網(wǎng)絡(luò)與環(huán)面拓?fù)溥B接,在PE內(nèi)部,每個(gè)PE都連接一個(gè)路由器,此外每個(gè)PE還有緩沖區(qū)和ALU,緩沖區(qū)可以緩存從先前PE路由的輸入操作數(shù),更新使用輸入操作數(shù)的操作的屬性,并根據(jù)其狀態(tài)將操作發(fā)送給ALU。在緩沖區(qū)向ALU發(fā)出操作后,操作數(shù)將立即以最小的延遲通過路由器網(wǎng)絡(luò)發(fā)送到其目標(biāo)PE。因此,從操作數(shù)的產(chǎn)生到使用,共有三個(gè)步驟,可以以流水線方式工作提高硬件的吞吐量。在緩沖區(qū)內(nèi)部,有一個(gè)狀態(tài)表,該表負(fù)責(zé)記錄操作的屬性。這些屬性包括:(1)ready標(biāo)簽,用于記錄是否準(zhǔn)備好發(fā)出操作數(shù);(2)如果輸入的操作數(shù)可用,則記錄1個(gè)avai標(biāo)簽和2個(gè)avai標(biāo)簽;(3)記錄操作級(jí)別編號(hào)的標(biāo)簽;(4)rterid標(biāo)簽,記錄操作的迭代次數(shù)。此外,狀態(tài)表還緩存輸入操作數(shù)的數(shù)據(jù),緩沖區(qū)還包含一個(gè)仲裁器,該仲裁器從所有就緒操作中選擇一個(gè)操作,并將其發(fā)送給ALU。
【參考文獻(xiàn)】:
期刊論文
[1]HRM: H-tree based reconfiguration mechanism in reconfigurable homogeneous PE array[J]. Junyong Deng,Lin Jiang,Yun Zhu,Xiaoyan Xie,Xinchuang Liu,Feilong He,Shuang Song,L.K.John. Journal of Semiconductors. 2020(02)
[2]Design of a unified rendering shader for mobile device[J]. Jiang Lin,Tian Rujia,Yang Bowen,Tian Pu. The Journal of China Universities of Posts and Telecommunications. 2019(03)
[3]面向OpenGL的圖形加速器設(shè)計(jì)與實(shí)現(xiàn)[J]. 鄧軍勇,李濤,蔣林,韓俊剛,沈緒榜. 西安電子科技大學(xué)學(xué)報(bào). 2015(06)
[4]可重構(gòu)計(jì)算處理器技術(shù)[J]. 魏少軍,劉雷波,尹首一. 中國(guó)科學(xué):信息科學(xué). 2012(12)
本文編號(hào):3335969
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3335969.html
最近更新
教材專著