分片式流處理器數(shù)據(jù)并行存儲系統(tǒng)的設(shè)計與實現(xiàn)
發(fā)布時間:2020-06-12 06:17
【摘要】: 半導(dǎo)體技術(shù)的飛速發(fā)展使微處理器的運算能力迅速提升,但訪存速度的增長卻相對緩慢,“存儲墻”問題日益明顯。存儲系統(tǒng)有限的片外帶寬已經(jīng)成為阻礙程序整體性能提升的瓶頸。分片式流處理器主要面向數(shù)據(jù)并行應(yīng)用,這類應(yīng)用的訪存時間通常占據(jù)程序整體運行時間的很大比例,同時傳統(tǒng)的存儲系統(tǒng)結(jié)構(gòu)設(shè)計也并不適應(yīng)這類應(yīng)用的訪存特點,因此這個問題更加嚴(yán)峻。改進(jìn)訪存系統(tǒng)從而減少訪存開銷對提升分片式流處理器系統(tǒng)的性能非常重要。在片外數(shù)據(jù)傳輸峰值帶寬固定的情況下,提高片外存儲訪問帶寬的使用效率,減少計算代碼的等待時間是提升存儲系統(tǒng)性能的關(guān)鍵途徑之一。 論文的研究工作著眼于分片式流處理器的數(shù)據(jù)并行存儲系統(tǒng)的分析、設(shè)計和實現(xiàn)。主要研究內(nèi)容和成果包括以下幾方面。(1)基于流處理器的數(shù)據(jù)并行存儲系統(tǒng)訪存模型、結(jié)構(gòu)特征以及數(shù)據(jù)并行應(yīng)用的訪存特點,定性地分析了其多級存儲層次和計算/訪存重疊對隱藏延遲、改善帶寬的效果。(2)在模擬實驗平臺上定量地測試和分析了在不同負(fù)載特征下,存儲系統(tǒng)的主要設(shè)計參數(shù)對訪存性能的影響。實驗表明,對于訪存模式敏感的部分參數(shù),需要根據(jù)不同應(yīng)用的并行性和局部性特點來配置它們以改善性能。(3)從提高片外帶寬使用率的角度出發(fā),設(shè)計和實現(xiàn)了分片式流處理器的數(shù)據(jù)并行存儲系統(tǒng)。該存儲系統(tǒng)通過多級調(diào)度能有效地減少片外訪存的次數(shù),降低片外帶寬需求。軟件模擬和仿真驗證的結(jié)果表明,在不同工作負(fù)載特征下,通過設(shè)計參數(shù)的優(yōu)化選擇,該設(shè)計能夠充分挖掘存儲訪問的行局部性和體間并行性,提高帶寬的使用效率,從而促進(jìn)整個分片式流處理器系統(tǒng)的性能提升。
【圖文】:
Merrimac 處理器(Mattan Erez,2006,William J. Dally,,2003)是 Ima處理器的升級版本,它繼承了 Imagine 的結(jié)構(gòu)特點,集成了更多的運算簇,同對片上的全局寄存器文件也做了擴(kuò)容和分布式處理。2.1.2 存儲系統(tǒng)的軟硬件支持Imagine 處理器針對流應(yīng)用的特點,在結(jié)構(gòu)上通過三級存儲層次和片內(nèi)高寬支持(Nuwan S. Jayasena,2005),盡量減少對片外存儲器的訪問,以保證內(nèi)運算能力的充分利用,同時也在一定程度上減輕長線延遲的影響。圖 2.1 的條虛線分別對應(yīng)了這三級存儲層次,LRF 級是運算單元下面的寄存器堆,用于掘指令間的數(shù)據(jù)局部性,緩存運算簇內(nèi)部要通信的數(shù)據(jù),容量較小帶寬最高;級挖掘的是生產(chǎn)者/消費者局部性,容量較大,是一個軟件控制的片上存儲,果把這個片上存儲比作 cache 的話,那么它的命中率就是 100%,它與 Cach構(gòu)的比較如表 2.1 所示;作為片外存儲的 SDRAM 容量比 SRF 更大,但因為受引腳數(shù)目約束,訪問速度也更慢,在 Imagine 處理器中只有在流數(shù)據(jù)的輸入輸
片內(nèi)互聯(lián)提供了更好的片內(nèi)帶寬,數(shù)據(jù)從外部存儲到達(dá)芯片的端能迅速傳給需要的 SPE,且多個 SPE 之間可以同時通信而不會相互干擾。CELL 的編程模型也為結(jié)構(gòu)提供了相應(yīng)的支持,如對 Local Store 的軟件管理序員可編程的 DMA 操作。 VIRAM.1 微體系結(jié)構(gòu)概述VIRAM(Vector Intelligent RAM)處理器(J. Gebis,2004,Sourav Chatterji3)是 UC Berkeley 開發(fā)的一款嵌入式原形芯片,它針對的目標(biāo)領(lǐng)域也是媒體應(yīng)用。不過由于嵌入式設(shè)備的特殊性,它在考慮性能之余,還更多考慮了面功耗因素。顧名思義,它的兩個結(jié)構(gòu)特點一個是集成了向量處理單元,另一是使用了片上嵌入式的 DRAM,其結(jié)構(gòu)如圖 2.3 所示。
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2009
【分類號】:TP333
本文編號:2709118
【圖文】:
Merrimac 處理器(Mattan Erez,2006,William J. Dally,,2003)是 Ima處理器的升級版本,它繼承了 Imagine 的結(jié)構(gòu)特點,集成了更多的運算簇,同對片上的全局寄存器文件也做了擴(kuò)容和分布式處理。2.1.2 存儲系統(tǒng)的軟硬件支持Imagine 處理器針對流應(yīng)用的特點,在結(jié)構(gòu)上通過三級存儲層次和片內(nèi)高寬支持(Nuwan S. Jayasena,2005),盡量減少對片外存儲器的訪問,以保證內(nèi)運算能力的充分利用,同時也在一定程度上減輕長線延遲的影響。圖 2.1 的條虛線分別對應(yīng)了這三級存儲層次,LRF 級是運算單元下面的寄存器堆,用于掘指令間的數(shù)據(jù)局部性,緩存運算簇內(nèi)部要通信的數(shù)據(jù),容量較小帶寬最高;級挖掘的是生產(chǎn)者/消費者局部性,容量較大,是一個軟件控制的片上存儲,果把這個片上存儲比作 cache 的話,那么它的命中率就是 100%,它與 Cach構(gòu)的比較如表 2.1 所示;作為片外存儲的 SDRAM 容量比 SRF 更大,但因為受引腳數(shù)目約束,訪問速度也更慢,在 Imagine 處理器中只有在流數(shù)據(jù)的輸入輸
片內(nèi)互聯(lián)提供了更好的片內(nèi)帶寬,數(shù)據(jù)從外部存儲到達(dá)芯片的端能迅速傳給需要的 SPE,且多個 SPE 之間可以同時通信而不會相互干擾。CELL 的編程模型也為結(jié)構(gòu)提供了相應(yīng)的支持,如對 Local Store 的軟件管理序員可編程的 DMA 操作。 VIRAM.1 微體系結(jié)構(gòu)概述VIRAM(Vector Intelligent RAM)處理器(J. Gebis,2004,Sourav Chatterji3)是 UC Berkeley 開發(fā)的一款嵌入式原形芯片,它針對的目標(biāo)領(lǐng)域也是媒體應(yīng)用。不過由于嵌入式設(shè)備的特殊性,它在考慮性能之余,還更多考慮了面功耗因素。顧名思義,它的兩個結(jié)構(gòu)特點一個是集成了向量處理單元,另一是使用了片上嵌入式的 DRAM,其結(jié)構(gòu)如圖 2.3 所示。
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2009
【分類號】:TP333
【引證文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前1條
1 陳琨;基于層次化存儲的高性能數(shù)據(jù)包緩存機(jī)制的研究與實現(xiàn)[D];西安電子科技大學(xué);2012年
本文編號:2709118
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2709118.html
最近更新
教材專著