分片式流處理器數(shù)據(jù)并行存儲(chǔ)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間：2020-06-12 06:17

【摘要】： 半導(dǎo)體技術(shù)的飛速發(fā)展使微處理器的運(yùn)算能力迅速提升,但訪存速度的增長卻相對緩慢,“存儲(chǔ)墻”問題日益明顯。存儲(chǔ)系統(tǒng)有限的片外帶寬已經(jīng)成為阻礙程序整體性能提升的瓶頸。分片式流處理器主要面向數(shù)據(jù)并行應(yīng)用,這類應(yīng)用的訪存時(shí)間通常占據(jù)程序整體運(yùn)行時(shí)間的很大比例,同時(shí)傳統(tǒng)的存儲(chǔ)系統(tǒng)結(jié)構(gòu)設(shè)計(jì)也并不適應(yīng)這類應(yīng)用的訪存特點(diǎn),因此這個(gè)問題更加嚴(yán)峻。改進(jìn)訪存系統(tǒng)從而減少訪存開銷對提升分片式流處理器系統(tǒng)的性能非常重要。在片外數(shù)據(jù)傳輸峰值帶寬固定的情況下,提高片外存儲(chǔ)訪問帶寬的使用效率,減少計(jì)算代碼的等待時(shí)間是提升存儲(chǔ)系統(tǒng)性能的關(guān)鍵途徑之一。論文的研究工作著眼于分片式流處理器的數(shù)據(jù)并行存儲(chǔ)系統(tǒng)的分析、設(shè)計(jì)和實(shí)現(xiàn)。主要研究內(nèi)容和成果包括以下幾方面。(1)基于流處理器的數(shù)據(jù)并行存儲(chǔ)系統(tǒng)訪存模型、結(jié)構(gòu)特征以及數(shù)據(jù)并行應(yīng)用的訪存特點(diǎn),定性地分析了其多級存儲(chǔ)層次和計(jì)算/訪存重疊對隱藏延遲、改善帶寬的效果。(2)在模擬實(shí)驗(yàn)平臺(tái)上定量地測試和分析了在不同負(fù)載特征下,存儲(chǔ)系統(tǒng)的主要設(shè)計(jì)參數(shù)對訪存性能的影響。實(shí)驗(yàn)表明,對于訪存模式敏感的部分參數(shù),需要根據(jù)不同應(yīng)用的并行性和局部性特點(diǎn)來配置它們以改善性能。(3)從提高片外帶寬使用率的角度出發(fā),設(shè)計(jì)和實(shí)現(xiàn)了分片式流處理器的數(shù)據(jù)并行存儲(chǔ)系統(tǒng)。該存儲(chǔ)系統(tǒng)通過多級調(diào)度能有效地減少片外訪存的次數(shù),降低片外帶寬需求。軟件模擬和仿真驗(yàn)證的結(jié)果表明,在不同工作負(fù)載特征下,通過設(shè)計(jì)參數(shù)的優(yōu)化選擇,該設(shè)計(jì)能夠充分挖掘存儲(chǔ)訪問的行局部性和體間并行性,提高帶寬的使用效率,從而促進(jìn)整個(gè)分片式流處理器系統(tǒng)的性能提升。
【圖文】：

處理器體系結(jié)構(gòu)

Merrimac 處理器（Mattan Erez，2006，William J. Dally，，2003）是 Ima處理器的升級版本，它繼承了 Imagine 的結(jié)構(gòu)特點(diǎn)，集成了更多的運(yùn)算簇，同對片上的全局寄存器文件也做了擴(kuò)容和分布式處理。2.1.2 存儲(chǔ)系統(tǒng)的軟硬件支持Imagine 處理器針對流應(yīng)用的特點(diǎn)，在結(jié)構(gòu)上通過三級存儲(chǔ)層次和片內(nèi)高寬支持（Nuwan S. Jayasena，2005），盡量減少對片外存儲(chǔ)器的訪問，以保證內(nèi)運(yùn)算能力的充分利用，同時(shí)也在一定程度上減輕長線延遲的影響。圖 2.1 的條虛線分別對應(yīng)了這三級存儲(chǔ)層次，LRF 級是運(yùn)算單元下面的寄存器堆，用于掘指令間的數(shù)據(jù)局部性，緩存運(yùn)算簇內(nèi)部要通信的數(shù)據(jù)，容量較小帶寬最高；級挖掘的是生產(chǎn)者/消費(fèi)者局部性，容量較大，是一個(gè)軟件控制的片上存儲(chǔ)，果把這個(gè)片上存儲(chǔ)比作 cache 的話，那么它的命中率就是 100%，它與 Cach構(gòu)的比較如表 2.1 所示；作為片外存儲(chǔ)的 SDRAM 容量比 SRF 更大，但因?yàn)槭芤_數(shù)目約束，訪問速度也更慢，在 Imagine 處理器中只有在流數(shù)據(jù)的輸入輸

體系結(jié)構(gòu)圖,體系結(jié)構(gòu)

片內(nèi)互聯(lián)提供了更好的片內(nèi)帶寬，數(shù)據(jù)從外部存儲(chǔ)到達(dá)芯片的端能迅速傳給需要的 SPE，且多個(gè) SPE 之間可以同時(shí)通信而不會(huì)相互干擾。CELL 的編程模型也為結(jié)構(gòu)提供了相應(yīng)的支持，如對 Local Store 的軟件管理序員可編程的 DMA 操作。 VIRAM.1 微體系結(jié)構(gòu)概述VIRAM（Vector Intelligent RAM）處理器（J. Gebis，2004，Sourav Chatterji3）是 UC Berkeley 開發(fā)的一款嵌入式原形芯片，它針對的目標(biāo)領(lǐng)域也是媒體應(yīng)用。不過由于嵌入式設(shè)備的特殊性，它在考慮性能之余，還更多考慮了面功耗因素。顧名思義，它的兩個(gè)結(jié)構(gòu)特點(diǎn)一個(gè)是集成了向量處理單元，另一是使用了片上嵌入式的 DRAM，其結(jié)構(gòu)如圖 2.3 所示。
【學(xué)位授予單位】：中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2009
【分類號】：TP333

【引證文獻(xiàn)】

相關(guān)碩士學(xué)位論文前1條

1 陳琨;基于層次化存儲(chǔ)的高性能數(shù)據(jù)包緩存機(jī)制的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2012年

本文編號：2709118

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2709118.html

上一篇：量子優(yōu)化算法的研究與應(yīng)用
下一篇：面向汽車電子的嵌入式多處理器系統(tǒng)設(shè)計(jì)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

分片式流處理器數(shù)據(jù)并行存儲(chǔ)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)