面向塊編程應(yīng)用的多核體系結(jié)構(gòu)關(guān)鍵技術(shù)研究與設(shè)計
發(fā)布時間:2020-10-26 09:58
近年來,多媒體及無線通信技術(shù)的發(fā)展十分迅速。這些領(lǐng)域中使用到的很多熱點算法的實現(xiàn)方式具有天生的并行性,非常適宜于在多核體系架構(gòu)上實現(xiàn)。如何設(shè)計多核架構(gòu),在不顯著增加其復(fù)雜度的情況下,使其可以更高效的并行處理數(shù)據(jù),是一個非常關(guān)鍵的問題。 為了提高多核處理器的性能,簡化其結(jié)構(gòu),本文研究內(nèi)容集中于多核處理器的核間數(shù)據(jù)交換方式及特定并行算法在多核處理器上的映射和實現(xiàn)。本文給出一種應(yīng)用對象為視頻處理中常用并行算法的四核處理器架構(gòu),在設(shè)計中通過采用可配置共享寄存器以及在內(nèi)核和數(shù)據(jù)存儲器之間搭建多層總線兩種方式建立多核處理器各內(nèi)核間的數(shù)據(jù)通路,來改善多核處理器并行處理數(shù)據(jù)時的性能,提高數(shù)據(jù)交換效率。經(jīng)驗證,與使用共享cache的傳統(tǒng)四核處理器相比,本文所設(shè)計的四核處理器可將文中列舉的并行算法的實現(xiàn)周期大大縮短,極大的提高了處理器的處理性能。 文中詳細介紹了構(gòu)成多核處理器的單核結(jié)構(gòu)、多核處理器的具體結(jié)構(gòu)、多核處理器的數(shù)據(jù)交換機制、視頻處理中常用的并行算法在多核處理器上的映射與實現(xiàn)以及對多核處理器的性能及相關(guān)算法的實現(xiàn)效果的評估與分析。
【學(xué)位單位】:上海交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2011
【中圖分類】:TP332
【部分圖文】:
上海交通大學(xué)碩士學(xué)位論文該處理器是由美國斯坦福大學(xué)在 1997 年設(shè)計研制的[2]。該處理器在一塊芯片上集成了四個處理單元,每個均為 MIPS R10000 處理核。HYDRA 處理器核間采用私有一級 cache,共享二級 cache,使用兩條總線實現(xiàn)處理器和內(nèi)存的互連,同時寫信號在寫總線上廣播,從而實現(xiàn)讀寫一致性。該處理器在處理具有高度并行性的應(yīng)用程序時表現(xiàn)出了極好的性能。但是對于并行性一般的應(yīng)用程序,性能隨之下降。該處理器的具體結(jié)構(gòu)見圖 1-1。
圖 1- 2 CELL 處理器結(jié)構(gòu)圖[3]Fig.1-2 Structure of CELL processor3、RAW 處理器美國馬薩諸塞大學(xué)正在開發(fā)的 RAW 處理器[4]可以說是 Tile 結(jié)構(gòu)的先驅(qū),它克服了布線延遲,充分利用了 Tile 結(jié)構(gòu)豐富的硬件資源和有限的管腳資源。RAW 處理器由 16 個結(jié)構(gòu)相同的 Tile 單元構(gòu)成,而每個 Tile 單元由近似 MIPS 處理器的單指令發(fā)射內(nèi)部處理計算流水線和網(wǎng)絡(luò)構(gòu)成。每個 Tile 單元可作為具有獨立程序計數(shù)器的處理器工作,當(dāng)指令或數(shù)據(jù)緩存發(fā)生錯誤時,則從配置在芯片外的主存獲取數(shù)據(jù)。Tile 單元間的通信必須借助寄存器,所有布線均設(shè)計成短于 Tile 單元單邊的長度。因此,即使是根據(jù)應(yīng)用的性能要求或可用晶體管數(shù)的提高,而增加集成的 Tile 單元數(shù)也不會降低芯片的工作頻率。假使試制芯片經(jīng)過每個 Tile 單元時產(chǎn)生 1 個周期的延遲,則右下 Tile 單元要使用左上 Tile 單元生成的數(shù)據(jù),會產(chǎn)生6 個周期的通信延遲。Tile 單元中的運算流水線由 8 級流水線構(gòu)成,每條運算流水線都采用單指令發(fā)射的簡單結(jié)構(gòu)。盡管一個 Tile 單元每個時鐘周期只能處理一條指令,但 16 個 Tile 單元可同時進行運算,因而每個芯片一個時鐘周期就可完成
圖 1- 3 RAW 處理器結(jié)構(gòu)圖[4]Fig.1-3 Structure of RAW processor1.2.2 多核處理器發(fā)展的關(guān)鍵問題多核處理器結(jié)構(gòu)不僅有性能潛力大、集成度高、并行度高、結(jié)構(gòu)簡單和設(shè)計驗證方便等諸多優(yōu)勢,而且它還能繼承傳統(tǒng)單處理器研究中的某些成果,例如同時多線程、寬發(fā)射指令、降壓低功耗技術(shù)等。但多核處理器畢竟是一種新的結(jié)構(gòu),在多核結(jié)構(gòu)設(shè)計和應(yīng)用開發(fā)中出現(xiàn)了以前未曾遇到的新問題,這些問題給多核處理器的未來提出了挑戰(zhàn)。目前在多核技術(shù)的發(fā)展過程中,以下幾個問題值得我們著重考慮。1、內(nèi)核類型的選擇目前多核處理器的內(nèi)核結(jié)構(gòu)主要有同構(gòu)和異構(gòu)兩種。同構(gòu)結(jié)構(gòu)采用對稱設(shè)計,原理簡單,硬件上較易實現(xiàn)。當(dāng)前主流的雙核和四核處理器基本上都采用同構(gòu)結(jié)構(gòu)。但是,通過增加 CPU 內(nèi)核來提升處理器的性能,存在一定的極限。達到極限值之后,性能就無法再隨著內(nèi)核數(shù)量的增加而提升了。
【參考文獻】
本文編號:2856844
【學(xué)位單位】:上海交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2011
【中圖分類】:TP332
【部分圖文】:
上海交通大學(xué)碩士學(xué)位論文該處理器是由美國斯坦福大學(xué)在 1997 年設(shè)計研制的[2]。該處理器在一塊芯片上集成了四個處理單元,每個均為 MIPS R10000 處理核。HYDRA 處理器核間采用私有一級 cache,共享二級 cache,使用兩條總線實現(xiàn)處理器和內(nèi)存的互連,同時寫信號在寫總線上廣播,從而實現(xiàn)讀寫一致性。該處理器在處理具有高度并行性的應(yīng)用程序時表現(xiàn)出了極好的性能。但是對于并行性一般的應(yīng)用程序,性能隨之下降。該處理器的具體結(jié)構(gòu)見圖 1-1。
圖 1- 2 CELL 處理器結(jié)構(gòu)圖[3]Fig.1-2 Structure of CELL processor3、RAW 處理器美國馬薩諸塞大學(xué)正在開發(fā)的 RAW 處理器[4]可以說是 Tile 結(jié)構(gòu)的先驅(qū),它克服了布線延遲,充分利用了 Tile 結(jié)構(gòu)豐富的硬件資源和有限的管腳資源。RAW 處理器由 16 個結(jié)構(gòu)相同的 Tile 單元構(gòu)成,而每個 Tile 單元由近似 MIPS 處理器的單指令發(fā)射內(nèi)部處理計算流水線和網(wǎng)絡(luò)構(gòu)成。每個 Tile 單元可作為具有獨立程序計數(shù)器的處理器工作,當(dāng)指令或數(shù)據(jù)緩存發(fā)生錯誤時,則從配置在芯片外的主存獲取數(shù)據(jù)。Tile 單元間的通信必須借助寄存器,所有布線均設(shè)計成短于 Tile 單元單邊的長度。因此,即使是根據(jù)應(yīng)用的性能要求或可用晶體管數(shù)的提高,而增加集成的 Tile 單元數(shù)也不會降低芯片的工作頻率。假使試制芯片經(jīng)過每個 Tile 單元時產(chǎn)生 1 個周期的延遲,則右下 Tile 單元要使用左上 Tile 單元生成的數(shù)據(jù),會產(chǎn)生6 個周期的通信延遲。Tile 單元中的運算流水線由 8 級流水線構(gòu)成,每條運算流水線都采用單指令發(fā)射的簡單結(jié)構(gòu)。盡管一個 Tile 單元每個時鐘周期只能處理一條指令,但 16 個 Tile 單元可同時進行運算,因而每個芯片一個時鐘周期就可完成
圖 1- 3 RAW 處理器結(jié)構(gòu)圖[4]Fig.1-3 Structure of RAW processor1.2.2 多核處理器發(fā)展的關(guān)鍵問題多核處理器結(jié)構(gòu)不僅有性能潛力大、集成度高、并行度高、結(jié)構(gòu)簡單和設(shè)計驗證方便等諸多優(yōu)勢,而且它還能繼承傳統(tǒng)單處理器研究中的某些成果,例如同時多線程、寬發(fā)射指令、降壓低功耗技術(shù)等。但多核處理器畢竟是一種新的結(jié)構(gòu),在多核結(jié)構(gòu)設(shè)計和應(yīng)用開發(fā)中出現(xiàn)了以前未曾遇到的新問題,這些問題給多核處理器的未來提出了挑戰(zhàn)。目前在多核技術(shù)的發(fā)展過程中,以下幾個問題值得我們著重考慮。1、內(nèi)核類型的選擇目前多核處理器的內(nèi)核結(jié)構(gòu)主要有同構(gòu)和異構(gòu)兩種。同構(gòu)結(jié)構(gòu)采用對稱設(shè)計,原理簡單,硬件上較易實現(xiàn)。當(dāng)前主流的雙核和四核處理器基本上都采用同構(gòu)結(jié)構(gòu)。但是,通過增加 CPU 內(nèi)核來提升處理器的性能,存在一定的極限。達到極限值之后,性能就無法再隨著內(nèi)核數(shù)量的增加而提升了。
【參考文獻】
相關(guān)期刊論文 前10條
1 王海;李秦偉;;H.264視頻編碼的研究[J];電腦知識與技術(shù);2010年10期
2 李璐;湯躍科;陳杰;;基于Crossbar Switch結(jié)構(gòu)的多層AMBA高速總線的設(shè)計及其應(yīng)用[J];電子器件;2007年05期
3 鐘升;;基于SIMD PE陣列的DCT數(shù)據(jù)并行實現(xiàn)方法研究[J];電子學(xué)報;2009年07期
4 張智澄;郭煒;祝永新;;一種改進的后處理去塊濾波算法及其硬件實現(xiàn)[J];信息技術(shù);2008年02期
5 張駿;樊曉椏;劉松鶴;;多核、多線程處理器的低功耗設(shè)計技術(shù)研究[J];計算機科學(xué);2007年10期
6 郝松;都志輝;王曼;劉志強;;多核處理器降低功耗技術(shù)綜述[J];計算機科學(xué);2007年11期
7 孫利榮,蔣澤軍,王麗芳;片上網(wǎng)絡(luò)[J];計算機工程;2005年20期
8 史莉雯;樊曉椏;張盛兵;;單片多處理器的研究[J];計算機應(yīng)用研究;2007年09期
9 林川;張曉瀟;陳杰;韓亮;周朝顯;李海軍;;超長指令字DSP處理器的共享寄存器堆設(shè)計[J];科學(xué)技術(shù)與工程;2006年13期
10 鄧崇亮;覃煥昌;;SoC片上五種總線標(biāo)準(zhǔn)的分析比較[J];百色學(xué)院學(xué)報;2008年03期
本文編號:2856844
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2856844.html
最近更新
教材專著