高性能混合計(jì)算協(xié)處理器計(jì)算內(nèi)核的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2019-10-11 18:05
【摘要】:主處理器加協(xié)處理器方式組成的混合計(jì)算平臺(tái)逐漸成為高性能和高效能計(jì)算的發(fā)展趨勢(shì)。在典型的混合計(jì)算平臺(tái)中,協(xié)處理器承擔(dān)了主要計(jì)算加速任務(wù)。協(xié)處理器一般采用多核架構(gòu),內(nèi)部按一定方式集成多個(gè)計(jì)算內(nèi)核。 本文介紹了混合計(jì)算系統(tǒng)及其協(xié)處理器ESCA芯片的體系結(jié)構(gòu)和工作流程,在此基礎(chǔ)上提出了適合ESCA芯片的計(jì)算內(nèi)核體系結(jié)構(gòu)和計(jì)算內(nèi)核指令集。計(jì)算內(nèi)核包括控制邏輯,存儲(chǔ)單元和運(yùn)算單元。對(duì)控制邏輯,研究了其指令譯碼和任務(wù)調(diào)度方式,以及向量模式、條件執(zhí)行、精確中斷等關(guān)鍵技術(shù)。對(duì)存儲(chǔ)單元,設(shè)計(jì)了一個(gè)4讀4寫(xiě),支持容量擴(kuò)展的4KB分體寄存器文件,重點(diǎn)研究了其中的讀沖突仲裁機(jī)制。對(duì)運(yùn)算單元,通過(guò)硬件共享的方式設(shè)計(jì)了一套支持子字并行的高性能運(yùn)算單元,包括整型邏輯算術(shù)運(yùn)算單元,整型乘累加單元,浮點(diǎn)融合乘累加單元等。運(yùn)算單元支持豐富的運(yùn)算類(lèi)型,滿足指令集的設(shè)計(jì)要求。 本文最后對(duì)計(jì)算內(nèi)核進(jìn)行了功能驗(yàn)證,硬件評(píng)估和性能評(píng)估。分層次的驗(yàn)證策略保證了計(jì)算內(nèi)核功能的正確性。在UMC0.18μm CMOS工藝下綜合,控制邏輯,存儲(chǔ)單元和運(yùn)算單元分別占據(jù)計(jì)算內(nèi)核14%,30%,56%的面積,表明計(jì)算內(nèi)核具有控制簡(jiǎn)單,計(jì)算資源豐富的特點(diǎn),適合多核集成。而對(duì)運(yùn)算單元的評(píng)測(cè)結(jié)果顯示計(jì)算內(nèi)核以較小的額外硬件開(kāi)銷(xiāo)獲得較大性能以及計(jì)算精確度的提升。
【圖文】:
圖 1-1 混合計(jì)算平臺(tái)發(fā)展趨勢(shì) 混合計(jì)算協(xié)處理器及計(jì)算內(nèi)核Roadrunner 的理論峰值性能為 1.38 Petaflop/s(雙精度),其中約 95%的性owerXCell 8i 處理器[3]。也就是說(shuō)性能貢獻(xiàn)主要來(lái)自于混合計(jì)算平臺(tái)中的PowerXCell 8i 采用多核異構(gòu)體系結(jié)構(gòu)。處理器內(nèi)部由多個(gè)不同配置的處理包括一個(gè) PPE(Power Processing Element)內(nèi)核和 8 個(gè)相同的 SPE(Synessing Elements)。其中 PPE 是一個(gè)基于 Power 架構(gòu)的兩路多線程內(nèi)核,作的控制器,PPE 與其他 64-bit Power 架構(gòu)處理器類(lèi)似,用于運(yùn)行常規(guī)操作是一個(gè) SIMD (Single Instruction Multiple Data) RISC(Reduced Instrucputing)體系結(jié)構(gòu)處理器,完成大部分的計(jì)算任務(wù)。GRAPE-DR 芯片[10]則將 SIMD 體系結(jié)構(gòu)發(fā)揮到了極致。每個(gè) GRAPE-DR 512 個(gè)簡(jiǎn)化設(shè)計(jì)的計(jì)算內(nèi)核(Processing Element)。PE 被分為 16 個(gè)廣播
圖 2-5 計(jì)算任務(wù)通路核指令集系結(jié)構(gòu)位于計(jì)算機(jī)軟件和硬件的交界面,是計(jì)算機(jī)體系結(jié)構(gòu)指令集體系結(jié)構(gòu)和計(jì)算機(jī)系統(tǒng)的關(guān)系示意圖如圖 2-6 所示[27設(shè)定對(duì)程序的編寫(xiě)和執(zhí)行具有指導(dǎo)意義,良好的指令集設(shè)定雜度,,還能夠大幅度的提升目標(biāo)程序的性能;從硬件角度,件設(shè)計(jì)的規(guī)模和復(fù)雜度,指令集中定義的操作類(lèi)型直接決定令的編碼方式也會(huì)對(duì)硬件執(zhí)行效率產(chǎn)生影響。
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類(lèi)號(hào)】:TP332
本文編號(hào):2547607
【圖文】:
圖 1-1 混合計(jì)算平臺(tái)發(fā)展趨勢(shì) 混合計(jì)算協(xié)處理器及計(jì)算內(nèi)核Roadrunner 的理論峰值性能為 1.38 Petaflop/s(雙精度),其中約 95%的性owerXCell 8i 處理器[3]。也就是說(shuō)性能貢獻(xiàn)主要來(lái)自于混合計(jì)算平臺(tái)中的PowerXCell 8i 采用多核異構(gòu)體系結(jié)構(gòu)。處理器內(nèi)部由多個(gè)不同配置的處理包括一個(gè) PPE(Power Processing Element)內(nèi)核和 8 個(gè)相同的 SPE(Synessing Elements)。其中 PPE 是一個(gè)基于 Power 架構(gòu)的兩路多線程內(nèi)核,作的控制器,PPE 與其他 64-bit Power 架構(gòu)處理器類(lèi)似,用于運(yùn)行常規(guī)操作是一個(gè) SIMD (Single Instruction Multiple Data) RISC(Reduced Instrucputing)體系結(jié)構(gòu)處理器,完成大部分的計(jì)算任務(wù)。GRAPE-DR 芯片[10]則將 SIMD 體系結(jié)構(gòu)發(fā)揮到了極致。每個(gè) GRAPE-DR 512 個(gè)簡(jiǎn)化設(shè)計(jì)的計(jì)算內(nèi)核(Processing Element)。PE 被分為 16 個(gè)廣播
圖 2-5 計(jì)算任務(wù)通路核指令集系結(jié)構(gòu)位于計(jì)算機(jī)軟件和硬件的交界面,是計(jì)算機(jī)體系結(jié)構(gòu)指令集體系結(jié)構(gòu)和計(jì)算機(jī)系統(tǒng)的關(guān)系示意圖如圖 2-6 所示[27設(shè)定對(duì)程序的編寫(xiě)和執(zhí)行具有指導(dǎo)意義,良好的指令集設(shè)定雜度,,還能夠大幅度的提升目標(biāo)程序的性能;從硬件角度,件設(shè)計(jì)的規(guī)模和復(fù)雜度,指令集中定義的操作類(lèi)型直接決定令的編碼方式也會(huì)對(duì)硬件執(zhí)行效率產(chǎn)生影響。
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類(lèi)號(hào)】:TP332
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 馬勝;黃立波;王志英;劉聰;戴葵;;子字并行加法器的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2009年36期
2 饒金理;吳丹;陳攀;董冕;鄧承諾;戴葵;鄒雪城;;基于ESCA系統(tǒng)的層次化顯式訪存機(jī)制研究[J];計(jì)算機(jī)工程;2011年22期
相關(guān)博士學(xué)位論文 前1條
1 劉華平;高性能浮點(diǎn)除法及基本函數(shù)功能部件的研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2003年
相關(guān)碩士學(xué)位論文 前1條
1 王文廣;雙精度64位浮點(diǎn)除法運(yùn)算單元的設(shè)計(jì)與實(shí)現(xiàn)[D];中南大學(xué);2007年
本文編號(hào):2547607
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2547607.html
最近更新
教材專(zhuān)著