多核結(jié)構(gòu)上的線程級推測關(guān)鍵技術(shù)研究
發(fā)布時間:2020-04-23 10:04
【摘要】: 進(jìn)入21世紀(jì)以來,隨著半導(dǎo)體工藝技術(shù)的發(fā)展,微處理器芯片體系結(jié)構(gòu)由于受到功耗與設(shè)計(jì)復(fù)雜度等問題的限制開始進(jìn)入多核時代,但是傳統(tǒng)的串行程序模型與串行地址空間模型并沒有發(fā)生實(shí)質(zhì)性變化,并行的多核結(jié)構(gòu)模型與串行的計(jì)算理論模型之間發(fā)生了矛盾。線程級推測技術(shù)的提出為緩解這一矛盾,使用多核結(jié)構(gòu)加速串行程序提供了可能。目前,有關(guān)該技術(shù)的研究仍然停留在學(xué)術(shù)研究階段,距離應(yīng)用還有較大的距離,仍有許多關(guān)鍵技術(shù)有待深入研究。因此“多核結(jié)構(gòu)上的線程級推測關(guān)鍵技術(shù)研究”對于探索在多核微處理器芯片上加速傳統(tǒng)串行應(yīng)用的有效方法具有重要的學(xué)術(shù)意義和實(shí)際應(yīng)用價值。 本文圍繞線程級推測的若干關(guān)鍵技術(shù)問題開展了深入系統(tǒng)的研究,主要涉及線程級推測并行性的定位與分析、線程級推測程序的表示與變換、支持線程級推測的單芯片多處理器(Chip Multi-processor,CMP)結(jié)構(gòu)模型三個方面。(1)在線程級推測并行性的定位與分析的研究中,本文提出了判定“特定應(yīng)用程序是否適合推測執(zhí)行”的準(zhǔn)則,以及分析、定位應(yīng)用程序中線程級推測并行性的理論與方法,并設(shè)計(jì)實(shí)現(xiàn)了針對線程級推測的剖析工具。(2)在線程級推測程序的表示與變換的研究中,本文為實(shí)現(xiàn)循環(huán)結(jié)構(gòu)和子程序結(jié)構(gòu)的線程級推測執(zhí)行,設(shè)計(jì)實(shí)現(xiàn)了基本的運(yùn)行時系統(tǒng),完成了循環(huán)結(jié)構(gòu)和子程序結(jié)構(gòu)的線程化執(zhí)行,簡化了線程級推測程序的設(shè)計(jì),并通過擴(kuò)充系統(tǒng)調(diào)用的方法避免了對編譯器的大幅度改動。(3)在支持線程級推測的CMP結(jié)構(gòu)模型的研究中,本文考察了在CMP結(jié)構(gòu)上實(shí)現(xiàn)線程級推測所需的硬件支持,提出了一種線程級推測硬件體系結(jié)構(gòu)模型。(4)搭建了多核芯片結(jié)構(gòu)的行為級模擬實(shí)驗(yàn)平臺,開展了軟硬件協(xié)同的性能分析與優(yōu)化工作。通過大量的實(shí)驗(yàn),完成了對多核芯片基本設(shè)計(jì)空間的搜索,獲得了對線程級推測技術(shù)中的若干關(guān)鍵問題的新認(rèn)識。 本文選取SPEC CPU 2000中的程序作為研究對象。通過對應(yīng)用程序中固有的線程級推測并行性的研究,我們發(fā)現(xiàn):(1)程序中存在著大量的返回值可預(yù)測的子程序結(jié)構(gòu),這些子程序結(jié)構(gòu)平均占據(jù)了超過50%的運(yùn)行時間,簡單的Last-value函數(shù)返回值預(yù)測方案已經(jīng)足以取得令人滿意的預(yù)測成功率。(2)程序中粒度較小的循環(huán)結(jié)構(gòu)較粒度較大的循環(huán)結(jié)構(gòu)多,循環(huán)展開合并技術(shù)對于控制推測線程的粒度是必要的。(3)無論是循環(huán)結(jié)構(gòu)還是子程序結(jié)構(gòu),訪存數(shù)據(jù)依賴都是普遍存在的,在推測執(zhí)行的過程中適當(dāng)?shù)夭迦胪脚c通信對于提高線程級推測的性能具有重要意義。(4)由于受到應(yīng)用本身并行特性的限制,基于4發(fā)射超標(biāo)量內(nèi)核的線程級推測技術(shù)所能有效利用的處理器內(nèi)核數(shù)目小于4。 通過搭建具體的行為級模擬平臺、開展軟硬件協(xié)同的性能分析與優(yōu)化,我們還發(fā)現(xiàn):(1)單一總線互連網(wǎng)絡(luò)很難承擔(dān)線程級推測執(zhí)行過程中的數(shù)據(jù)通信負(fù)載,按照功能分裂總線的多總線互連方案可以在一定程度上緩解該問題,但是當(dāng)處理器數(shù)目大于4時,多總線互連方案將成為系統(tǒng)性能瓶頸。(2)使用復(fù)雜的寬發(fā)射處理器內(nèi)核(發(fā)射寬度大于2)構(gòu)造線程級推測系統(tǒng)是不必要的,但是亂序發(fā)射技術(shù)是必須的。(3)線程級推測的性能很大程度依賴于編譯技術(shù),優(yōu)化的線程劃分方案與適當(dāng)?shù)耐酵ㄐ艡C(jī)制是影響線程級推測性能的兩個關(guān)鍵因素。
【圖文】:
第l章緒論并行代碼。這其中,在二進(jìn)制代碼級通過二次編譯產(chǎn)生并行二進(jìn)制代碼的方法,對于加速大量歷史遺留的二進(jìn)制代碼尤為意義重大。最后,推測技術(shù)的引入,使得一些過去為了容忍通信延遲而被迫放棄利用的線程級并行性重新得以有效利用,從而為進(jìn)一步提高性能提供了可能。在傳統(tǒng)的SMP結(jié)構(gòu)中,由于受限于芯片互連帶寬與芯片封裝技術(shù),線程級推測所帶來的性能提升被其所需通的信代價所抵消甚至超過,線程級推測也是不現(xiàn)實(shí)的。Pm優(yōu)SS0r3Proeessor4ProcessoTIPmCOSSOrZ
ultisca!ar技術(shù)提出了一種新穎的處理器微體系結(jié)構(gòu),圖2.1顯示了一ultiscalar微體系結(jié)構(gòu)(Multiscalar的微體系結(jié)構(gòu)可以有很多的變種,典型的一種)。概括地說,Multiscalar處理器由若干緊藕合的“處理單調(diào)度器(sequencer)”以及片上“高速數(shù)據(jù)Cache/緩存(DataBank)”成。處理單元在整個系統(tǒng)結(jié)構(gòu)中處于中心位置,每個處理單元都可一個控制流。處理單元與任務(wù)調(diào)度器直接相連,并通過互連網(wǎng)絡(luò)與ache/緩存部件相連。處理單元之間的緊禍合是指各個處理器可以通的數(shù)據(jù)通路實(shí)現(xiàn)寄存器級的數(shù)據(jù)通信。任務(wù)調(diào)度器負(fù)責(zé)將線程按照分配給各個處理單元。片上高速數(shù)據(jù)Cache/緩存部件由若干數(shù)據(jù)體組成,每個數(shù)據(jù)體由數(shù)據(jù)Cache與地址解析緩存(ARB,,Addressresol組成。數(shù)據(jù)Cache負(fù)責(zé)開發(fā)程序的數(shù)據(jù)局部性、平衡處理器與存儲度差異;而地址解析緩存則負(fù)責(zé)緩存推測讀寫操作,以維持內(nèi)存操致性。
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2008
【分類號】:TP332
本文編號:2637616
【圖文】:
第l章緒論并行代碼。這其中,在二進(jìn)制代碼級通過二次編譯產(chǎn)生并行二進(jìn)制代碼的方法,對于加速大量歷史遺留的二進(jìn)制代碼尤為意義重大。最后,推測技術(shù)的引入,使得一些過去為了容忍通信延遲而被迫放棄利用的線程級并行性重新得以有效利用,從而為進(jìn)一步提高性能提供了可能。在傳統(tǒng)的SMP結(jié)構(gòu)中,由于受限于芯片互連帶寬與芯片封裝技術(shù),線程級推測所帶來的性能提升被其所需通的信代價所抵消甚至超過,線程級推測也是不現(xiàn)實(shí)的。Pm優(yōu)SS0r3Proeessor4ProcessoTIPmCOSSOrZ
ultisca!ar技術(shù)提出了一種新穎的處理器微體系結(jié)構(gòu),圖2.1顯示了一ultiscalar微體系結(jié)構(gòu)(Multiscalar的微體系結(jié)構(gòu)可以有很多的變種,典型的一種)。概括地說,Multiscalar處理器由若干緊藕合的“處理單調(diào)度器(sequencer)”以及片上“高速數(shù)據(jù)Cache/緩存(DataBank)”成。處理單元在整個系統(tǒng)結(jié)構(gòu)中處于中心位置,每個處理單元都可一個控制流。處理單元與任務(wù)調(diào)度器直接相連,并通過互連網(wǎng)絡(luò)與ache/緩存部件相連。處理單元之間的緊禍合是指各個處理器可以通的數(shù)據(jù)通路實(shí)現(xiàn)寄存器級的數(shù)據(jù)通信。任務(wù)調(diào)度器負(fù)責(zé)將線程按照分配給各個處理單元。片上高速數(shù)據(jù)Cache/緩存部件由若干數(shù)據(jù)體組成,每個數(shù)據(jù)體由數(shù)據(jù)Cache與地址解析緩存(ARB,,Addressresol組成。數(shù)據(jù)Cache負(fù)責(zé)開發(fā)程序的數(shù)據(jù)局部性、平衡處理器與存儲度差異;而地址解析緩存則負(fù)責(zé)緩存推測讀寫操作,以維持內(nèi)存操致性。
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2008
【分類號】:TP332
【引證文獻(xiàn)】
相關(guān)博士學(xué)位論文 前1條
1 王耀彬;多核平臺上支持推測并行化的事務(wù)存儲體系結(jié)構(gòu)性能優(yōu)化[D];中國科學(xué)技術(shù)大學(xué);2010年
本文編號:2637616
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2637616.html
最近更新
教材專著