動態(tài)VLIW體系結(jié)構(gòu)關(guān)鍵技術(shù)研究與實現(xiàn)
發(fā)布時間:2020-10-14 14:40
人們對微處理器性能的追求永無止盡。目前工藝技術(shù)的飛速發(fā)展,為設(shè)計提供了廣闊的空間,如何有效利用這上億個晶體管,開發(fā)更快、更高效的微處理器,是當前計算機體系結(jié)構(gòu)設(shè)計研究面臨的極為重要的課題之一。 獲得高度的并行性,仍然是開發(fā)高性能計算機系統(tǒng)的基本途徑,而可以獲得的并行效率,也越來越與程序的內(nèi)在特性相關(guān)聯(lián)。根據(jù)不同應用的特點,程序中的并行可以分為不同的級別。指令級并行(Instruction Level Parallelism,ILP)作為其中粒度最小的并行,是不同級別并行實現(xiàn)的基礎(chǔ)。ILP可以通過軟件或硬件技術(shù)開發(fā),面向ILP開發(fā)的體系結(jié)構(gòu)只有合理劃分軟硬件在ILP開發(fā)過程中承擔的工作,并且軟、硬件緊密配合,才能取得理想的性能和復雜度。動態(tài)VLIW(Very Long Instruction Word,超長指令字)結(jié)構(gòu)兼具軟硬件ILP開發(fā)技術(shù)的優(yōu)點,是具有良好性能潛力和發(fā)展前景的計算機體系結(jié)構(gòu)技術(shù)方向之一。 本文在深入分析開發(fā)ILP的軟硬件技術(shù)優(yōu)缺點的基礎(chǔ)上,以降低硬件設(shè)計的復雜度為目標,劃分了它們在動態(tài)VLIW結(jié)構(gòu)中承擔的ILP開發(fā)工作,明確了需要解決的關(guān)鍵技術(shù)。本文針對這些關(guān)鍵技術(shù)展開了深入研究,主要取得了以下一些研究成果: 1.提出了一種VLIW動態(tài)指令調(diào)度模型DLV(Deterministic Latency Schedule for VLIW)。DLV模型以硬件機制了解每條指令的準確延遲這一事實為依據(jù)動態(tài)調(diào)度指令流出,使用再定序緩沖實現(xiàn)精確異常處理,并保證亂序執(zhí)行和前瞻執(zhí)行的正確。DLV模型能夠大大降低指令流出機制的硬件復雜度,并有效解決VLIW結(jié)構(gòu)的目標代碼兼容問題。 2.高質(zhì)量的訪存優(yōu)化技術(shù)能夠緩解日益嚴重的處理器/存儲器性能差距,提高微處理器系統(tǒng)的性能。本文分別研究了指令訪問和數(shù)據(jù)訪問技術(shù),提出了基于控制流的混合指令預取方法,并探討了在動態(tài)VLIW結(jié)構(gòu)中實現(xiàn)Load前瞻所需的體系結(jié)構(gòu)和編譯支持。 3.謂詞的引入給傳統(tǒng)編譯優(yōu)化技術(shù)帶來了新的問題,如果不能準確分析謂詞關(guān)系,編譯優(yōu)化只能獲得保守的結(jié)果。本文提出了一個基于路徑信息的謂詞分析技術(shù),能夠避免現(xiàn)有技術(shù)中重構(gòu)控制流信息這一復雜過程,高效精確地分析謂詞之間的關(guān)系。 4.擴大基本塊體積是編譯技術(shù)開發(fā)更多ILP的必由之路,但是其實現(xiàn)復雜度也非常高。在謂詞執(zhí)行體系結(jié)構(gòu)的支持下,本文將HyperBlock結(jié)構(gòu)從單入口擴展為多入口,并提出了相應的優(yōu)化技術(shù)。 國防科學技術(shù)大學研究生院學位論文 5.計算機體系結(jié)構(gòu)的新理論、新方法的正確性和有效性驗證,是體系結(jié)構(gòu) 技術(shù)的重要組成部分。本文以MIPS R2O00為基礎(chǔ),設(shè)計了一個原型驗證系統(tǒng), 以檢驗上述技術(shù)的正確性和有效性。該系統(tǒng)實現(xiàn)了DLV模型以及其它編譯技術(shù) 所需的體系結(jié)構(gòu)支持。 以上研究成果都以降低硬件設(shè)計的復雜度為前提,充分發(fā)揮各種技術(shù)自身的 長處,并互相彌補其它技術(shù)的不足。實際測試結(jié)果表明,以上基于動態(tài)VLIW結(jié) 構(gòu)的研究成果,能夠在保持較低硬件復雜度的基礎(chǔ)上,開發(fā)并獲得更多的ILP, 提高處理器的并行性。 關(guān)鍵詞:動態(tài)VLIW體系結(jié)構(gòu),動態(tài)調(diào)度,指令預取,Load前瞻,謂詞執(zhí)行, 擴展超塊 第11頁
【學位單位】:國防科學技術(shù)大學
【學位級別】:博士
【學位年份】:2003
【中圖分類】:TP332
【部分圖文】:
圖3.4OLV模型性能測試結(jié)果從圖中的數(shù)據(jù)可以得到以下結(jié)論:亂序執(zhí)行模型的性能最好,DL模型的性能隨DIQ項數(shù)的增加而增加,當IQ項數(shù)為64時性能最好。由于大多數(shù)Load操作訪問Cache都會命中,DL6中與Load相關(guān)的操作都必須等待足夠的時間后才能夠流出,因此其性能受DIQ項數(shù)的影響較少,而DLI性能受其影響較大。當DIQ項數(shù)大于犯項時,DLI的性能與亂序執(zhí)行相同,但實現(xiàn)復雜度卻明顯降低。實際上,如果從DL模型中去掉IQ模塊,DLI模型就是亂序執(zhí)行模型。當DIQ項數(shù)比較小(<6)時,DL6的性能好于DLI,隨著DIQ項數(shù)的增加DLI的性能逐漸超過DL6。這是因為,當Load操作延遲為1時,如果DIQ容量比較小,將無法容納那些相關(guān)于Load但因Load訪問Cache失效而無法流出的操作,從而阻礙了其它與Load無關(guān)的操作流出執(zhí)行。但隨著DIQ容量的增加,與Load相關(guān)的操作都能放入DIQ中,那些無關(guān)操作也能夠順利地流出,DLI的性能也因此得到提高。而對于DL6模型,畢竟延遲為6的Load操作很少,所以DIQ
所帶來的性能提升。由于評測的重點在于HyperBlock與EHB這兩種結(jié)構(gòu)開發(fā)ILP的作用,模擬過程中我們約定:數(shù)據(jù)Cache與指令Cache的訪問命中率均為100%。圖6.8比較了EHB結(jié)構(gòu)在最大路徑數(shù)分別為16、32、64以及沒有任何限制的情況下的性能,BB表示采用傳統(tǒng)的基本塊優(yōu)化時的加速比(下同)o從圖中可以看出,如果不加選擇的構(gòu)造EHB,最終的性能反而會有所降低。這個結(jié)論與Mahlke對HyPerBlock進行研究所得的結(jié)果相似,說明只有對構(gòu)造EHB的基本塊進行一定的控制才能取得比較理想的性能。圖6.8最大路徑數(shù)不同時E日B的性能圖6.9t匕較了HyperBloek和EHB這兩種結(jié)構(gòu)的性能,圖中HB表示HyperBlock結(jié)構(gòu),而EHB表示EHB結(jié)構(gòu),其最大路徑數(shù)為犯。盡管對于個別程序而言HyperBlock的性能稍好
圖6.gEHB與HyPerBloek性能比較6.10列出了第3章所介紹的四個模型DLI、DL6、亂序執(zhí)行、DLV~EHB,測試所用的基準程序以及模擬環(huán)境的具體參數(shù)與第3章相同,其中HB表示經(jīng)過EHB轉(zhuǎn)換并經(jīng)過相應優(yōu)化后的代碼在DLV模型中的性能。出,經(jīng)過EHB優(yōu)化后,DLV模型的性能進一步提升,已經(jīng)超過了亂序執(zhí)能,這是因為EHB優(yōu)化能夠根據(jù)DLV模型的特點改善代碼結(jié)構(gòu),并且消部分控制相關(guān),而在第3章的DLV模型采用了“向后轉(zhuǎn)移成功,向前轉(zhuǎn)”的預測方式,預測錯誤的概率比較大。
【引證文獻】
本文編號:2840800
【學位單位】:國防科學技術(shù)大學
【學位級別】:博士
【學位年份】:2003
【中圖分類】:TP332
【部分圖文】:
圖3.4OLV模型性能測試結(jié)果從圖中的數(shù)據(jù)可以得到以下結(jié)論:亂序執(zhí)行模型的性能最好,DL模型的性能隨DIQ項數(shù)的增加而增加,當IQ項數(shù)為64時性能最好。由于大多數(shù)Load操作訪問Cache都會命中,DL6中與Load相關(guān)的操作都必須等待足夠的時間后才能夠流出,因此其性能受DIQ項數(shù)的影響較少,而DLI性能受其影響較大。當DIQ項數(shù)大于犯項時,DLI的性能與亂序執(zhí)行相同,但實現(xiàn)復雜度卻明顯降低。實際上,如果從DL模型中去掉IQ模塊,DLI模型就是亂序執(zhí)行模型。當DIQ項數(shù)比較小(<6)時,DL6的性能好于DLI,隨著DIQ項數(shù)的增加DLI的性能逐漸超過DL6。這是因為,當Load操作延遲為1時,如果DIQ容量比較小,將無法容納那些相關(guān)于Load但因Load訪問Cache失效而無法流出的操作,從而阻礙了其它與Load無關(guān)的操作流出執(zhí)行。但隨著DIQ容量的增加,與Load相關(guān)的操作都能放入DIQ中,那些無關(guān)操作也能夠順利地流出,DLI的性能也因此得到提高。而對于DL6模型,畢竟延遲為6的Load操作很少,所以DIQ
所帶來的性能提升。由于評測的重點在于HyperBlock與EHB這兩種結(jié)構(gòu)開發(fā)ILP的作用,模擬過程中我們約定:數(shù)據(jù)Cache與指令Cache的訪問命中率均為100%。圖6.8比較了EHB結(jié)構(gòu)在最大路徑數(shù)分別為16、32、64以及沒有任何限制的情況下的性能,BB表示采用傳統(tǒng)的基本塊優(yōu)化時的加速比(下同)o從圖中可以看出,如果不加選擇的構(gòu)造EHB,最終的性能反而會有所降低。這個結(jié)論與Mahlke對HyPerBlock進行研究所得的結(jié)果相似,說明只有對構(gòu)造EHB的基本塊進行一定的控制才能取得比較理想的性能。圖6.8最大路徑數(shù)不同時E日B的性能圖6.9t匕較了HyperBloek和EHB這兩種結(jié)構(gòu)的性能,圖中HB表示HyperBlock結(jié)構(gòu),而EHB表示EHB結(jié)構(gòu),其最大路徑數(shù)為犯。盡管對于個別程序而言HyperBlock的性能稍好
圖6.gEHB與HyPerBloek性能比較6.10列出了第3章所介紹的四個模型DLI、DL6、亂序執(zhí)行、DLV~EHB,測試所用的基準程序以及模擬環(huán)境的具體參數(shù)與第3章相同,其中HB表示經(jīng)過EHB轉(zhuǎn)換并經(jīng)過相應優(yōu)化后的代碼在DLV模型中的性能。出,經(jīng)過EHB優(yōu)化后,DLV模型的性能進一步提升,已經(jīng)超過了亂序執(zhí)能,這是因為EHB優(yōu)化能夠根據(jù)DLV模型的特點改善代碼結(jié)構(gòu),并且消部分控制相關(guān),而在第3章的DLV模型采用了“向后轉(zhuǎn)移成功,向前轉(zhuǎn)”的預測方式,預測錯誤的概率比較大。
【引證文獻】
相關(guān)期刊論文 前2條
1 李云照;王志英;沈立;;一種動態(tài)VLIW調(diào)度機制的研究和實現(xiàn)[J];計算機工程與科學;2008年07期
2 王磊;;Tomasulo算法與記分牌調(diào)度算法研究[J];自動化技術(shù)與應用;2013年06期
相關(guān)博士學位論文 前3條
1 歐國東;基于線程的數(shù)據(jù)預取技術(shù)研究[D];國防科學技術(shù)大學;2011年
2 文梅;流體系結(jié)構(gòu)關(guān)鍵技術(shù)研究[D];國防科學技術(shù)大學;2006年
3 萬江華;基于超長指令字處理器的同時多線程關(guān)鍵技術(shù)研究[D];國防科學技術(shù)大學;2006年
相關(guān)碩士學位論文 前2條
1 郭松;面向空間目標軌道預測的定制處理器及其編譯器的關(guān)鍵技術(shù)研究[D];國防科學技術(shù)大學;2010年
2 孟濤;分組密碼ASIP關(guān)鍵技術(shù)研究及實現(xiàn)[D];解放軍信息工程大學;2008年
本文編號:2840800
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2840800.html
最近更新
教材專著