基于超長指令字模板高精度算法加速器體系結構研究
發(fā)布時間:2018-10-22 10:48
【摘要】:科學計算已經(jīng)成為繼理論研究和物理實驗之后,現(xiàn)代科學研究的第三種手段,其計算結果的精度將直接影響科學研究的成果和成敗。隨著計算規(guī)模不斷擴大,科學計算中浮點運算的舍入誤差累積加劇,這導致計算結果不精確、不可靠、甚至不正確。高精度算術是保證大規(guī)模科學計算精度最直接、有效、可靠的方法,同時它具有提高算法可再現(xiàn)性、增強算法穩(wěn)定性、加快算法收斂速度等優(yōu)勢。然而,基于CPU或GPU的通用計算平臺,內部定制了確定寬度的數(shù)據(jù)通路和固定精度的運算單元,只能通過軟件模擬的方式實現(xiàn)多種高精度浮點算術,這導致計算性能和效率低。 近年來,F(xiàn)PGA器件以其可定制、可重構、高性能、低功耗的優(yōu)勢,成為理想的加速計算平臺。本文將FPGA可重構技術、超長指令字(VLIW)技術與高精度計算相結合,探索解決基于FPGA的高精度算法加速器設計面臨的關鍵問題,開發(fā)高精度應用中不同層次的并行性和最大化FPGA的性能和資源利用率。本文取得的主要研究成果如下: 1、提出一個適應高精度運算的處理器體系結構——定制VLIW模板。VLIW技術是挖掘算法并行性的一種理想方法,具有硬件結構簡單、性能高和擴展性好的特點。本文針對高精度運算的特征,在FPGA平臺上定制了一個VLIW模板結構,內部集成多個定制高精度基本運算單元,通過VLIW指令的顯式并行技術來開發(fā)高精度運算中的指令級并行;诖四0褰⒖膳渲玫亩郪LIW核的高精度算法加速器體系結構,開發(fā)高精度應用算法中線程級并行。最后,針對VLIW技術中的關鍵問題——代碼膨脹,提出一種適合FPGA平臺的多級索引VLIW指令壓縮技術,使用標志位和多存儲體方式解決傳統(tǒng)代碼壓縮技術中的VLIW指令長度不確定問題,最大限度避免空操作帶來指令空間浪費。在基于定制VLIW模板的四精度基本函數(shù)處理器和四精度算法加速器設計中,該壓縮策略的壓縮率分別為37.5%和24.5%。 2、提出基于全展開的精確四精度向量內積算法及實現(xiàn)結構。針對科學計算中最常見的、對數(shù)值算法穩(wěn)定性和結果精度影響較大的基本操作——向量內積,本文提出基于全展開的精確四精度向量內積算法和實現(xiàn)結構(Quad-HPMAC),采用無損失的定點操作獲得精確內積結果,采用累加和的兩級存儲結構、累加和劃分及進位保留累加等優(yōu)化策略來提高Quad-HPMAC單元的頻率和吞吐率。最后,基于Quad-HPMAC模塊建立統(tǒng)一四精度矩陣運算加速器,實現(xiàn)矩陣乘、LU分解和MGS-QR分解算法。實驗結果表明,相對于通用Intel多核平臺上并行軟件實現(xiàn),該加速器能夠取得5~8位的精度提升和40倍以上的性能提升。 3、提出基于VLIW模板的統(tǒng)一四精度基本函數(shù)計算模型及實現(xiàn)結構。針對科學計算中基本函數(shù)種類多、實現(xiàn)復雜、使用頻率低、計算延時大的特征,本文提出基于VLIW模板的統(tǒng)一四精度基本函數(shù)計算模型和實現(xiàn)結構(QP_VELP)。該結構具有性能高和擴展性好的優(yōu)勢,利用Estrin策略提高多項式計算的并行性,通過循環(huán)展開、流水線并行和VLIW指令顯式并行技術提高性能。與相關工作相比,統(tǒng)一基本函數(shù)處理器不僅在資源消耗、延時、精度等方面占優(yōu),而且該處理器能夠使用統(tǒng)一硬件資源實現(xiàn)多種基本函數(shù)的計算,在實際科學和工程應用中取得較高的資源利用率。 4、提出基于VLIW模板的四精度算法加速器結構。本文針對科學計算中不規(guī)則類計算密集型算法,,以空間目標軌道預測SGP4/SDP4算法為例,提出基于VLIW模板的四精度算法加速器結構。通過集成QP_VELP模塊實現(xiàn)多種使用頻率低的基本函數(shù),解決基本操作種類多的問題;通過定制VLIW指令的約束來滿足操作之間復雜的數(shù)據(jù)依賴關系;通過多個四精度操作單元的并行執(zhí)行來開發(fā)算法的指令級并行性;通過多個VLIW核的并行執(zhí)行來開發(fā)算法的線程級并行。同時,本文還提出基于貪婪思想的指令調度算法,結合存儲空間分配及沖突檢測,實現(xiàn)算法的數(shù)據(jù)流圖到定制VLIW指令槽的映射,最大限度地減少定制VLIW指令中的空操作。實驗結果表明,相對于Intel多核處理器,該四精度算法加速器能夠取得7.8~15倍的性能提升。 5、針對某些計算精度要求更高的特定科學應用領域,本文將四精度算法加速器中的相關概念、研究及實現(xiàn)方法擴展到任意精度浮點算術系統(tǒng)中。提出基于全展開的任意精度精確向量內積算法及實現(xiàn)結構(VPMAC)和基于VLIW模板的任意精度基本函數(shù)處理器(VP_VELP),其中VP_VELP內部集成多個任意精度基本操作單元,通過VLIW指令的顯式并行技術和動態(tài)改變內部計算精度的方法來提高性能,使用統(tǒng)一硬件資源實現(xiàn)多種任意精度基本操作和任意精度基本函數(shù)。最后,通過VPMAC協(xié)處理器和統(tǒng)一任意精度矩陣加速器(VPMATA)這兩種方式實現(xiàn)任意精度矩陣類算法。實驗結果表明:相對于Intel四核處理器上的并行MPFR函數(shù)庫,集成8個VPMAC模塊和1個VP_VELP模塊的VPMATA能夠獲得13~63倍的加速效果。
[Abstract]:......
【學位授予單位】:國防科學技術大學
【學位級別】:博士
【學位授予年份】:2012
【分類號】:TP332;TN791
本文編號:2286939
[Abstract]:......
【學位授予單位】:國防科學技術大學
【學位級別】:博士
【學位授予年份】:2012
【分類號】:TP332;TN791
【參考文獻】
相關期刊論文 前2條
1 周毓麟,袁國興;關于科學計算用數(shù)字電子計算機字長問題[J];計算機工程與科學;2005年10期
2 周毓麟;科學計算用數(shù)字電子計算機的若干問題[J];數(shù)學進展;1989年04期
相關博士學位論文 前1條
1 鄧宇;基于圖著色的存儲層次優(yōu)化技術研究[D];國防科學技術大學;2007年
本文編號:2286939
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2286939.html
最近更新
教材專著