基于超長指令字模板高精度算法加速器體系結構研究

發(fā)布時間：2018-10-22 10:48

【摘要】：科學計算已經(jīng)成為繼理論研究和物理實驗之后，現(xiàn)代科學研究的第三種手段，其計算結果的精度將直接影響科學研究的成果和成敗。隨著計算規(guī)模不斷擴大，科學計算中浮點運算的舍入誤差累積加劇，這導致計算結果不精確、不可靠、甚至不正確。高精度算術是保證大規(guī)模科學計算精度最直接、有效、可靠的方法，同時它具有提高算法可再現(xiàn)性、增強算法穩(wěn)定性、加快算法收斂速度等優(yōu)勢。然而，基于CPU或GPU的通用計算平臺，內部定制了確定寬度的數(shù)據(jù)通路和固定精度的運算單元，只能通過軟件模擬的方式實現(xiàn)多種高精度浮點算術，這導致計算性能和效率低。近年來，F(xiàn)PGA器件以其可定制、可重構、高性能、低功耗的優(yōu)勢，成為理想的加速計算平臺。本文將FPGA可重構技術、超長指令字（VLIW）技術與高精度計算相結合，探索解決基于FPGA的高精度算法加速器設計面臨的關鍵問題，開發(fā)高精度應用中不同層次的并行性和最大化FPGA的性能和資源利用率。本文取得的主要研究成果如下： 1、提出一個適應高精度運算的處理器體系結構——定制VLIW模板。VLIW技術是挖掘算法并行性的一種理想方法，具有硬件結構簡單、性能高和擴展性好的特點。本文針對高精度運算的特征，在FPGA平臺上定制了一個VLIW模板結構，內部集成多個定制高精度基本運算單元，通過VLIW指令的顯式并行技術來開發(fā)高精度運算中的指令級并行�；诖四０褰⒖膳渲玫亩郪LIW核的高精度算法加速器體系結構，開發(fā)高精度應用算法中線程級并行。最后，針對VLIW技術中的關鍵問題——代碼膨脹，提出一種適合FPGA平臺的多級索引VLIW指令壓縮技術，使用標志位和多存儲體方式解決傳統(tǒng)代碼壓縮技術中的VLIW指令長度不確定問題，最大限度避免空操作帶來指令空間浪費。在基于定制VLIW模板的四精度基本函數(shù)處理器和四精度算法加速器設計中，該壓縮策略的壓縮率分別為37.5%和24.5%。 2、提出基于全展開的精確四精度向量內積算法及實現(xiàn)結構。針對科學計算中最常見的、對數(shù)值算法穩(wěn)定性和結果精度影響較大的基本操作——向量內積，本文提出基于全展開的精確四精度向量內積算法和實現(xiàn)結構（Quad-HPMAC），采用無損失的定點操作獲得精確內積結果，采用累加和的兩級存儲結構、累加和劃分及進位保留累加等優(yōu)化策略來提高Quad-HPMAC單元的頻率和吞吐率。最后，基于Quad-HPMAC模塊建立統(tǒng)一四精度矩陣運算加速器，實現(xiàn)矩陣乘、LU分解和MGS-QR分解算法。實驗結果表明，相對于通用Intel多核平臺上并行軟件實現(xiàn)，該加速器能夠取得5~8位的精度提升和40倍以上的性能提升。 3、提出基于VLIW模板的統(tǒng)一四精度基本函數(shù)計算模型及實現(xiàn)結構。針對科學計算中基本函數(shù)種類多、實現(xiàn)復雜、使用頻率低、計算延時大的特征，本文提出基于VLIW模板的統(tǒng)一四精度基本函數(shù)計算模型和實現(xiàn)結構（QP_VELP）。該結構具有性能高和擴展性好的優(yōu)勢，利用Estrin策略提高多項式計算的并行性，通過循環(huán)展開、流水線并行和VLIW指令顯式并行技術提高性能。與相關工作相比，統(tǒng)一基本函數(shù)處理器不僅在資源消耗、延時、精度等方面占優(yōu)，而且該處理器能夠使用統(tǒng)一硬件資源實現(xiàn)多種基本函數(shù)的計算，在實際科學和工程應用中取得較高的資源利用率。 4、提出基于VLIW模板的四精度算法加速器結構。本文針對科學計算中不規(guī)則類計算密集型算法，，以空間目標軌道預測SGP4/SDP4算法為例，提出基于VLIW模板的四精度算法加速器結構。通過集成QP_VELP模塊實現(xiàn)多種使用頻率低的基本函數(shù)，解決基本操作種類多的問題；通過定制VLIW指令的約束來滿足操作之間復雜的數(shù)據(jù)依賴關系；通過多個四精度操作單元的并行執(zhí)行來開發(fā)算法的指令級并行性；通過多個VLIW核的并行執(zhí)行來開發(fā)算法的線程級并行。同時，本文還提出基于貪婪思想的指令調度算法，結合存儲空間分配及沖突檢測，實現(xiàn)算法的數(shù)據(jù)流圖到定制VLIW指令槽的映射，最大限度地減少定制VLIW指令中的空操作。實驗結果表明，相對于Intel多核處理器，該四精度算法加速器能夠取得7.8~15倍的性能提升。 5、針對某些計算精度要求更高的特定科學應用領域，本文將四精度算法加速器中的相關概念、研究及實現(xiàn)方法擴展到任意精度浮點算術系統(tǒng)中。提出基于全展開的任意精度精確向量內積算法及實現(xiàn)結構（VPMAC）和基于VLIW模板的任意精度基本函數(shù)處理器（VP_VELP），其中VP_VELP內部集成多個任意精度基本操作單元，通過VLIW指令的顯式并行技術和動態(tài)改變內部計算精度的方法來提高性能，使用統(tǒng)一硬件資源實現(xiàn)多種任意精度基本操作和任意精度基本函數(shù)。最后，通過VPMAC協(xié)處理器和統(tǒng)一任意精度矩陣加速器（VPMATA）這兩種方式實現(xiàn)任意精度矩陣類算法。實驗結果表明：相對于Intel四核處理器上的并行MPFR函數(shù)庫，集成8個VPMAC模塊和1個VP_VELP模塊的VPMATA能夠獲得13~63倍的加速效果。
[Abstract]:......
【學位授予單位】：國防科學技術大學
【學位級別】：博士
【學位授予年份】：2012
【分類號】：TP332;TN791

【參考文獻】

相關期刊論文前2條

1 周毓麟,袁國興;關于科學計算用數(shù)字電子計算機字長問題[J];計算機工程與科學;2005年10期

2 周毓麟;科學計算用數(shù)字電子計算機的若干問題[J];數(shù)學進展;1989年04期

相關博士學位論文前1條

1 鄧宇;基于圖著色的存儲層次優(yōu)化技術研究[D];國防科學技術大學;2007年

本文編號：2286939

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2286939.html

上一篇：基于嵌入式WINCE的數(shù)字示波器設計
下一篇：中國移動云計算架構分析

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于超長指令字模板高精度算法加速器體系結構研究