天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機(jī)論文 >

用于實時目標(biāo)檢測的FPGA神經(jīng)網(wǎng)絡(luò)加速器設(shè)計

發(fā)布時間:2022-01-07 13:02
  在FPGA上實現(xiàn)YOLO等目標(biāo)檢測算法,需要從模型量化到硬件優(yōu)化等多種優(yōu)化方法.為了縮短硬件延時,使用了三種技術(shù):(1)利用層融合和位寬量化策略來降低計算復(fù)雜度;(2)利用具有padding跳過技術(shù)的基于列的流水線架構(gòu)來減少啟動時間;(3)利用設(shè)計空間探索算法來平衡流水線時間,提高DSP使用效率.為了驗證提出的神經(jīng)網(wǎng)絡(luò)加速器架構(gòu),在ZC706 FPGA上實現(xiàn)了具有1 280×384輸入的YOLO網(wǎng)絡(luò).與傳統(tǒng)加速器相比,取得了1.97倍的延遲縮減或者1.54倍的DSP效率提升. 

【文章來源】:微電子學(xué)與計算機(jī). 2020,37(07)北大核心

【文章頁數(shù)】:6 頁

【部分圖文】:

用于實時目標(biāo)檢測的FPGA神經(jīng)網(wǎng)絡(luò)加速器設(shè)計


基于列的流水線與傳統(tǒng)流水線的區(qū)別

順序圖,順序圖,卷積,權(quán)重


步驟1:每個周期,從輸入緩存中取出2個輸入,從權(quán)重緩存中取出2×2個權(quán)重.然后,將來自不同卷積核中相同位置的2個權(quán)重拼接在一起作為一個輸入傳送給封裝好的乘法器,同時與1個輸入相乘,得到2個中間結(jié)果.最后,來自不同DSP的相同位置的結(jié)果將被分別累加,生成2個累加的中間結(jié)果,CONV PE的整個執(zhí)行周期結(jié)束.步驟2:將步驟1循環(huán)八次,得到輸出特征圖上的2個最終結(jié)果.循環(huán)執(zhí)行的順序,先是通道方向,再是高度方向,最后是寬度方向.

流程圖,設(shè)計空間,硬件資源,算法


由于每層網(wǎng)絡(luò)的參數(shù)(如輸入特征圖和卷積的尺寸)各不相同,輸出每層卷積所需的計算量是不同的.因此,本文提出一種設(shè)計空間探索的算法,根據(jù)每層卷積的計算量來分配硬件資源,平衡每一層的流水線時間,提高硬件資源利用效率.如圖6所示,算法的輸入是網(wǎng)絡(luò)的參數(shù)和硬件資源約束,輸出是硬件資源分配的策略.首先,根據(jù)網(wǎng)絡(luò)各層的計算量來等比例分配DSP數(shù)量,并根據(jù)DSP數(shù)量來確定并行度參數(shù)Ci和Ki.然后,根據(jù)并行度參數(shù)確定BRAM和帶寬分配.如果BRAM和帶寬滿足硬件資源的約束,則直接輸出資源配置結(jié)果.否則,按一定比例減少整體DSP數(shù)量,重復(fù)上述過程,直到滿足所有硬件資源約束.

【參考文獻(xiàn)】:
期刊論文
[1]YOLO圖像檢測技術(shù)綜述[J]. 林健巍.  福建電腦. 2019(09)
[2]一種應(yīng)用于高分辨率遙感圖像目標(biāo)檢測的尺度自適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)[J]. 吳佳祥,劉輝,賀光輝.  微電子學(xué)與計算機(jī). 2018(08)



本文編號:3574595

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3574595.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6450a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com