天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計(jì)算機(jī)論文 >

用于實(shí)時(shí)目標(biāo)檢測的FPGA神經(jīng)網(wǎng)絡(luò)加速器設(shè)計(jì)

發(fā)布時(shí)間:2022-01-07 13:02
  在FPGA上實(shí)現(xiàn)YOLO等目標(biāo)檢測算法,需要從模型量化到硬件優(yōu)化等多種優(yōu)化方法.為了縮短硬件延時(shí),使用了三種技術(shù):(1)利用層融合和位寬量化策略來降低計(jì)算復(fù)雜度;(2)利用具有padding跳過技術(shù)的基于列的流水線架構(gòu)來減少啟動(dòng)時(shí)間;(3)利用設(shè)計(jì)空間探索算法來平衡流水線時(shí)間,提高DSP使用效率.為了驗(yàn)證提出的神經(jīng)網(wǎng)絡(luò)加速器架構(gòu),在ZC706 FPGA上實(shí)現(xiàn)了具有1 280×384輸入的YOLO網(wǎng)絡(luò).與傳統(tǒng)加速器相比,取得了1.97倍的延遲縮減或者1.54倍的DSP效率提升. 

【文章來源】:微電子學(xué)與計(jì)算機(jī). 2020,37(07)北大核心

【文章頁數(shù)】:6 頁

【部分圖文】:

用于實(shí)時(shí)目標(biāo)檢測的FPGA神經(jīng)網(wǎng)絡(luò)加速器設(shè)計(jì)


基于列的流水線與傳統(tǒng)流水線的區(qū)別

順序圖,順序圖,卷積,權(quán)重


步驟1:每個(gè)周期,從輸入緩存中取出2個(gè)輸入,從權(quán)重緩存中取出2×2個(gè)權(quán)重.然后,將來自不同卷積核中相同位置的2個(gè)權(quán)重拼接在一起作為一個(gè)輸入傳送給封裝好的乘法器,同時(shí)與1個(gè)輸入相乘,得到2個(gè)中間結(jié)果.最后,來自不同DSP的相同位置的結(jié)果將被分別累加,生成2個(gè)累加的中間結(jié)果,CONV PE的整個(gè)執(zhí)行周期結(jié)束.步驟2:將步驟1循環(huán)八次,得到輸出特征圖上的2個(gè)最終結(jié)果.循環(huán)執(zhí)行的順序,先是通道方向,再是高度方向,最后是寬度方向.

流程圖,設(shè)計(jì)空間,硬件資源,算法


由于每層網(wǎng)絡(luò)的參數(shù)(如輸入特征圖和卷積的尺寸)各不相同,輸出每層卷積所需的計(jì)算量是不同的.因此,本文提出一種設(shè)計(jì)空間探索的算法,根據(jù)每層卷積的計(jì)算量來分配硬件資源,平衡每一層的流水線時(shí)間,提高硬件資源利用效率.如圖6所示,算法的輸入是網(wǎng)絡(luò)的參數(shù)和硬件資源約束,輸出是硬件資源分配的策略.首先,根據(jù)網(wǎng)絡(luò)各層的計(jì)算量來等比例分配DSP數(shù)量,并根據(jù)DSP數(shù)量來確定并行度參數(shù)Ci和Ki.然后,根據(jù)并行度參數(shù)確定BRAM和帶寬分配.如果BRAM和帶寬滿足硬件資源的約束,則直接輸出資源配置結(jié)果.否則,按一定比例減少整體DSP數(shù)量,重復(fù)上述過程,直到滿足所有硬件資源約束.

【參考文獻(xiàn)】:
期刊論文
[1]YOLO圖像檢測技術(shù)綜述[J]. 林健巍.  福建電腦. 2019(09)
[2]一種應(yīng)用于高分辨率遙感圖像目標(biāo)檢測的尺度自適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)[J]. 吳佳祥,劉輝,賀光輝.  微電子學(xué)與計(jì)算機(jī). 2018(08)



本文編號:3574595

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3574595.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6450a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com