天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計(jì)算機(jī)論文 >

基于卷積神經(jīng)網(wǎng)絡(luò)的硬件加速器設(shè)計(jì)及實(shí)現(xiàn)研究

發(fā)布時(shí)間:2020-06-03 16:44
【摘要】:神經(jīng)網(wǎng)絡(luò)在機(jī)器學(xué)習(xí)和認(rèn)知科學(xué)領(lǐng)域是一種模仿生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能的數(shù)學(xué)或計(jì)算模型,用于對函數(shù)進(jìn)行估計(jì)或近似。至今已有若干種深度神經(jīng)網(wǎng)絡(luò),如卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),應(yīng)用在計(jì)算機(jī)視覺、自然語言處理、語音識別與生物信息學(xué)等領(lǐng)域并獲取了很好的效果,特別是卷積神經(jīng)網(wǎng)絡(luò)可以在目標(biāo)識別、檢測和場景理解等任務(wù)上達(dá)到前所未有的精度。從2012年提出的AlexNet(8層網(wǎng)絡(luò))到2015年提出的ResNet(多達(dá)152層網(wǎng)絡(luò)),神經(jīng)網(wǎng)絡(luò)的計(jì)算復(fù)雜度不斷提升,遠(yuǎn)高于傳統(tǒng)方法,對計(jì)算硬件帶來更高要求。針對當(dāng)前終端應(yīng)用場景下神經(jīng)網(wǎng)絡(luò)硬件計(jì)算存在的計(jì)算量大、帶寬要求高、能耗高等問題,為了進(jìn)一步提高深度神經(jīng)網(wǎng)絡(luò)的能效,提高吞吐量、降低功耗,本文從算法和結(jié)構(gòu)上對基于卷積神經(jīng)網(wǎng)絡(luò)的硬件加速器ASIC(專用集成電路)設(shè)計(jì)及實(shí)現(xiàn)進(jìn)行了深入的分析和研究。在提高性能的基礎(chǔ)上,通過優(yōu)化電路結(jié)構(gòu),控制電路的面積和功耗,達(dá)到提高總體的能效等指標(biāo)。本文的具體研究內(nèi)容分為以下幾個(gè)方面:(1)首先從神經(jīng)網(wǎng)絡(luò)的基本單元——神經(jīng)元入手,以PCNN(脈沖耦合神經(jīng)網(wǎng)絡(luò))作為數(shù)字化實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的案例,研究基于PCNN模型的神經(jīng)單元硬件建模,探索神經(jīng)網(wǎng)絡(luò)的構(gòu)成和機(jī)制。針對圖像處理嵌入式系統(tǒng)高性能和低功耗的需求,提出了一種基于兩級PCNN算法的圖像分割應(yīng)用的VLSI(超大規(guī)模集成電路)實(shí)現(xiàn)。該算法中第一階段是基于簡化的PCNN模型以獲得區(qū)域的種子,第二階段種子擴(kuò)張具有相似灰度級別的像素點(diǎn),實(shí)現(xiàn)區(qū)域的生長。在這個(gè)過程中,PCNN的參數(shù)可以自適應(yīng)調(diào)整,以克服參數(shù)設(shè)置的限制。在硬件實(shí)現(xiàn)中,兩級網(wǎng)絡(luò)以流水線的形式進(jìn)行劃分,運(yùn)用了乒乓存儲技術(shù),用寄存器陣列以緩沖實(shí)時(shí)圖像數(shù)據(jù)的傳輸。實(shí)驗(yàn)結(jié)果表明,處理速率可以達(dá)到每秒4.0×10~8次神經(jīng)元迭代的高吞吐量,比其他文獻(xiàn)提升了11%。(2)接下來以CNN算法作為切入點(diǎn),研究基于AlexNet卷積神經(jīng)網(wǎng)絡(luò)的硬件加速器ASIC設(shè)計(jì)。根據(jù)AlexNet的運(yùn)算特點(diǎn),設(shè)計(jì)了3×3卷積運(yùn)算單元、片上緩沖存儲結(jié)構(gòu),優(yōu)化的并行處理數(shù)據(jù)流,以及整體的粗粒度空間體系架構(gòu),通過減少從片外DRAM中訪問數(shù)據(jù),從而降低功耗,提高總體能效。這一架構(gòu)的16個(gè)3×3卷積運(yùn)算單元(PE)通過利用本地?cái)?shù)據(jù)重用,實(shí)現(xiàn)了500 MHz下峰值性能144 GOPS。對AlexNet的卷積層處理達(dá)到99.2幀/秒,在500 MHz、1.0 V下工作時(shí)功耗為264 mW。與同類文獻(xiàn)相比,本文工作實(shí)現(xiàn)了3倍的能量效率和3.5倍的面積效率。(3)在前面兩部分的基礎(chǔ)上,針對VGG、GoogLeNet、ResNet等其他主流的CNN神經(jīng)網(wǎng)絡(luò)模型的共性加以歸納,設(shè)計(jì)更為通用、應(yīng)用范圍更廣的硬件加速處理器ASIC電路。提出了一個(gè)具有24個(gè)3×3卷積運(yùn)算單元陣列的高性能粗粒度空間架構(gòu),通過數(shù)據(jù)寄存器組的數(shù)據(jù)流設(shè)計(jì)實(shí)現(xiàn)數(shù)值有規(guī)律的移動,傳遞到PE中進(jìn)行計(jì)算。針對不同運(yùn)算或不同大小卷積的情況,由指令發(fā)射單元控制各模塊協(xié)同工作,增強(qiáng)了靈活性和可配置性。此架構(gòu)的主要優(yōu)點(diǎn)是每個(gè)PE的內(nèi)部優(yōu)化了面積,PE的數(shù)量便于在進(jìn)行3×3、5×5、7×7卷積時(shí)提高計(jì)算效率,以及片上臨時(shí)存儲單元和數(shù)據(jù)流的設(shè)計(jì)減少了緩沖區(qū)中數(shù)據(jù)存儲的冗余。在650 MHz、1.0 V的條件下,達(dá)到峰值性能281 GOPS,功耗為859 mW。在以下CNN卷積層的吞吐量為:AlexNet上179 fps,GoogLeNet上76.6 fps,ResNet-34上36.7 fps。與同類文獻(xiàn)的AlexNet性能相比,本文提出的架構(gòu)實(shí)現(xiàn)了1.7倍的能效,1.7倍至4.5倍的面積效率以及16.4%至23.7%的計(jì)算效率提升。本文的研究及粗粒度運(yùn)算單元的硬件結(jié)構(gòu)對于提高卷積神經(jīng)網(wǎng)絡(luò)加速器的吞吐量和計(jì)算效率具有重要的指導(dǎo)意義。設(shè)計(jì)完成的幾種神經(jīng)網(wǎng)絡(luò)加速器硬件電路可以針對不同的應(yīng)用場景,達(dá)到實(shí)時(shí)處理的性能,具有重要的應(yīng)用價(jià)值和廣闊的應(yīng)用前景。
【圖文】:

基于卷積神經(jīng)網(wǎng)絡(luò)的硬件加速器設(shè)計(jì)及實(shí)現(xiàn)研究


圖...輸入特征

示意圖,卷積,并行運(yùn)算,特征圖


圖 2-7 卷積窗口內(nèi)并行運(yùn)算iagram of parallel computation with征圖的卷積窗口間并行征圖的不同位置的多個(gè)卷積窗得到的是同一輸出特征圖中不圖 2-8 卷積窗口間并行運(yùn)算Diagram of parallel computation acro征圖間并行征圖的單個(gè)卷積窗口與不同組個(gè)輸出特征圖中同一位置的結(jié)
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2018
【分類號】:TP332;TP183

【參考文獻(xiàn)】

相關(guān)期刊論文 前1條

1 嚴(yán)春滿;郭寶龍;馬義德;張旭;;一種新的基于雙層PCNN的自適應(yīng)圖像分割算法[J];光電子.激光;2011年07期

,

本文編號:2695106

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2695106.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d2fff***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com