基于卷積神經(jīng)網(wǎng)絡的硬件加速器設計及實現(xiàn)研究
發(fā)布時間:2020-06-03 16:44
【摘要】:神經(jīng)網(wǎng)絡在機器學習和認知科學領域是一種模仿生物神經(jīng)網(wǎng)絡的結(jié)構(gòu)和功能的數(shù)學或計算模型,用于對函數(shù)進行估計或近似。至今已有若干種深度神經(jīng)網(wǎng)絡,如卷積神經(jīng)網(wǎng)絡(CNN)、循環(huán)神經(jīng)網(wǎng)絡(RNN),應用在計算機視覺、自然語言處理、語音識別與生物信息學等領域并獲取了很好的效果,特別是卷積神經(jīng)網(wǎng)絡可以在目標識別、檢測和場景理解等任務上達到前所未有的精度。從2012年提出的AlexNet(8層網(wǎng)絡)到2015年提出的ResNet(多達152層網(wǎng)絡),神經(jīng)網(wǎng)絡的計算復雜度不斷提升,遠高于傳統(tǒng)方法,對計算硬件帶來更高要求。針對當前終端應用場景下神經(jīng)網(wǎng)絡硬件計算存在的計算量大、帶寬要求高、能耗高等問題,為了進一步提高深度神經(jīng)網(wǎng)絡的能效,提高吞吐量、降低功耗,本文從算法和結(jié)構(gòu)上對基于卷積神經(jīng)網(wǎng)絡的硬件加速器ASIC(專用集成電路)設計及實現(xiàn)進行了深入的分析和研究。在提高性能的基礎上,通過優(yōu)化電路結(jié)構(gòu),控制電路的面積和功耗,達到提高總體的能效等指標。本文的具體研究內(nèi)容分為以下幾個方面:(1)首先從神經(jīng)網(wǎng)絡的基本單元——神經(jīng)元入手,以PCNN(脈沖耦合神經(jīng)網(wǎng)絡)作為數(shù)字化實現(xiàn)神經(jīng)網(wǎng)絡的案例,研究基于PCNN模型的神經(jīng)單元硬件建模,探索神經(jīng)網(wǎng)絡的構(gòu)成和機制。針對圖像處理嵌入式系統(tǒng)高性能和低功耗的需求,提出了一種基于兩級PCNN算法的圖像分割應用的VLSI(超大規(guī)模集成電路)實現(xiàn)。該算法中第一階段是基于簡化的PCNN模型以獲得區(qū)域的種子,第二階段種子擴張具有相似灰度級別的像素點,實現(xiàn)區(qū)域的生長。在這個過程中,PCNN的參數(shù)可以自適應調(diào)整,以克服參數(shù)設置的限制。在硬件實現(xiàn)中,兩級網(wǎng)絡以流水線的形式進行劃分,運用了乒乓存儲技術(shù),用寄存器陣列以緩沖實時圖像數(shù)據(jù)的傳輸。實驗結(jié)果表明,處理速率可以達到每秒4.0×10~8次神經(jīng)元迭代的高吞吐量,比其他文獻提升了11%。(2)接下來以CNN算法作為切入點,研究基于AlexNet卷積神經(jīng)網(wǎng)絡的硬件加速器ASIC設計。根據(jù)AlexNet的運算特點,設計了3×3卷積運算單元、片上緩沖存儲結(jié)構(gòu),優(yōu)化的并行處理數(shù)據(jù)流,以及整體的粗粒度空間體系架構(gòu),通過減少從片外DRAM中訪問數(shù)據(jù),從而降低功耗,提高總體能效。這一架構(gòu)的16個3×3卷積運算單元(PE)通過利用本地數(shù)據(jù)重用,實現(xiàn)了500 MHz下峰值性能144 GOPS。對AlexNet的卷積層處理達到99.2幀/秒,在500 MHz、1.0 V下工作時功耗為264 mW。與同類文獻相比,本文工作實現(xiàn)了3倍的能量效率和3.5倍的面積效率。(3)在前面兩部分的基礎上,針對VGG、GoogLeNet、ResNet等其他主流的CNN神經(jīng)網(wǎng)絡模型的共性加以歸納,設計更為通用、應用范圍更廣的硬件加速處理器ASIC電路。提出了一個具有24個3×3卷積運算單元陣列的高性能粗粒度空間架構(gòu),通過數(shù)據(jù)寄存器組的數(shù)據(jù)流設計實現(xiàn)數(shù)值有規(guī)律的移動,傳遞到PE中進行計算。針對不同運算或不同大小卷積的情況,由指令發(fā)射單元控制各模塊協(xié)同工作,增強了靈活性和可配置性。此架構(gòu)的主要優(yōu)點是每個PE的內(nèi)部優(yōu)化了面積,PE的數(shù)量便于在進行3×3、5×5、7×7卷積時提高計算效率,以及片上臨時存儲單元和數(shù)據(jù)流的設計減少了緩沖區(qū)中數(shù)據(jù)存儲的冗余。在650 MHz、1.0 V的條件下,達到峰值性能281 GOPS,功耗為859 mW。在以下CNN卷積層的吞吐量為:AlexNet上179 fps,GoogLeNet上76.6 fps,ResNet-34上36.7 fps。與同類文獻的AlexNet性能相比,本文提出的架構(gòu)實現(xiàn)了1.7倍的能效,1.7倍至4.5倍的面積效率以及16.4%至23.7%的計算效率提升。本文的研究及粗粒度運算單元的硬件結(jié)構(gòu)對于提高卷積神經(jīng)網(wǎng)絡加速器的吞吐量和計算效率具有重要的指導意義。設計完成的幾種神經(jīng)網(wǎng)絡加速器硬件電路可以針對不同的應用場景,達到實時處理的性能,具有重要的應用價值和廣闊的應用前景。
【圖文】:
圖...輸入特征
圖 2-7 卷積窗口內(nèi)并行運算iagram of parallel computation with征圖的卷積窗口間并行征圖的不同位置的多個卷積窗得到的是同一輸出特征圖中不圖 2-8 卷積窗口間并行運算Diagram of parallel computation acro征圖間并行征圖的單個卷積窗口與不同組個輸出特征圖中同一位置的結(jié)
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:博士
【學位授予年份】:2018
【分類號】:TP332;TP183
本文編號:2695106
【圖文】:
圖...輸入特征
圖 2-7 卷積窗口內(nèi)并行運算iagram of parallel computation with征圖的卷積窗口間并行征圖的不同位置的多個卷積窗得到的是同一輸出特征圖中不圖 2-8 卷積窗口間并行運算Diagram of parallel computation acro征圖間并行征圖的單個卷積窗口與不同組個輸出特征圖中同一位置的結(jié)
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:博士
【學位授予年份】:2018
【分類號】:TP332;TP183
【參考文獻】
相關(guān)期刊論文 前1條
1 嚴春滿;郭寶龍;馬義德;張旭;;一種新的基于雙層PCNN的自適應圖像分割算法[J];光電子.激光;2011年07期
,本文編號:2695106
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2695106.html
最近更新
教材專著