天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 計算機論文 >

基于卷積神經(jīng)網(wǎng)絡的內(nèi)存優(yōu)化訪問與專用處理器優(yōu)化實現(xiàn)

發(fā)布時間:2020-05-06 16:20
【摘要】:深度卷積神經(jīng)網(wǎng)絡(CNNs)已經(jīng)被廣泛的應用在各個領域,由于其特殊的計算過程,使其具有局部感知和權(quán)值共享的機制,進而在處理圖像任務時具有優(yōu)異的性能。卷積神經(jīng)網(wǎng)絡在多智能應用上達到了極高的精度,比如圖像分類,目標識別,語義識別以及行為識別等。但是隨之而來的是計算量和功耗的大幅提升。卷積神經(jīng)網(wǎng)絡的計算量巨大是因為在一個維度比較高的卷積層中,其需要同時處理數(shù)以百計的濾波器和通道的數(shù)據(jù),這就會導致處理器和存儲器之間大量數(shù)據(jù)的移動。而一個性能優(yōu)異的卷積神經(jīng)網(wǎng)絡則是由成百上千層的卷積層疊加而成,其數(shù)據(jù)傳輸和計算的量極為巨大。雖然可以通過現(xiàn)有的技術(shù),比如CPU中使用的單指令多數(shù)據(jù)(SIMD)和GPU中的使用的單指令多線程(SIMT)技術(shù)來滿足卷積神經(jīng)網(wǎng)絡對計算量和吞吐量的需求。但是即使采用了這些并行化技術(shù),卷積神經(jīng)網(wǎng)絡的計算以及由于數(shù)據(jù)的傳輸所帶來的功耗依然很高,并沒有解決計算效率的問題。特別是針對IOT終端計算,要求具有低功耗、實時性、成本低、架構(gòu)優(yōu)、框架靈活等特點,顯然現(xiàn)有的CPU+GPU的通用計算框架具有高功耗高延時等缺點,所以并不能滿足IOT終端計算的需求。為了滿足以上這些需求,專用的神經(jīng)網(wǎng)絡芯片應運而生。本文為了解決通用計算框架的這些問題,設計出了一款針對神經(jīng)網(wǎng)絡的專用芯片(ASIC),采用了一種新的可重構(gòu)的計算框架,并針對這種計算框架提出了一種名為垂直數(shù)據(jù)流~([41])(Vertical Date Streaming)的新數(shù)據(jù)流方式,主要研究成果如下:1.針對卷積神經(jīng)網(wǎng)絡計算的特點,提出了一種名為粗粒度可重構(gòu)神經(jīng)形態(tài)陣列(Coarse-Grained Reconfigurable Neuron Array,CGRNA)計算框架。該計算框架以人工神經(jīng)處理單元為基本計算單元,通過與之相連的連續(xù)的移位寄存器組傳輸數(shù)據(jù),并采用分布式的片上SRAM。該計算框架能夠靈活實現(xiàn)各種結(jié)構(gòu)的神經(jīng)網(wǎng)絡,并支持卷積層,全連層,以及池化層等操作。實驗表明,該計算框架在很大程度上提高了神經(jīng)網(wǎng)絡的計算效率,特別是針對具有極高維度的卷積層,相比通用的計算框架,計算效率上會有極大的提升。2.針對粗粒度可重構(gòu)神經(jīng)形態(tài)陣列這種計算框架,提出一種垂直數(shù)據(jù)流的方式。該方法采用通過改變神經(jīng)網(wǎng)絡特征圖的數(shù)據(jù)在內(nèi)存中存儲的方式,以及以垂直讀取的存儲方式,提高了特征數(shù)據(jù)以及權(quán)重數(shù)據(jù)的復用率,從而大大提高卷積神經(jīng)網(wǎng)絡的計算效率,降低了功耗,也降低了芯片內(nèi)部邏輯控制的復雜度。實驗結(jié)果表明,本數(shù)據(jù)流方式降低了卷積神經(jīng)網(wǎng)絡計算功耗以及計算延時,以及芯片的面積,最終降低了芯片成本。3.針對粗粒度可重構(gòu)神經(jīng)形態(tài)陣列這種計算框架以及垂直數(shù)據(jù)流的方式,提出了與之相應的專用指令集,使用該指令集可以實現(xiàn)任意由卷積層,全連層,池化層組成的神經(jīng)網(wǎng)絡。并能通過控制計算過程中的數(shù)據(jù)位寬,激活函數(shù)等參數(shù),從而實現(xiàn)靈活可配置的特點。
【圖文】:

結(jié)構(gòu)圖,版圖,物理,芯片


圖 3-7 芯片物理版圖GA 仿真實驗在 Keras 框架下用 MNIST 手寫數(shù)字數(shù)據(jù)集,訓練了一個 5 層網(wǎng)絡的框架的具體參數(shù)如圖 3-8 所示。如圖 3-8 所示,是訓練的結(jié)構(gòu),其結(jié)構(gòu)主要由 2 層卷積核 2 層池化層組成以及一層數(shù) 2.4k,利用 MNIST 數(shù)據(jù)集訓練該網(wǎng)絡最后到達 97.96%的識8X128X28X414X14X4 14X14X4 7X7X4conv5X5S=1Maxpooling2x2S=2conv5X5S=1Maxpooling2x2S=2圖 3-8 卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)圖卷積網(wǎng)絡部署到 Opal Kelly 公司 XEM67350 的 FPGA 開發(fā)板

功耗,資源消耗,實驗板,神經(jīng)網(wǎng)絡


圖 3-9 XEM67350FPGA 實驗板好的 5 層神經(jīng)網(wǎng)絡部署到 FPGA 板上,,得到其功GA 仿真總功耗為 371mw,其中時鐘(Clock)的功的功耗為 18mw,嵌入式 ram 塊(BRAM)功耗為分功耗最高達到 213mw,可編程 IO 和漏電功耗且 FPGA 板子計算得到的識別精度為 96.95%,基表 3-9 FPGA 資源消耗圖hip Power(W) Useds 0.018 3 0.018 15104ls 0.010 18802Ms 0.025 * 0.00 22Ms 0.213 2
【學位授予單位】:桂林電子科技大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP183;TP332

【參考文獻】

相關(guān)期刊論文 前1條

1 唐云江;;摩爾定律意味著什么?[J];科學世界;2003年02期



本文編號:2651537

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2651537.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶467b3***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com