深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)VLIW加速器設(shè)計與實現(xiàn)
本文選題:卷積神經(jīng)網(wǎng)絡(luò) + 并行計算 ; 參考:《蘇州大學(xué)》2016年碩士論文
【摘要】:近年來,卷積神經(jīng)網(wǎng)絡(luò)(CNN)算法及其在視覺感知領(lǐng)域的應(yīng)用很大程度上改變了傳統(tǒng)的機器視覺框架。但因為CNN算法大量的計算工作負載使其很難在高實時性,嵌入式場合得以廣泛應(yīng)用。最近,有一些國際著名的學(xué)術(shù)、商業(yè)機構(gòu)推出了其專用的解決方案,用來降低功耗并提高性能,但大量的數(shù)據(jù)傳輸與訪問仍然是一個棘手的挑戰(zhàn)。本文的主要的工作如下:1.整合并優(yōu)化了CNN卷積層,進行了細粒度的算法并行性分析,提出了Intra Output Feature Map的并行思路;對片上片外存儲模型進行分析并為CNN設(shè)置了較通用的存儲解決方案;2.提出了一種全新的CNN硬件加速器結(jié)構(gòu),設(shè)定了指令集與工作模式,用戶可以使用簡單的VLIW指令實現(xiàn)多種參數(shù)的CNN網(wǎng)絡(luò)層;3.構(gòu)建了基于ZYNQ的SOC芯片設(shè)計驗證平臺框架,并對CNN加速器進行驗證;4.使用28nm低功耗工藝庫實現(xiàn)了CNN加速器ASIC,與其它先進的CNN加速器相比,在實現(xiàn)相近或更好的吞吐量情況下,本文的加速器降低了50%的外部存儲訪問量,能夠在0.303mm2的芯片面積上達到102GOp/s@800MHz的吞吐量,最大功耗僅為68mW.
[Abstract]:In recent years, the convolutional neural network (CNN) algorithm and its applications in the field of visual perception have greatly changed the traditional machine vision framework. However, due to the large computational workload of CNN algorithm, it is difficult to be used in high real time, so it is widely used in embedded environment. Recently, some internationally renowned academic and commercial organizations have launched their own solutions to reduce power consumption and improve performance, but massive data transmission and access is still a tricky challenge. The main work of this paper is as follows: 1. This paper integrates and optimizes the CNN convolution layer, analyzes the parallelism of fine grained algorithm, puts forward the parallel thinking of Intra Output Feature Map, analyzes the on-chip and off-chip storage model and sets up a general storage solution for CNN. A new structure of CNN hardware accelerator is proposed. Instruction set and working mode are set up. User can use simple VLIW instruction to realize CNN network layer with multiple parameters. The framework of SOC chip design and verification platform based on ZYNQ is constructed, and the CNN accelerator is verified. The CNN accelerator is realized by using 28nm low-power process library. Compared with other advanced CNN accelerators, the accelerator in this paper reduces the external storage access by 50% compared with other advanced CNN accelerators in the case of similar or better throughput. It can achieve the throughput of 102GOp/s@800MHz on the chip area of 0.303mm2, and the maximum power consumption is only 68 MW.
【學(xué)位授予單位】:蘇州大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TH824.4;TP183
【相似文獻】
相關(guān)期刊論文 前10條
1 Sheraz Anjum;陳杰;韓亮;林川;張曉瀟;蘇葉華;程亞奇;;A scalable and low power VLIW DSP core for embedded system design[J];Journal of Harbin Institute of Technology;2008年02期
2 楊焱;侯朝煥;;VLIW處理器系統(tǒng)級驗證平臺的設(shè)計與實現(xiàn)[J];電子測量與儀器學(xué)報;2007年02期
3 伍楠;文梅;張春元;;一種面向分布式寄存器文件的VLIW調(diào)度新策略[J];國防科技大學(xué)學(xué)報;2008年01期
4 周志雄;何虎;張延軍;楊旭;孫義和;;用于分簇VLIW結(jié)構(gòu)的二維力量引導(dǎo)簇調(diào)度算法[J];清華大學(xué)學(xué)報(自然科學(xué)版);2008年10期
5 朱凱佳,王雷,尹寶林;VLIW上的軟件旁路與細粒度并行調(diào)度[J];北京航空航天大學(xué)學(xué)報;2003年10期
6 管茂林;楊乾明;張春元;文梅;;面向能耗有效高性能嵌入式微處理器的VLIW調(diào)度[J];國防科技大學(xué)學(xué)報;2012年06期
7 管茂林;何義;楊乾明;張春元;;基于程序特征分析的流處理器VLIW壓縮技術(shù)與解壓實現(xiàn)[J];國防科技大學(xué)學(xué)報;2012年01期
8 徐建兵,曲俊華;VLIW中指令級的并行處理分析[J];現(xiàn)代電力;2002年05期
9 王沁;VLIW體系結(jié)構(gòu)微處理器功能驗證模型[J];北京科技大學(xué)學(xué)報;2002年04期
10 楊旭;何虎;孫義和;;Data Dependence Graph Directed Scheduling for Clustered VLIW Architectures[J];Tsinghua Science and Technology;2010年03期
相關(guān)重要報紙文章 前1條
1 ;安騰才是英特爾的未來[N];計算機世界;2004年
相關(guān)博士學(xué)位論文 前3條
1 沈立;動態(tài)VLIW體系結(jié)構(gòu)關(guān)鍵技術(shù)研究與實現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2003年
2 管茂林;面向計算密集型嵌入式應(yīng)用的VLIW編譯優(yōu)化技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2012年
3 李宇飛;高性能、低功耗VLIW結(jié)構(gòu)數(shù)字信號處理器(DSP)的研究:模型、算法與工程實踐[D];上海交通大學(xué);2007年
相關(guān)碩士學(xué)位論文 前9條
1 石潤彬;深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)VLIW加速器設(shè)計與實現(xiàn)[D];蘇州大學(xué);2016年
2 唐騫;基于FPGA的VLIW微處理器設(shè)計實現(xiàn)[D];西南交通大學(xué);2010年
3 王曉東;面向移動通信基帶算法的VLIW矢量處理器的設(shè)計[D];電子科技大學(xué);2015年
4 陳惠斌;VLIW DSP匯編器與代碼生成器的設(shè)計與實現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2005年
5 管茂林;面向FT64流處理器中高密度計算的VLIW編譯優(yōu)化技術(shù)[D];國防科學(xué)技術(shù)大學(xué);2007年
6 王斌;一個高性能通用VLIW微處理器原型及其存儲系統(tǒng)的設(shè)計[D];中國人民解放軍國防科學(xué)技術(shù)大學(xué);2002年
7 施自龍;面向全分布式VLIW結(jié)構(gòu)的功能單元互連技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2013年
8 羅雯;基于ASIP的參數(shù)可選RISC結(jié)構(gòu)匯編器以及VLIW結(jié)構(gòu)匯編器設(shè)計[D];西安電子科技大學(xué);2011年
9 丁陳飛;VLIW體系的多簇DSP分簇算法的研究和復(fù)數(shù)運算的優(yōu)化[D];中國科學(xué)技術(shù)大學(xué);2014年
,本文編號:1915903
本文鏈接:http://sikaile.net/kejilunwen/yiqiyibiao/1915903.html