【摘要】:近年來,隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的硬件加速逐漸成為了研究的熱門問題?芍貥(gòu)的加速器與通用CPU相結(jié)合的模式,既有通用性,又有針對(duì)具體問題情景的優(yōu)化,成為一種高效地解決卷積神經(jīng)網(wǎng)絡(luò)加速問題的方案。但是,一方面商用CPU的專利授權(quán)費(fèi)日益高昂,另一方面商用CPU與加速器各自的開發(fā)流程不兼容,有著開發(fā)流程復(fù)雜等問題,因此以RISC-V為代表的開源處理器+加速器的模式并結(jié)合全自動(dòng)化設(shè)計(jì)方法,有助于更高效地進(jìn)行CNN加速平臺(tái)設(shè)計(jì)。為此,本文提出了一種基于RISC-V開源處理器的卷積神經(jīng)網(wǎng)絡(luò)加速結(jié)構(gòu)及其硬件設(shè)計(jì)。本文首先通過對(duì)現(xiàn)有加速器結(jié)構(gòu),如加法樹結(jié)構(gòu)、脈動(dòng)陣列結(jié)構(gòu)、Eyeriss結(jié)構(gòu)等進(jìn)行分析,選取了綜合性能較好的Eyeriss結(jié)構(gòu)作為基礎(chǔ),之后在單個(gè)處理單元(Process Element,PE)內(nèi)部、PE陣列的結(jié)構(gòu)、PE陣列之間的并行、系統(tǒng)軟硬件劃分等四個(gè)層面進(jìn)行研究。在單個(gè)PE層面,為了減少PE單元內(nèi)部數(shù)據(jù)的移動(dòng),本文采用了維護(hù)循環(huán)數(shù)組指針的方式,提高了PE單元內(nèi)部的運(yùn)算效率。在PE陣列的層面,本文針對(duì)Eyeriss結(jié)構(gòu)在卷積神經(jīng)網(wǎng)絡(luò)運(yùn)行后期容易造成PE資源浪費(fèi)的問題,提出了一種尺寸自適應(yīng)的加速結(jié)構(gòu),有效提高了PE資源的利用率,進(jìn)而對(duì)卷積神經(jīng)網(wǎng)絡(luò)起到了加速作用,此外也針對(duì)不同網(wǎng)絡(luò)以及卷積層可能存在的Stride不同的情況進(jìn)行了優(yōu)化。在PE陣列之間并行的層面,本文利用輸入輸出混合并行的思想,分析了基于輸入特征圖和輸出特征圖的并行結(jié)構(gòu)對(duì)帶寬、緩存等的要求,最終在網(wǎng)絡(luò)結(jié)構(gòu)不改變的情況下設(shè)計(jì)了2×1×2的并行加速結(jié)構(gòu),在控制訪存帶寬的同時(shí)提高了加速效果。在系統(tǒng)軟硬件劃分方面,為了提高本文設(shè)計(jì)的靈活性,對(duì)系統(tǒng)的控制邏輯等進(jìn)行了適當(dāng)?shù)膭澐?提高了系統(tǒng)對(duì)不同網(wǎng)絡(luò)結(jié)構(gòu)的適應(yīng)性。本文在Rocket-Chip Emulator中對(duì)設(shè)計(jì)進(jìn)行仿真,在Vivado軟件中進(jìn)行仿真和綜合,測(cè)試結(jié)果表明:在使用本文結(jié)構(gòu)的情況下前向流程的周期數(shù)縮減為串行的19.46%。相比普通Eyeriss結(jié)構(gòu),本文效果提高了22.3%。引入了輸入輸出特征圖的并行結(jié)構(gòu)后,一張圖完成前向流程的周期數(shù)縮減為串行結(jié)構(gòu)的11.6%,相比普通Eyeriss結(jié)構(gòu),本文效果提高了13.01%。實(shí)驗(yàn)結(jié)果驗(yàn)證了該結(jié)構(gòu)在加速卷積神經(jīng)網(wǎng)絡(luò)方面的有效性,同時(shí)綜合結(jié)果也說明硬件資源的消耗在可以接受的范圍內(nèi)。
【學(xué)位授予單位】:上海交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP332;TP183
【圖文】:
圖 2-1 RISC-V 基本指令的格式[23]Fig.2-1 RISC-V Base Instruction Formats[23]此外還有足夠的操作碼空間以支持自定義的擴(kuò)展。這里面最規(guī)范和常用的擴(kuò)展已經(jīng)標(biāo)準(zhǔn)化了。現(xiàn)有的擴(kuò)展包括乘法和除法、原子操作、單精度浮點(diǎn)數(shù)以及雙

圖 2-3 Rocket-Chip 生成器的結(jié)構(gòu)[25]Fig.2-3 The Rocket-Chip Generator[25]個(gè) Rocket Chip 實(shí)例的例子。它具有兩個(gè) Tile,連

圖 2-3 Rocket-Chip 生成器的結(jié)構(gòu)[25]Fig.2-3 The Rocket-Chip Generator[25]個(gè) Rocket Chip 實(shí)例的例子。它具有兩個(gè) Tile,連
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 方睿;劉加賀;薛志輝;楊廣文;;卷積神經(jīng)網(wǎng)絡(luò)的FPGA并行加速方案設(shè)計(jì)[J];計(jì)算機(jī)工程與應(yīng)用;2015年08期
2 施蕾;劉波;周凱;;基于SPARC V8結(jié)構(gòu)處理器的計(jì)算機(jī)系統(tǒng)設(shè)計(jì)[J];空間控制技術(shù)與應(yīng)用;2008年03期
3 G.Dan Hutcheson;黃國(guó)勇;;摩爾定律:一個(gè)改變歷史和經(jīng)濟(jì)的推斷[J];中國(guó)集成電路;2006年08期
相關(guān)博士學(xué)位論文 前1條
1 陸志堅(jiān);基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)并行結(jié)構(gòu)研究[D];哈爾濱工程大學(xué);2013年
相關(guān)碩士學(xué)位論文 前6條
1 曾軍;基于Openrisc的可重塑芯片設(shè)計(jì)[D];成都理工大學(xué);2014年
2 徐金娜;基于leon3平臺(tái)的軟硬件協(xié)同驗(yàn)證環(huán)境的研究與設(shè)計(jì)[D];哈爾濱工業(yè)大學(xué);2013年
3 唐建秋;OpenRISC處理器寄存器級(jí)仿真與實(shí)現(xiàn)[D];湖南大學(xué);2013年
4 張勇;OpenSPARC~(TM)T1處理器的研究與實(shí)現(xiàn)[D];南開大學(xué);2010年
5 童佳杰;AMBA2.0在MPEG-2 DECODER芯片中的實(shí)現(xiàn)及軟硬件協(xié)同驗(yàn)證[D];北京工業(yè)大學(xué);2009年
6 吳f[;OpenRISC處理器內(nèi)的性能計(jì)數(shù)器的設(shè)計(jì)和實(shí)現(xiàn)[D];上海交通大學(xué);2009年
本文編號(hào):
2807236
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2807236.html