基于RISC-V開源處理器的卷積神經(jīng)網(wǎng)絡(luò)加速器設(shè)計方法研究

發(fā)布時間：2020-08-28 06:30

【摘要】：近年來,隨著深度學習的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的硬件加速逐漸成為了研究的熱門問題�？芍貥�(gòu)的加速器與通用CPU相結(jié)合的模式,既有通用性,又有針對具體問題情景的優(yōu)化,成為一種高效地解決卷積神經(jīng)網(wǎng)絡(luò)加速問題的方案。但是,一方面商用CPU的專利授權(quán)費日益高昂,另一方面商用CPU與加速器各自的開發(fā)流程不兼容,有著開發(fā)流程復雜等問題,因此以RISC-V為代表的開源處理器+加速器的模式并結(jié)合全自動化設(shè)計方法,有助于更高效地進行CNN加速平臺設(shè)計。為此,本文提出了一種基于RISC-V開源處理器的卷積神經(jīng)網(wǎng)絡(luò)加速結(jié)構(gòu)及其硬件設(shè)計。本文首先通過對現(xiàn)有加速器結(jié)構(gòu),如加法樹結(jié)構(gòu)、脈動陣列結(jié)構(gòu)、Eyeriss結(jié)構(gòu)等進行分析,選取了綜合性能較好的Eyeriss結(jié)構(gòu)作為基礎(chǔ),之后在單個處理單元(Process Element,PE)內(nèi)部、PE陣列的結(jié)構(gòu)、PE陣列之間的并行、系統(tǒng)軟硬件劃分等四個層面進行研究。在單個PE層面,為了減少PE單元內(nèi)部數(shù)據(jù)的移動,本文采用了維護循環(huán)數(shù)組指針的方式,提高了PE單元內(nèi)部的運算效率。在PE陣列的層面,本文針對Eyeriss結(jié)構(gòu)在卷積神經(jīng)網(wǎng)絡(luò)運行后期容易造成PE資源浪費的問題,提出了一種尺寸自適應(yīng)的加速結(jié)構(gòu),有效提高了PE資源的利用率,進而對卷積神經(jīng)網(wǎng)絡(luò)起到了加速作用,此外也針對不同網(wǎng)絡(luò)以及卷積層可能存在的Stride不同的情況進行了優(yōu)化。在PE陣列之間并行的層面,本文利用輸入輸出混合并行的思想,分析了基于輸入特征圖和輸出特征圖的并行結(jié)構(gòu)對帶寬、緩存等的要求,最終在網(wǎng)絡(luò)結(jié)構(gòu)不改變的情況下設(shè)計了2×1×2的并行加速結(jié)構(gòu),在控制訪存帶寬的同時提高了加速效果。在系統(tǒng)軟硬件劃分方面,為了提高本文設(shè)計的靈活性,對系統(tǒng)的控制邏輯等進行了適當?shù)膭澐?提高了系統(tǒng)對不同網(wǎng)絡(luò)結(jié)構(gòu)的適應(yīng)性。本文在Rocket-Chip Emulator中對設(shè)計進行仿真,在Vivado軟件中進行仿真和綜合,測試結(jié)果表明:在使用本文結(jié)構(gòu)的情況下前向流程的周期數(shù)縮減為串行的19.46%。相比普通Eyeriss結(jié)構(gòu),本文效果提高了22.3%。引入了輸入輸出特征圖的并行結(jié)構(gòu)后,一張圖完成前向流程的周期數(shù)縮減為串行結(jié)構(gòu)的11.6%,相比普通Eyeriss結(jié)構(gòu),本文效果提高了13.01%。實驗結(jié)果驗證了該結(jié)構(gòu)在加速卷積神經(jīng)網(wǎng)絡(luò)方面的有效性,同時綜合結(jié)果也說明硬件資源的消耗在可以接受的范圍內(nèi)。
【學位授予單位】：上海交通大學
【學位級別】：碩士
【學位授予年份】：2018
【分類號】：TP332;TP183
【圖文】：

基本指令,格式,擴展包,原子操作

圖 2-1 RISC-V 基本指令的格式[23]Fig.2-1 RISC-V Base Instruction Formats[23]此外還有足夠的操作碼空間以支持自定義的擴展。這里面最規(guī)范和常用的擴展已經(jīng)標準化了�，F(xiàn)有的擴展包括乘法和除法、原子操作、單精度浮點數(shù)以及雙

生成器,例子,實例