【摘要】:近年來,隨著深度學習的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的硬件加速逐漸成為了研究的熱門問題?芍貥(gòu)的加速器與通用CPU相結(jié)合的模式,既有通用性,又有針對具體問題情景的優(yōu)化,成為一種高效地解決卷積神經(jīng)網(wǎng)絡(luò)加速問題的方案。但是,一方面商用CPU的專利授權(quán)費日益高昂,另一方面商用CPU與加速器各自的開發(fā)流程不兼容,有著開發(fā)流程復雜等問題,因此以RISC-V為代表的開源處理器+加速器的模式并結(jié)合全自動化設(shè)計方法,有助于更高效地進行CNN加速平臺設(shè)計。為此,本文提出了一種基于RISC-V開源處理器的卷積神經(jīng)網(wǎng)絡(luò)加速結(jié)構(gòu)及其硬件設(shè)計。本文首先通過對現(xiàn)有加速器結(jié)構(gòu),如加法樹結(jié)構(gòu)、脈動陣列結(jié)構(gòu)、Eyeriss結(jié)構(gòu)等進行分析,選取了綜合性能較好的Eyeriss結(jié)構(gòu)作為基礎(chǔ),之后在單個處理單元(Process Element,PE)內(nèi)部、PE陣列的結(jié)構(gòu)、PE陣列之間的并行、系統(tǒng)軟硬件劃分等四個層面進行研究。在單個PE層面,為了減少PE單元內(nèi)部數(shù)據(jù)的移動,本文采用了維護循環(huán)數(shù)組指針的方式,提高了PE單元內(nèi)部的運算效率。在PE陣列的層面,本文針對Eyeriss結(jié)構(gòu)在卷積神經(jīng)網(wǎng)絡(luò)運行后期容易造成PE資源浪費的問題,提出了一種尺寸自適應(yīng)的加速結(jié)構(gòu),有效提高了PE資源的利用率,進而對卷積神經(jīng)網(wǎng)絡(luò)起到了加速作用,此外也針對不同網(wǎng)絡(luò)以及卷積層可能存在的Stride不同的情況進行了優(yōu)化。在PE陣列之間并行的層面,本文利用輸入輸出混合并行的思想,分析了基于輸入特征圖和輸出特征圖的并行結(jié)構(gòu)對帶寬、緩存等的要求,最終在網(wǎng)絡(luò)結(jié)構(gòu)不改變的情況下設(shè)計了2×1×2的并行加速結(jié)構(gòu),在控制訪存帶寬的同時提高了加速效果。在系統(tǒng)軟硬件劃分方面,為了提高本文設(shè)計的靈活性,對系統(tǒng)的控制邏輯等進行了適當?shù)膭澐?提高了系統(tǒng)對不同網(wǎng)絡(luò)結(jié)構(gòu)的適應(yīng)性。本文在Rocket-Chip Emulator中對設(shè)計進行仿真,在Vivado軟件中進行仿真和綜合,測試結(jié)果表明:在使用本文結(jié)構(gòu)的情況下前向流程的周期數(shù)縮減為串行的19.46%。相比普通Eyeriss結(jié)構(gòu),本文效果提高了22.3%。引入了輸入輸出特征圖的并行結(jié)構(gòu)后,一張圖完成前向流程的周期數(shù)縮減為串行結(jié)構(gòu)的11.6%,相比普通Eyeriss結(jié)構(gòu),本文效果提高了13.01%。實驗結(jié)果驗證了該結(jié)構(gòu)在加速卷積神經(jīng)網(wǎng)絡(luò)方面的有效性,同時綜合結(jié)果也說明硬件資源的消耗在可以接受的范圍內(nèi)。
【學位授予單位】:上海交通大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP332;TP183
【圖文】:
圖 2-1 RISC-V 基本指令的格式[23]Fig.2-1 RISC-V Base Instruction Formats[23]此外還有足夠的操作碼空間以支持自定義的擴展。這里面最規(guī)范和常用的擴展已經(jīng)標準化了,F(xiàn)有的擴展包括乘法和除法、原子操作、單精度浮點數(shù)以及雙

圖 2-3 Rocket-Chip 生成器的結(jié)構(gòu)[25]Fig.2-3 The Rocket-Chip Generator[25]個 Rocket Chip 實例的例子。它具有兩個 Tile,連

圖 2-3 Rocket-Chip 生成器的結(jié)構(gòu)[25]Fig.2-3 The Rocket-Chip Generator[25]個 Rocket Chip 實例的例子。它具有兩個 Tile,連
【參考文獻】
相關(guān)期刊論文 前3條
1 方睿;劉加賀;薛志輝;楊廣文;;卷積神經(jīng)網(wǎng)絡(luò)的FPGA并行加速方案設(shè)計[J];計算機工程與應(yīng)用;2015年08期
2 施蕾;劉波;周凱;;基于SPARC V8結(jié)構(gòu)處理器的計算機系統(tǒng)設(shè)計[J];空間控制技術(shù)與應(yīng)用;2008年03期
3 G.Dan Hutcheson;黃國勇;;摩爾定律:一個改變歷史和經(jīng)濟的推斷[J];中國集成電路;2006年08期
相關(guān)博士學位論文 前1條
1 陸志堅;基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)并行結(jié)構(gòu)研究[D];哈爾濱工程大學;2013年
相關(guān)碩士學位論文 前6條
1 曾軍;基于Openrisc的可重塑芯片設(shè)計[D];成都理工大學;2014年
2 徐金娜;基于leon3平臺的軟硬件協(xié)同驗證環(huán)境的研究與設(shè)計[D];哈爾濱工業(yè)大學;2013年
3 唐建秋;OpenRISC處理器寄存器級仿真與實現(xiàn)[D];湖南大學;2013年
4 張勇;OpenSPARC~(TM)T1處理器的研究與實現(xiàn)[D];南開大學;2010年
5 童佳杰;AMBA2.0在MPEG-2 DECODER芯片中的實現(xiàn)及軟硬件協(xié)同驗證[D];北京工業(yè)大學;2009年
6 吳f[;OpenRISC處理器內(nèi)的性能計數(shù)器的設(shè)計和實現(xiàn)[D];上海交通大學;2009年
本文編號:
2807236
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2807236.html