基于FPGA的深度學(xué)習(xí)算法加速
發(fā)布時(shí)間:2022-11-01 22:23
在近些年,深度學(xué)習(xí)算法有著飛速的發(fā)展,其核心為卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用及其廣泛,在圖像識(shí)別分類、自然語(yǔ)言處理、情感分析等領(lǐng)域均有應(yīng)用。神經(jīng)網(wǎng)絡(luò)的主要實(shí)現(xiàn)方式還是在GPU平臺(tái)上,各項(xiàng)指標(biāo)也是在GPU上完成改進(jìn)的。但是在實(shí)際應(yīng)用中,經(jīng)常會(huì)面臨各種低功耗的場(chǎng)景,此時(shí)GPU的巨大功耗成為了神經(jīng)網(wǎng)絡(luò)算法落地的障礙。神經(jīng)網(wǎng)絡(luò)一個(gè)很重要的應(yīng)用領(lǐng)域是目標(biāo)檢測(cè),在目標(biāo)檢測(cè)算法中,YOLOV2(You Only Look Once)是一個(gè)極具代表性的算法,其結(jié)構(gòu)簡(jiǎn)單,檢測(cè)速度非�?�。由于在低功耗場(chǎng)景下的特殊需求,神經(jīng)網(wǎng)絡(luò)在嵌入式設(shè)備上也有很多的應(yīng)用,但是有傳統(tǒng)的嵌入式設(shè)備絕大部分是基于ARM的平臺(tái),神經(jīng)網(wǎng)絡(luò)在ARM上部署時(shí)存在的依據(jù)巨大的問題就是算力不足的問題,所以基于FPGA的硬件加速平臺(tái)就應(yīng)運(yùn)而生了。FPGA由于其獨(dú)特的架構(gòu),被廣泛應(yīng)用于實(shí)時(shí)信號(hào)處理、圖像處理等領(lǐng)域,其并行性也為卷積運(yùn)算提供了巨大的算力。本文中采用YOLOV2來(lái)做為核心算法,先分析了YOLOV2的原理,然后根據(jù)其原理來(lái)對(duì)算法中的參數(shù)進(jìn)行量化,以減少運(yùn)算和傳輸?shù)膸捪?從而加速算法。本設(shè)計(jì)中,采用ZYNQ系列的FPGA芯片進(jìn)行算...
【文章頁(yè)數(shù)】:77 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 課題研究的背景及意義
1.2 課題研究的現(xiàn)狀
1.3 論文的主要工作和章節(jié)安排
第二章 深度學(xué)習(xí)算法原理及其硬件實(shí)現(xiàn)
2.1 深度學(xué)習(xí)算法的簡(jiǎn)介
2.2 從線性回歸到深度神經(jīng)網(wǎng)絡(luò)
2.3 深度學(xué)習(xí)算法的結(jié)構(gòu)
2.3.1 卷積層
2.3.2 激活函數(shù)
2.3.3 Normalization層
2.3.4 Pooling層
2.3.5 全連接層
2.4 典型深度學(xué)習(xí)網(wǎng)絡(luò)
2.4.1 AlexNet
2.4.2 VGG16
2.4.3 ResNets
2.4.4 GoogleNet
2.4.5 ZF Net
2.5 深度學(xué)習(xí)硬件實(shí)現(xiàn)
2.5.1 GPU實(shí)現(xiàn)
2.5.2 ASIC實(shí)現(xiàn)
2.5.3 FPGA實(shí)現(xiàn)
2.6 本章小結(jié)
第三章 YOLOV2 算法加速研究
3.1 YOLOV2 算法的基本理論
3.1.1 YOLOV2 概述
3.1.2 算法原理
3.1.3 網(wǎng)絡(luò)結(jié)構(gòu)
3.1.4 網(wǎng)絡(luò)特點(diǎn)
3.2 網(wǎng)絡(luò)數(shù)據(jù)的量化
3.2.1 量化權(quán)重?cái)?shù)據(jù)
3.2.2 量化偏移數(shù)據(jù)
3.3 硬件架構(gòu)優(yōu)化
3.3.1 運(yùn)算結(jié)構(gòu)優(yōu)化
3.3.2 緩存優(yōu)化
3.4 本章小結(jié)
第四章 硬件加速實(shí)現(xiàn)與結(jié)果分析
4.1 FPGA基本結(jié)構(gòu)
4.2 ZCU104 開發(fā)平臺(tái)介紹
4.2.1 ZCU104 硬件平臺(tái)介紹
4.3 PYNQ開發(fā)框架介紹
4.4 HLS加速基本理論
4.4.1 HLS開發(fā)流程
4.4.2 HLS開發(fā)優(yōu)勢(shì)
4.5 加速IP的 HLS實(shí)現(xiàn)
4.5.1 層內(nèi)并行化實(shí)現(xiàn)
4.5.2 循環(huán)優(yōu)化實(shí)現(xiàn)
4.5.3 數(shù)組優(yōu)化實(shí)現(xiàn)
4.6 硬件系統(tǒng)的構(gòu)建
4.6.1 PL部分實(shí)現(xiàn)
4.6.2 軟硬件系統(tǒng)實(shí)現(xiàn)
4.7 結(jié)果分析
4.8 本章小結(jié)
第五章 總結(jié)與展望
5.1 全文總結(jié)
5.2 工作展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的成果
【參考文獻(xiàn)】:
期刊論文
[1]加速云:用FPGA提高AI計(jì)算力,用IP庫(kù)降低開發(fā)難度[J]. 單祥茹. 中國(guó)電子商情(基礎(chǔ)電子). 2018(05)
[2]基于異構(gòu)多核并行加速的嵌入式神經(jīng)網(wǎng)絡(luò)人臉識(shí)別方法[J]. 高放,黃樟欽. 計(jì)算機(jī)科學(xué). 2018(03)
[3]基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)Softmax層實(shí)現(xiàn)[J]. 李理,應(yīng)三叢. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2017(26)
[4]深度學(xué)習(xí)的昨天、今天和明天[J]. 余凱,賈磊,陳雨強(qiáng),徐偉. 計(jì)算機(jī)研究與發(fā)展. 2013(09)
博士論文
[1]基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)并行結(jié)構(gòu)研究[D]. 陸志堅(jiān).哈爾濱工程大學(xué) 2013
碩士論文
[1]基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)加速方法研究及實(shí)現(xiàn)[D]. 仇越.江南大學(xué) 2018
[2]基于Zynq的深度學(xué)習(xí)圖像分類識(shí)別系統(tǒng)的設(shè)計(jì)[D]. 黃偉杰.廣東工業(yè)大學(xué) 2018
[3]基于FPGA平臺(tái)的深度學(xué)習(xí)應(yīng)用研究[D]. 董振興.西安電子科技大學(xué) 2018
[4]基于FPGA的CNN自動(dòng)代碼生成設(shè)計(jì)與實(shí)現(xiàn)[D]. 王江峰.天津工業(yè)大學(xué) 2018
[5]基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D]. 鐘楠.北京郵電大學(xué) 2018
[6]基于HLS的Tiny-yolo卷積神經(jīng)網(wǎng)絡(luò)加速研究[D]. 張麗麗.重慶大學(xué) 2017
[7]基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)手寫數(shù)字識(shí)別系統(tǒng)的實(shí)現(xiàn)[D]. 王小雪.北京理工大學(xué) 2016
本文編號(hào):3700205
【文章頁(yè)數(shù)】:77 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 課題研究的背景及意義
1.2 課題研究的現(xiàn)狀
1.3 論文的主要工作和章節(jié)安排
第二章 深度學(xué)習(xí)算法原理及其硬件實(shí)現(xiàn)
2.1 深度學(xué)習(xí)算法的簡(jiǎn)介
2.2 從線性回歸到深度神經(jīng)網(wǎng)絡(luò)
2.3 深度學(xué)習(xí)算法的結(jié)構(gòu)
2.3.1 卷積層
2.3.2 激活函數(shù)
2.3.3 Normalization層
2.3.4 Pooling層
2.3.5 全連接層
2.4 典型深度學(xué)習(xí)網(wǎng)絡(luò)
2.4.1 AlexNet
2.4.2 VGG16
2.4.3 ResNets
2.4.4 GoogleNet
2.4.5 ZF Net
2.5 深度學(xué)習(xí)硬件實(shí)現(xiàn)
2.5.1 GPU實(shí)現(xiàn)
2.5.2 ASIC實(shí)現(xiàn)
2.5.3 FPGA實(shí)現(xiàn)
2.6 本章小結(jié)
第三章 YOLOV2 算法加速研究
3.1 YOLOV2 算法的基本理論
3.1.1 YOLOV2 概述
3.1.2 算法原理
3.1.3 網(wǎng)絡(luò)結(jié)構(gòu)
3.1.4 網(wǎng)絡(luò)特點(diǎn)
3.2 網(wǎng)絡(luò)數(shù)據(jù)的量化
3.2.1 量化權(quán)重?cái)?shù)據(jù)
3.2.2 量化偏移數(shù)據(jù)
3.3 硬件架構(gòu)優(yōu)化
3.3.1 運(yùn)算結(jié)構(gòu)優(yōu)化
3.3.2 緩存優(yōu)化
3.4 本章小結(jié)
第四章 硬件加速實(shí)現(xiàn)與結(jié)果分析
4.1 FPGA基本結(jié)構(gòu)
4.2 ZCU104 開發(fā)平臺(tái)介紹
4.2.1 ZCU104 硬件平臺(tái)介紹
4.3 PYNQ開發(fā)框架介紹
4.4 HLS加速基本理論
4.4.1 HLS開發(fā)流程
4.4.2 HLS開發(fā)優(yōu)勢(shì)
4.5 加速IP的 HLS實(shí)現(xiàn)
4.5.1 層內(nèi)并行化實(shí)現(xiàn)
4.5.2 循環(huán)優(yōu)化實(shí)現(xiàn)
4.5.3 數(shù)組優(yōu)化實(shí)現(xiàn)
4.6 硬件系統(tǒng)的構(gòu)建
4.6.1 PL部分實(shí)現(xiàn)
4.6.2 軟硬件系統(tǒng)實(shí)現(xiàn)
4.7 結(jié)果分析
4.8 本章小結(jié)
第五章 總結(jié)與展望
5.1 全文總結(jié)
5.2 工作展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的成果
【參考文獻(xiàn)】:
期刊論文
[1]加速云:用FPGA提高AI計(jì)算力,用IP庫(kù)降低開發(fā)難度[J]. 單祥茹. 中國(guó)電子商情(基礎(chǔ)電子). 2018(05)
[2]基于異構(gòu)多核并行加速的嵌入式神經(jīng)網(wǎng)絡(luò)人臉識(shí)別方法[J]. 高放,黃樟欽. 計(jì)算機(jī)科學(xué). 2018(03)
[3]基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)Softmax層實(shí)現(xiàn)[J]. 李理,應(yīng)三叢. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2017(26)
[4]深度學(xué)習(xí)的昨天、今天和明天[J]. 余凱,賈磊,陳雨強(qiáng),徐偉. 計(jì)算機(jī)研究與發(fā)展. 2013(09)
博士論文
[1]基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)并行結(jié)構(gòu)研究[D]. 陸志堅(jiān).哈爾濱工程大學(xué) 2013
碩士論文
[1]基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)加速方法研究及實(shí)現(xiàn)[D]. 仇越.江南大學(xué) 2018
[2]基于Zynq的深度學(xué)習(xí)圖像分類識(shí)別系統(tǒng)的設(shè)計(jì)[D]. 黃偉杰.廣東工業(yè)大學(xué) 2018
[3]基于FPGA平臺(tái)的深度學(xué)習(xí)應(yīng)用研究[D]. 董振興.西安電子科技大學(xué) 2018
[4]基于FPGA的CNN自動(dòng)代碼生成設(shè)計(jì)與實(shí)現(xiàn)[D]. 王江峰.天津工業(yè)大學(xué) 2018
[5]基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D]. 鐘楠.北京郵電大學(xué) 2018
[6]基于HLS的Tiny-yolo卷積神經(jīng)網(wǎng)絡(luò)加速研究[D]. 張麗麗.重慶大學(xué) 2017
[7]基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)手寫數(shù)字識(shí)別系統(tǒng)的實(shí)現(xiàn)[D]. 王小雪.北京理工大學(xué) 2016
本文編號(hào):3700205
本文鏈接:http://sikaile.net/kejilunwen/dianzigongchenglunwen/3700205.html
最近更新
教材專著