基于深度學(xué)習(xí)的目標(biāo)檢測算法FPGA實現(xiàn)
發(fā)布時間:2021-06-01 22:49
目標(biāo)檢測在人工智能、醫(yī)療研究和國防安全等民用和軍用領(lǐng)域等都應(yīng)用廣泛,基于深度學(xué)習(xí)的目標(biāo)檢測算法是利用卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)提取特征并完成圖像分類和定位,精度和速度相較于傳統(tǒng)算法都大幅度提升,但卷積神經(jīng)網(wǎng)絡(luò)往往存在龐大的參數(shù)量和計算量,并且網(wǎng)絡(luò)層參數(shù)和結(jié)構(gòu)多變,這導(dǎo)致目標(biāo)檢測算法很難應(yīng)用在資源有限、要求高處理速度和低功耗的嵌入式場合。相較于GPU和ASIC嵌入式平臺,FPGA具有低成本、可重構(gòu)、能效比高等優(yōu)勢,本文在FPGA硬件平臺上完成基于深度學(xué)習(xí)的目標(biāo)檢測算法硬件加速實現(xiàn),主要的研究工作如下:1.本文針對采用的ZYNQ 7100異構(gòu)硬件平臺,結(jié)合以CNN為核心的目標(biāo)檢測算法可硬件加速的分析結(jié)果,在一定的設(shè)計要求下,完成了基于軟硬件協(xié)同設(shè)計思想的研究任務(wù)劃分和總體架構(gòu)設(shè)計。2.基于總體架構(gòu)設(shè)計,本文借助Roofline模型評估了一系列典型的基于深度學(xué)習(xí)的目標(biāo)檢測算法在ZYNQ 7100硬件平臺實現(xiàn)時能達(dá)到的理論性能上限,同時考慮算法檢測準(zhǔn)確率、模型復(fù)雜度等因素,最終選擇了最適合部署在該平臺上的目標(biāo)檢測算法Mobilenet-SSD...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:81 頁
【學(xué)位級別】:碩士
【部分圖文】:
目標(biāo)檢測算法性能概況
哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文PL 端 DSP:2020 個;PS 和 PL 通信接口:AXI_ACP,AXI_HP(64bit)x4,A時鐘資源: 可編程 LVDS 時鐘,可用于 MGT 接口; 200 MHz LVDS oscillator (system clock); 33.333MHz PS 端系統(tǒng)時鐘;兩個 USB 轉(zhuǎn) UART 串口,分別連接 PS 和 PL 端;SFP+ 接口 x2,QSFP+接口,USB Host 接口 x4, HDMI I2C EEPROM:容量 8Kbit。
Zynq7100的Roofline模型
【參考文獻】:
期刊論文
[1]基于Zynq7000 FPGA異構(gòu)平臺的YOLOv2加速器設(shè)計與實現(xiàn)[J]. 陳辰,柴志雷,夏珺. 計算機科學(xué)與探索. 2019(10)
[2]基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)加速器[J]. 余子健,馬德,嚴(yán)曉浪,沈君成. 計算機工程. 2017(01)
[3]深度學(xué)習(xí)研究綜述[J]. 孫志軍,薛磊,許陽明,王正. 計算機應(yīng)用研究. 2012(08)
[4]SoPC與嵌入式系統(tǒng)軟硬件協(xié)同設(shè)計[J]. 唐思章,黃勇. 單片機與嵌入式系統(tǒng)應(yīng)用. 2005(12)
博士論文
[1]基于GPU的高性能并行算法研究[D]. 白洪濤.吉林大學(xué) 2010
碩士論文
[1]基于FPGA的目標(biāo)檢測算法加速與實現(xiàn)[D]. 吳晉.北京交通大學(xué) 2018
[2]深度學(xué)習(xí)的硬件實現(xiàn)與優(yōu)化技術(shù)研究[D]. 林楗軍.哈爾濱工業(yè)大學(xué) 2017
[3]基于FPGA的深度學(xué)習(xí)加速器設(shè)計與實現(xiàn)[D]. 余奇.中國科學(xué)技術(shù)大學(xué) 2016
本文編號:3210308
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:81 頁
【學(xué)位級別】:碩士
【部分圖文】:
目標(biāo)檢測算法性能概況
哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文PL 端 DSP:2020 個;PS 和 PL 通信接口:AXI_ACP,AXI_HP(64bit)x4,A時鐘資源: 可編程 LVDS 時鐘,可用于 MGT 接口; 200 MHz LVDS oscillator (system clock); 33.333MHz PS 端系統(tǒng)時鐘;兩個 USB 轉(zhuǎn) UART 串口,分別連接 PS 和 PL 端;SFP+ 接口 x2,QSFP+接口,USB Host 接口 x4, HDMI I2C EEPROM:容量 8Kbit。
Zynq7100的Roofline模型
【參考文獻】:
期刊論文
[1]基于Zynq7000 FPGA異構(gòu)平臺的YOLOv2加速器設(shè)計與實現(xiàn)[J]. 陳辰,柴志雷,夏珺. 計算機科學(xué)與探索. 2019(10)
[2]基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)加速器[J]. 余子健,馬德,嚴(yán)曉浪,沈君成. 計算機工程. 2017(01)
[3]深度學(xué)習(xí)研究綜述[J]. 孫志軍,薛磊,許陽明,王正. 計算機應(yīng)用研究. 2012(08)
[4]SoPC與嵌入式系統(tǒng)軟硬件協(xié)同設(shè)計[J]. 唐思章,黃勇. 單片機與嵌入式系統(tǒng)應(yīng)用. 2005(12)
博士論文
[1]基于GPU的高性能并行算法研究[D]. 白洪濤.吉林大學(xué) 2010
碩士論文
[1]基于FPGA的目標(biāo)檢測算法加速與實現(xiàn)[D]. 吳晉.北京交通大學(xué) 2018
[2]深度學(xué)習(xí)的硬件實現(xiàn)與優(yōu)化技術(shù)研究[D]. 林楗軍.哈爾濱工業(yè)大學(xué) 2017
[3]基于FPGA的深度學(xué)習(xí)加速器設(shè)計與實現(xiàn)[D]. 余奇.中國科學(xué)技術(shù)大學(xué) 2016
本文編號:3210308
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3210308.html
最近更新
教材專著