基于低精度量化的卷積神經(jīng)網(wǎng)絡(luò)在FPGA上的加速研究
發(fā)布時(shí)間:2021-04-15 08:43
隨著深度學(xué)習(xí)理論研究的不斷深入和應(yīng)用技術(shù)的不斷推廣,傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)在語音識(shí)別、圖像處理、自然語言處理等領(lǐng)域已經(jīng)取得了巨大的成功。然而,卷積神經(jīng)網(wǎng)絡(luò)越來越大的計(jì)算規(guī)模和越來越復(fù)雜的模型結(jié)構(gòu)已成為其在移動(dòng)端和嵌入式端部署的瓶頸。最近的研究結(jié)果表明,經(jīng)過量化后的卷積神經(jīng)網(wǎng)絡(luò)可大量減小參數(shù)規(guī)模和計(jì)算成本。在保證一定準(zhǔn)確度的情況下,網(wǎng)絡(luò)模型的訓(xùn)練過程權(quán)重和隱藏層激活二值量化為+1或者-1,量化的權(quán)重和激活值用于計(jì)算參數(shù)梯度,這樣的量化操作使得內(nèi)存消耗理論上減少為全精度模型的1/32。更重要地,Xnor邏輯運(yùn)算和popcount位移運(yùn)算可以替換原來的卷積運(yùn)算,這樣更是極大的減少了運(yùn)算時(shí)耗。結(jié)合FPGA可編程、可重構(gòu)以及低功耗的特點(diǎn)和二值量化的訓(xùn)練方法,通過Vivado HLS高級(jí)綜合工具在Xilinx PYNQ-Z1輕量級(jí)開發(fā)板上對(duì)基于VGG16改進(jìn)的網(wǎng)絡(luò)進(jìn)行了加速實(shí)現(xiàn)。從卷積層、池化層、正則歸一化層、全連接層進(jìn)行了相應(yīng)的優(yōu)化,并設(shè)計(jì)了一個(gè)矩陣向量乘法單元,通過控制調(diào)整其中的PE數(shù)量和SIMD通道數(shù)能夠使模型達(dá)到局部性能最優(yōu),并最終獲得整體最優(yōu)性能。通過優(yōu)化獲得了相較于前人更高的數(shù)據(jù)吞吐量、更...
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:77 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
激活函數(shù)曲線
量化精度下實(shí)驗(yàn)結(jié)果與對(duì)比分析平臺(tái)及開發(fā)流程臺(tái)驗(yàn)平臺(tái)采用 Xilinx 公司的合作伙伴迪芝倫(Digilent)在 2016 推出的PYNQ-Z1,如圖 3.20 所示。PYNQ 作為一個(gè)新的開源框架體現(xiàn)了 Xilinthon 生產(chǎn)力,它類似于全可編程 SoC 開發(fā)套件(APSoc, All Program-chip),支持在板上直接使用 Python 語言來進(jìn)行開發(fā)和測試,所以q Socs 上的開發(fā)變得容易且高效。-Z1 的產(chǎn)品特點(diǎn):650MH 雙核 Cortex-A9 處理器、8 個(gè) DMA 通道I3 從端口的 DDR3 內(nèi)存控制器、高帶寬外設(shè)控制器、低帶寬外設(shè)控閃存和 microSD 卡以及 Artix-7 系列可編程邏輯[42]。
(b) 船 (d) 滑翔傘圖 4.8 檢測效果圖由圖4.8可知,經(jīng)過低精度量化(W1A5)后的網(wǎng)絡(luò)模型對(duì)小目標(biāo)的檢測效果良好。在實(shí)際使用中可以運(yùn)用在無人機(jī)高空作業(yè),并在背景較簡單的場景中對(duì)單個(gè)特定小目標(biāo)進(jìn)行檢測能達(dá)到很好的效果。4.4 本章小結(jié)本章結(jié)合二值化的量化思路和本文的加速方案實(shí)現(xiàn)了一個(gè)基于 Squeezenet 結(jié)構(gòu)的目標(biāo)檢測系統(tǒng)。本文將其計(jì)算負(fù)載分為 9 個(gè)部分,并提供了每一部分的性能。本章還引入圖像相似度對(duì)比算法來減少對(duì)視頻流的計(jì)算負(fù)載,達(dá)到一定的實(shí)時(shí)性效果。經(jīng)過處理之后,本系統(tǒng)達(dá)到 31FPS 的處理速度。
【參考文獻(xiàn)】:
期刊論文
[1]卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 李彥冬,郝宗波,雷航. 計(jì)算機(jī)應(yīng)用. 2016(09)
[2]基于FPGA和ARM的圖像采集系統(tǒng)設(shè)計(jì)[J]. 鐘磊,韓進(jìn). 電腦知識(shí)與技術(shù). 2012(01)
本文編號(hào):3139010
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:77 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
激活函數(shù)曲線
量化精度下實(shí)驗(yàn)結(jié)果與對(duì)比分析平臺(tái)及開發(fā)流程臺(tái)驗(yàn)平臺(tái)采用 Xilinx 公司的合作伙伴迪芝倫(Digilent)在 2016 推出的PYNQ-Z1,如圖 3.20 所示。PYNQ 作為一個(gè)新的開源框架體現(xiàn)了 Xilinthon 生產(chǎn)力,它類似于全可編程 SoC 開發(fā)套件(APSoc, All Program-chip),支持在板上直接使用 Python 語言來進(jìn)行開發(fā)和測試,所以q Socs 上的開發(fā)變得容易且高效。-Z1 的產(chǎn)品特點(diǎn):650MH 雙核 Cortex-A9 處理器、8 個(gè) DMA 通道I3 從端口的 DDR3 內(nèi)存控制器、高帶寬外設(shè)控制器、低帶寬外設(shè)控閃存和 microSD 卡以及 Artix-7 系列可編程邏輯[42]。
(b) 船 (d) 滑翔傘圖 4.8 檢測效果圖由圖4.8可知,經(jīng)過低精度量化(W1A5)后的網(wǎng)絡(luò)模型對(duì)小目標(biāo)的檢測效果良好。在實(shí)際使用中可以運(yùn)用在無人機(jī)高空作業(yè),并在背景較簡單的場景中對(duì)單個(gè)特定小目標(biāo)進(jìn)行檢測能達(dá)到很好的效果。4.4 本章小結(jié)本章結(jié)合二值化的量化思路和本文的加速方案實(shí)現(xiàn)了一個(gè)基于 Squeezenet 結(jié)構(gòu)的目標(biāo)檢測系統(tǒng)。本文將其計(jì)算負(fù)載分為 9 個(gè)部分,并提供了每一部分的性能。本章還引入圖像相似度對(duì)比算法來減少對(duì)視頻流的計(jì)算負(fù)載,達(dá)到一定的實(shí)時(shí)性效果。經(jīng)過處理之后,本系統(tǒng)達(dá)到 31FPS 的處理速度。
【參考文獻(xiàn)】:
期刊論文
[1]卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 李彥冬,郝宗波,雷航. 計(jì)算機(jī)應(yīng)用. 2016(09)
[2]基于FPGA和ARM的圖像采集系統(tǒng)設(shè)計(jì)[J]. 鐘磊,韓進(jìn). 電腦知識(shí)與技術(shù). 2012(01)
本文編號(hào):3139010
本文鏈接:http://sikaile.net/kejilunwen/dianzigongchenglunwen/3139010.html
最近更新
教材專著