基于查找表的深度卷積神經(jīng)網(wǎng)絡(luò)的模型壓縮與推斷加速
發(fā)布時(shí)間:2021-05-18 20:13
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在目標(biāo)檢測(cè)、圖像分類(lèi)領(lǐng)域有著廣泛的應(yīng)用,但由于其海量的參數(shù)量和計(jì)算量限制了在算力匱乏的移動(dòng)終端上的部署。參數(shù)量化(Parameter Quantization)可以有效降低模型存儲(chǔ)空間、提升運(yùn)算速度,是降低CNN計(jì)算負(fù)載的方式之一。當(dāng)CNN中乘法的乘數(shù)均被量化,所有乘數(shù)組合的乘積可在推斷前預(yù)先計(jì)算并存儲(chǔ),原本的乘法操作可替換為在乘積查找表(Lookup Table,LUT)中的查值操作。相比于浮點(diǎn)乘法,基于查找表的乘法具有占用資源少、運(yùn)算效率高的優(yōu)點(diǎn)。然而由于模型的不同層級(jí)、不同通道之間參數(shù)的分布差異較大,此前基于查找表的CNN為維持模型量化后的性能,往往采用較大規(guī)模的查找表存儲(chǔ)乘積,或者各卷積層獨(dú)立進(jìn)行量化,每層采用獨(dú)立的乘法查找表存儲(chǔ)乘積的結(jié)果。以上兩個(gè)方式導(dǎo)致查找表內(nèi)存占用過(guò)大、內(nèi)存反復(fù)重載成本高等問(wèn)題。為解決上述問(wèn)題,本文通過(guò)引入權(quán)重標(biāo)準(zhǔn)化(Weight Standardization)操作使各層分布趨同,從而CNN的不同層次可以共用同一個(gè)查找表;同時(shí),本文引入迭代式聚類(lèi)的參數(shù)非均勻量化方式,補(bǔ)償參...
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:71 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景及研究意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 卷積神經(jīng)網(wǎng)絡(luò)壓縮技術(shù)概述
1.2.2 卷積神經(jīng)網(wǎng)絡(luò)的硬件級(jí)加速技術(shù)概述
1.3 主要內(nèi)容與貢獻(xiàn)
1.4 本文的組織結(jié)構(gòu)
第2章 相關(guān)理論及技術(shù)介紹
2.1 深度卷積神經(jīng)網(wǎng)絡(luò)介紹
2.1.1 卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練與推斷
2.1.2 卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
2.1.3 卷積神經(jīng)網(wǎng)絡(luò)算力評(píng)估
2.2 量化技術(shù)基礎(chǔ)理論介紹
2.2.1 權(quán)重與激活值的量化
2.2.2 量化感知訓(xùn)練
2.3 FPGA及基于HLS的開(kāi)發(fā)技術(shù)介紹
2.3.1 現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)介紹
2.3.2 基于HLS進(jìn)行FPGA開(kāi)發(fā)
第3章 基于查找表的卷積神經(jīng)網(wǎng)絡(luò)壓縮算法研究
3.1 背景與動(dòng)機(jī)
3.2 基于查找表的卷積神經(jīng)網(wǎng)絡(luò)量化壓縮算法
3.2.1 量化算法流程
3.2.2 權(quán)重標(biāo)準(zhǔn)化
3.2.3 激活值量化
3.2.4 權(quán)重聚類(lèi)以及權(quán)重量化
3.3 基于查找表的推斷優(yōu)化
3.4 實(shí)驗(yàn)方法與實(shí)驗(yàn)結(jié)果
3.4.1 實(shí)驗(yàn)配置
3.4.2 權(quán)重標(biāo)準(zhǔn)化操作的性能對(duì)比分析
3.4.3 基于查找表的CNN性能分析
3.4.4 基于查找表的CNN與其他低比特量化網(wǎng)絡(luò)的性能對(duì)比
3.5 本章小結(jié)
第4章 基于查找表的神經(jīng)網(wǎng)絡(luò)推斷在FPGA上的實(shí)現(xiàn)
4.1 整體架構(gòu)設(shè)計(jì)
4.2 基于FPGA的查找表CNN實(shí)現(xiàn)
4.2.1 部署流程
4.2.2 基于查找表的卷積模塊設(shè)計(jì)
4.2.3 池化層的實(shí)現(xiàn)
4.2.4 全連接層的實(shí)現(xiàn)
4.3 實(shí)驗(yàn)方法與實(shí)驗(yàn)結(jié)果
4.3.1 實(shí)驗(yàn)平臺(tái)介紹
4.3.2 實(shí)驗(yàn)網(wǎng)絡(luò)及參數(shù)配置
4.3.3 驗(yàn)證流程
4.3.4 基于查找表的卷積層實(shí)現(xiàn)性能分析
4.3.5 硬件架構(gòu)性能測(cè)試
4.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其他成果
致謝
本文編號(hào):3194417
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:71 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景及研究意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 卷積神經(jīng)網(wǎng)絡(luò)壓縮技術(shù)概述
1.2.2 卷積神經(jīng)網(wǎng)絡(luò)的硬件級(jí)加速技術(shù)概述
1.3 主要內(nèi)容與貢獻(xiàn)
1.4 本文的組織結(jié)構(gòu)
第2章 相關(guān)理論及技術(shù)介紹
2.1 深度卷積神經(jīng)網(wǎng)絡(luò)介紹
2.1.1 卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練與推斷
2.1.2 卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
2.1.3 卷積神經(jīng)網(wǎng)絡(luò)算力評(píng)估
2.2 量化技術(shù)基礎(chǔ)理論介紹
2.2.1 權(quán)重與激活值的量化
2.2.2 量化感知訓(xùn)練
2.3 FPGA及基于HLS的開(kāi)發(fā)技術(shù)介紹
2.3.1 現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)介紹
2.3.2 基于HLS進(jìn)行FPGA開(kāi)發(fā)
第3章 基于查找表的卷積神經(jīng)網(wǎng)絡(luò)壓縮算法研究
3.1 背景與動(dòng)機(jī)
3.2 基于查找表的卷積神經(jīng)網(wǎng)絡(luò)量化壓縮算法
3.2.1 量化算法流程
3.2.2 權(quán)重標(biāo)準(zhǔn)化
3.2.3 激活值量化
3.2.4 權(quán)重聚類(lèi)以及權(quán)重量化
3.3 基于查找表的推斷優(yōu)化
3.4 實(shí)驗(yàn)方法與實(shí)驗(yàn)結(jié)果
3.4.1 實(shí)驗(yàn)配置
3.4.2 權(quán)重標(biāo)準(zhǔn)化操作的性能對(duì)比分析
3.4.3 基于查找表的CNN性能分析
3.4.4 基于查找表的CNN與其他低比特量化網(wǎng)絡(luò)的性能對(duì)比
3.5 本章小結(jié)
第4章 基于查找表的神經(jīng)網(wǎng)絡(luò)推斷在FPGA上的實(shí)現(xiàn)
4.1 整體架構(gòu)設(shè)計(jì)
4.2 基于FPGA的查找表CNN實(shí)現(xiàn)
4.2.1 部署流程
4.2.2 基于查找表的卷積模塊設(shè)計(jì)
4.2.3 池化層的實(shí)現(xiàn)
4.2.4 全連接層的實(shí)現(xiàn)
4.3 實(shí)驗(yàn)方法與實(shí)驗(yàn)結(jié)果
4.3.1 實(shí)驗(yàn)平臺(tái)介紹
4.3.2 實(shí)驗(yàn)網(wǎng)絡(luò)及參數(shù)配置
4.3.3 驗(yàn)證流程
4.3.4 基于查找表的卷積層實(shí)現(xiàn)性能分析
4.3.5 硬件架構(gòu)性能測(cè)試
4.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其他成果
致謝
本文編號(hào):3194417
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3194417.html
最近更新
教材專著