基于8bit量化神經(jīng)網(wǎng)絡(luò)的人臉檢測識別算法設(shè)計與FPGA驗證
發(fā)布時間:2021-01-10 21:02
人臉檢測識別技術(shù)操作友好用途廣泛,已經(jīng)成為社會生活中最重要的生物特征識別技術(shù)之一,基于深度卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測識別方法相較傳統(tǒng)方法擁有更好的準(zhǔn)確性和可擴(kuò)展性,但其存儲、傳輸與計算的成本也更高。使用數(shù)值量化方法可以降低深度卷積神經(jīng)網(wǎng)絡(luò)的運行成本,配合針對優(yōu)化的硬件設(shè)計,能在有限的資源下實現(xiàn)較高的處理速度,若能在量化的同時保持檢測識別的準(zhǔn)確性,即有望實現(xiàn)高效的終端人臉檢測識別系統(tǒng),為智慧城市、智能物聯(lián)網(wǎng)等下一代應(yīng)用場景補(bǔ)上技術(shù)上的關(guān)鍵一環(huán)。本文首先總結(jié)了人臉檢測、人臉識別、神經(jīng)網(wǎng)絡(luò)量化與硬件加速的代表性方法。然后,優(yōu)化DoReFa-Net算法改變量化數(shù)據(jù)分布形式,提高量化模型的存儲空間利用率,經(jīng)測試,在8-bit量化精度下,可保持模型準(zhǔn)確率且獲得較高的壓縮率和加速效果;赮OLO算法設(shè)計端到端的8-bit量化人臉檢測網(wǎng)絡(luò),在提升檢測速度的同時也能取得較高的準(zhǔn)確率;贑enterFace算法設(shè)計低類內(nèi)距離高類間距離的8-bit量化人臉識別網(wǎng)絡(luò),使誤識更少,識別類別可擴(kuò)展性更強(qiáng)。在此基礎(chǔ)上,通過多層次的并行計算擴(kuò)展和數(shù)據(jù)復(fù)用優(yōu)化,實現(xiàn)了低帶寬需求、高吞吐率以及高資源利用率的通用卷積神經(jīng)網(wǎng)...
【文章來源】:東南大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:117 頁
【學(xué)位級別】:碩士
【部分圖文】:
空間金字塔池化示意圖
調(diào)參優(yōu)化。目前為止YOLO先后推出了v1、v2和v3三個版本,每一版都在前作的基礎(chǔ)上做了升級優(yōu)化。本節(jié)將對YOLO的設(shè)計理念、相關(guān)結(jié)構(gòu)以及關(guān)鍵環(huán)節(jié)進(jìn)行說明,在第三章將介紹如何將其用于人臉檢測。2.3.1設(shè)計理念YOLO[15]的全稱是YouOnlyLookOnce,意思是這個網(wǎng)絡(luò)工作時“只需看一遍”——整張圖片經(jīng)過一次網(wǎng)絡(luò)評估便能得到相關(guān)對象的預(yù)測位置和類別,這得益于YOLO將此前目標(biāo)檢測環(huán)節(jié)的各個組件統(tǒng)一到單個神經(jīng)網(wǎng)絡(luò)。如圖2-18所示,YOLO處理圖像只需要三步:圖像調(diào)整、卷積神經(jīng)網(wǎng)絡(luò)運算、多余(低置信度、重疊)預(yù)測框去除。圖2-18YOLO圖像處理流程[17]圖像調(diào)整的目的是將輸入圖片規(guī)格化為網(wǎng)絡(luò)的輸入尺寸,雖然對于全卷積神經(jīng)網(wǎng)絡(luò)(不包含全連階層)而言這一步不是必需的,但合理的輸入尺寸對控制計算量也很有幫助。卷積神經(jīng)網(wǎng)絡(luò)是YOLO的靈魂核心,網(wǎng)絡(luò)的輸入是整張圖片,網(wǎng)絡(luò)的輸出特征向量是預(yù)測的邊界框位置、含有檢測目標(biāo)的置信度以及目標(biāo)類別,網(wǎng)絡(luò)進(jìn)行的是“端到端(endtoend)”的學(xué)習(xí)。為了避免輸出特征向量之間發(fā)生競爭或位置出現(xiàn)過大漂移,YOLO引入了網(wǎng)格(gridcell)的概念,輸出特征向量中的某組預(yù)測值只負(fù)責(zé)檢測以該組對應(yīng)網(wǎng)格為中心的目標(biāo),如圖2-19所示。
東南大學(xué)工程碩士學(xué)位論文30圖2-19YOLO中基于網(wǎng)格的檢測框預(yù)測與類別評分機(jī)制[17]網(wǎng)絡(luò)的輸出是定長的特征向量,由固定數(shù)量(幾百或幾千)的預(yù)測框信息組成。大部分預(yù)測框內(nèi)不包含目標(biāo)物體,其對應(yīng)的置信度值很小,可以通過設(shè)定的置信度閾值直接篩掉;有一部分預(yù)測框包含的是同一個目標(biāo)物體,使用非極大值抑制(Non-MaximumSuppression,NMS)方法保留其中置信度最高的一個。2.3.2網(wǎng)絡(luò)結(jié)構(gòu)高效的算法搭配合適的基礎(chǔ)骨干(backbone)網(wǎng)絡(luò),才能充分發(fā)揮出深度學(xué)習(xí)方法的性能。YOLO的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)幾經(jīng)更迭,多次引入先進(jìn)的網(wǎng)絡(luò)設(shè)計思想,使網(wǎng)絡(luò)的速度和準(zhǔn)確率都取得了穩(wěn)步提升。YOLOv1使用的基礎(chǔ)網(wǎng)絡(luò)參考了GoogLeNet的結(jié)構(gòu),采用1×1的卷積核壓縮通道,7×7和3×3的卷積核提取特征,整個網(wǎng)絡(luò)由24個卷積層、4個最大池化層以及2個全連接層組成,如圖2-20所示,括號內(nèi)為卷積/全連接層的核類型,如[7×7×64,s=2]代表卷積核尺寸為7×7,輸出通道64,步長為2,默認(rèn)步長為1。文中還提出了FastYOLO,這是YOLO的一個輕量級網(wǎng)絡(luò)結(jié)構(gòu)版本,其中采用了9個卷積層,每層通道也做了削減,從而使計算量大幅降低,在結(jié)果精度上稍有損失,但處理速度提升了數(shù)倍。卷積層最大池化1層層[7×7×64,s=2]卷積層最大池化1層層[3×3×192]卷積層最大池化4層層[1×1×128][3×3×256][1×1×256][3×3×512]卷積層最大池化10層層[1×1×256][3×3×512][1×1×512][3×3×1024]卷積層8層[1×1×512][3×3×1024][3×3×1024][3×3×1024,s=2]全連接層2層[1024×4096][4096×30][3×3×1024][3×3×1024]輸入輸出×4×2圖2-20YOLOv1網(wǎng)絡(luò)結(jié)構(gòu)
【參考文獻(xiàn)】:
期刊論文
[1]ASM姿態(tài)矯正結(jié)合字典學(xué)習(xí)優(yōu)化的人臉識別[J]. 鐘小莉. 計算機(jī)工程與設(shè)計. 2018(11)
[2]基于深度殘差網(wǎng)絡(luò)的行人人臉識別算法研究[J]. 易鋒,胡馨瑩. 電腦知識與技術(shù). 2018(23)
[3]基于區(qū)域特征的快速人臉檢測法[J]. 盧春雨,張長水,聞芳,閻平凡. 清華大學(xué)學(xué)報(自然科學(xué)版). 1999(01)
博士論文
[1]基于深度學(xué)習(xí)的暴力檢測及人臉識別方法研究[D]. 丁春輝.中國科學(xué)技術(shù)大學(xué) 2017
碩士論文
[1]基于人臉檢測YOLO算法的專用型卷積神經(jīng)網(wǎng)絡(luò)推理加速器的研究與設(shè)計[D]. 羅聰.華南理工大學(xué) 2018
[2]基于HLS的Tiny-yolo卷積神經(jīng)網(wǎng)絡(luò)加速研究[D]. 張麗麗.重慶大學(xué) 2017
本文編號:2969406
【文章來源】:東南大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:117 頁
【學(xué)位級別】:碩士
【部分圖文】:
空間金字塔池化示意圖
調(diào)參優(yōu)化。目前為止YOLO先后推出了v1、v2和v3三個版本,每一版都在前作的基礎(chǔ)上做了升級優(yōu)化。本節(jié)將對YOLO的設(shè)計理念、相關(guān)結(jié)構(gòu)以及關(guān)鍵環(huán)節(jié)進(jìn)行說明,在第三章將介紹如何將其用于人臉檢測。2.3.1設(shè)計理念YOLO[15]的全稱是YouOnlyLookOnce,意思是這個網(wǎng)絡(luò)工作時“只需看一遍”——整張圖片經(jīng)過一次網(wǎng)絡(luò)評估便能得到相關(guān)對象的預(yù)測位置和類別,這得益于YOLO將此前目標(biāo)檢測環(huán)節(jié)的各個組件統(tǒng)一到單個神經(jīng)網(wǎng)絡(luò)。如圖2-18所示,YOLO處理圖像只需要三步:圖像調(diào)整、卷積神經(jīng)網(wǎng)絡(luò)運算、多余(低置信度、重疊)預(yù)測框去除。圖2-18YOLO圖像處理流程[17]圖像調(diào)整的目的是將輸入圖片規(guī)格化為網(wǎng)絡(luò)的輸入尺寸,雖然對于全卷積神經(jīng)網(wǎng)絡(luò)(不包含全連階層)而言這一步不是必需的,但合理的輸入尺寸對控制計算量也很有幫助。卷積神經(jīng)網(wǎng)絡(luò)是YOLO的靈魂核心,網(wǎng)絡(luò)的輸入是整張圖片,網(wǎng)絡(luò)的輸出特征向量是預(yù)測的邊界框位置、含有檢測目標(biāo)的置信度以及目標(biāo)類別,網(wǎng)絡(luò)進(jìn)行的是“端到端(endtoend)”的學(xué)習(xí)。為了避免輸出特征向量之間發(fā)生競爭或位置出現(xiàn)過大漂移,YOLO引入了網(wǎng)格(gridcell)的概念,輸出特征向量中的某組預(yù)測值只負(fù)責(zé)檢測以該組對應(yīng)網(wǎng)格為中心的目標(biāo),如圖2-19所示。
東南大學(xué)工程碩士學(xué)位論文30圖2-19YOLO中基于網(wǎng)格的檢測框預(yù)測與類別評分機(jī)制[17]網(wǎng)絡(luò)的輸出是定長的特征向量,由固定數(shù)量(幾百或幾千)的預(yù)測框信息組成。大部分預(yù)測框內(nèi)不包含目標(biāo)物體,其對應(yīng)的置信度值很小,可以通過設(shè)定的置信度閾值直接篩掉;有一部分預(yù)測框包含的是同一個目標(biāo)物體,使用非極大值抑制(Non-MaximumSuppression,NMS)方法保留其中置信度最高的一個。2.3.2網(wǎng)絡(luò)結(jié)構(gòu)高效的算法搭配合適的基礎(chǔ)骨干(backbone)網(wǎng)絡(luò),才能充分發(fā)揮出深度學(xué)習(xí)方法的性能。YOLO的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)幾經(jīng)更迭,多次引入先進(jìn)的網(wǎng)絡(luò)設(shè)計思想,使網(wǎng)絡(luò)的速度和準(zhǔn)確率都取得了穩(wěn)步提升。YOLOv1使用的基礎(chǔ)網(wǎng)絡(luò)參考了GoogLeNet的結(jié)構(gòu),采用1×1的卷積核壓縮通道,7×7和3×3的卷積核提取特征,整個網(wǎng)絡(luò)由24個卷積層、4個最大池化層以及2個全連接層組成,如圖2-20所示,括號內(nèi)為卷積/全連接層的核類型,如[7×7×64,s=2]代表卷積核尺寸為7×7,輸出通道64,步長為2,默認(rèn)步長為1。文中還提出了FastYOLO,這是YOLO的一個輕量級網(wǎng)絡(luò)結(jié)構(gòu)版本,其中采用了9個卷積層,每層通道也做了削減,從而使計算量大幅降低,在結(jié)果精度上稍有損失,但處理速度提升了數(shù)倍。卷積層最大池化1層層[7×7×64,s=2]卷積層最大池化1層層[3×3×192]卷積層最大池化4層層[1×1×128][3×3×256][1×1×256][3×3×512]卷積層最大池化10層層[1×1×256][3×3×512][1×1×512][3×3×1024]卷積層8層[1×1×512][3×3×1024][3×3×1024][3×3×1024,s=2]全連接層2層[1024×4096][4096×30][3×3×1024][3×3×1024]輸入輸出×4×2圖2-20YOLOv1網(wǎng)絡(luò)結(jié)構(gòu)
【參考文獻(xiàn)】:
期刊論文
[1]ASM姿態(tài)矯正結(jié)合字典學(xué)習(xí)優(yōu)化的人臉識別[J]. 鐘小莉. 計算機(jī)工程與設(shè)計. 2018(11)
[2]基于深度殘差網(wǎng)絡(luò)的行人人臉識別算法研究[J]. 易鋒,胡馨瑩. 電腦知識與技術(shù). 2018(23)
[3]基于區(qū)域特征的快速人臉檢測法[J]. 盧春雨,張長水,聞芳,閻平凡. 清華大學(xué)學(xué)報(自然科學(xué)版). 1999(01)
博士論文
[1]基于深度學(xué)習(xí)的暴力檢測及人臉識別方法研究[D]. 丁春輝.中國科學(xué)技術(shù)大學(xué) 2017
碩士論文
[1]基于人臉檢測YOLO算法的專用型卷積神經(jīng)網(wǎng)絡(luò)推理加速器的研究與設(shè)計[D]. 羅聰.華南理工大學(xué) 2018
[2]基于HLS的Tiny-yolo卷積神經(jīng)網(wǎng)絡(luò)加速研究[D]. 張麗麗.重慶大學(xué) 2017
本文編號:2969406
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2969406.html
最近更新
教材專著