卷積神經(jīng)網(wǎng)絡(luò)模型中的知識蒸餾研究
發(fā)布時間:2022-12-05 05:45
近些年來,隨著信息技術(shù)的發(fā)展,深度學(xué)習(xí)在諸多領(lǐng)域取得了優(yōu)異的成績,卷積神經(jīng)網(wǎng)絡(luò)已然在許多計算機視覺任務(wù)上起到了不可磨滅的貢獻(xiàn)。然而,卷積神經(jīng)網(wǎng)絡(luò)的高效性能是以資源的消耗為代價的,存在著參數(shù)量過多、計算量過大、能源消耗過大、運行時間過長等問題,無法保證在移動端、嵌入式設(shè)備等資源受限平臺上的應(yīng)用,影響著人們的日常生活。因此,針對卷積神經(jīng)網(wǎng)絡(luò)的模型壓縮的研究具有重要的意義。知識蒸餾是當(dāng)前模型壓縮方法中的一種有潛力的方法,其中,一個已預(yù)訓(xùn)練好的大模型稱為教師模型,待訓(xùn)練的小模型稱為學(xué)生模型,學(xué)生模型在教師模型傳遞的知識的指導(dǎo)下,能夠獲得更多的訓(xùn)練數(shù)據(jù)之間的結(jié)構(gòu)化信息,因此知識蒸餾能夠提升小模型的性能。本文分別從知識的定義、教師和學(xué)生的差異兩個角度,提出了兩種全新的知識蒸餾算法:1、基于三元組蒸餾的知識蒸餾算法,主要針對人臉識別任務(wù),在廣泛使用的Triplet loss的基礎(chǔ)上進(jìn)行優(yōu)化。該方法首先探討了原始的方法中忽略了普遍存在的“兩個人長得更像”的現(xiàn)象,因此提出了人臉相似程度的概念。并將其定義為一種教師的知識,隨后將其映射至合適的范圍作為動態(tài)的加性裕量傳遞給學(xué)生模型進(jìn)行訓(xùn)練。該方法在多個驗證集...
【文章頁數(shù)】:83 頁
【學(xué)位級別】:碩士
【文章目錄】:
致謝
摘要
Abstract
1 緒論
1.1 課題研究意義與背景
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 其他模型壓縮算法
1.2.2 知識蒸餾
1.2.3 人臉識別
1.3 本文的主要研究內(nèi)容
1.3.1 三元組蒸餾(TD)
1.3.2 多學(xué)生蒸餾(Mul Distill)
1.4 本文創(chuàng)新點與貢獻(xiàn)
1.5 本文結(jié)構(gòu)安排
2 卷積神經(jīng)網(wǎng)絡(luò)綜述
2.1 卷積神經(jīng)網(wǎng)絡(luò)基本單元
2.2 卷積神經(jīng)網(wǎng)絡(luò)模型
2.2.1 Res Net
2.2.2 Mobile Net系列
2.2.3 Mobile Face Net
2.3 本章小結(jié)
3 基于三元組蒸餾的模型壓縮算法
3.1 深度人臉識別算法
3.1.1 Arc Face loss
3.1.2 Triplet loss
3.2 三元組蒸餾算法
3.2.1 人臉相似程度
3.2.2 TD算法設(shè)計
3.2.3 教師及學(xué)生模型
3.3 實驗設(shè)計和結(jié)果
3.3.1 數(shù)據(jù)集介紹
3.3.2 實驗設(shè)置
3.3.3 實驗結(jié)果與分析
3.4 本章小結(jié)
4 基于多學(xué)生蒸餾的模型壓縮算法
4.1 分類任務(wù)上的知識蒸餾數(shù)學(xué)建模
4.2 多學(xué)生蒸餾算法
4.2.1 教師與學(xué)生差異分析
4.2.2 Mul Distill算法設(shè)計
4.2.3 多分支框架設(shè)計
4.3 實驗結(jié)果與分析
4.3.1 測試集分類結(jié)果
4.3.2 多樣性損失分析
4.3.3 相關(guān)因素影響
4.3.4 多分支算法結(jié)果
4.3.5 復(fù)雜度分析
4.4 本章小結(jié)與討論
5 總結(jié)與展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的研究成果
本文編號:3709805
【文章頁數(shù)】:83 頁
【學(xué)位級別】:碩士
【文章目錄】:
致謝
摘要
Abstract
1 緒論
1.1 課題研究意義與背景
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 其他模型壓縮算法
1.2.2 知識蒸餾
1.2.3 人臉識別
1.3 本文的主要研究內(nèi)容
1.3.1 三元組蒸餾(TD)
1.3.2 多學(xué)生蒸餾(Mul Distill)
1.4 本文創(chuàng)新點與貢獻(xiàn)
1.5 本文結(jié)構(gòu)安排
2 卷積神經(jīng)網(wǎng)絡(luò)綜述
2.1 卷積神經(jīng)網(wǎng)絡(luò)基本單元
2.2 卷積神經(jīng)網(wǎng)絡(luò)模型
2.2.1 Res Net
2.2.2 Mobile Net系列
2.2.3 Mobile Face Net
2.3 本章小結(jié)
3 基于三元組蒸餾的模型壓縮算法
3.1 深度人臉識別算法
3.1.1 Arc Face loss
3.1.2 Triplet loss
3.2 三元組蒸餾算法
3.2.1 人臉相似程度
3.2.2 TD算法設(shè)計
3.2.3 教師及學(xué)生模型
3.3 實驗設(shè)計和結(jié)果
3.3.1 數(shù)據(jù)集介紹
3.3.2 實驗設(shè)置
3.3.3 實驗結(jié)果與分析
3.4 本章小結(jié)
4 基于多學(xué)生蒸餾的模型壓縮算法
4.1 分類任務(wù)上的知識蒸餾數(shù)學(xué)建模
4.2 多學(xué)生蒸餾算法
4.2.1 教師與學(xué)生差異分析
4.2.2 Mul Distill算法設(shè)計
4.2.3 多分支框架設(shè)計
4.3 實驗結(jié)果與分析
4.3.1 測試集分類結(jié)果
4.3.2 多樣性損失分析
4.3.3 相關(guān)因素影響
4.3.4 多分支算法結(jié)果
4.3.5 復(fù)雜度分析
4.4 本章小結(jié)與討論
5 總結(jié)與展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的研究成果
本文編號:3709805
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3709805.html
最近更新
教材專著