深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練優(yōu)化方法研究
發(fā)布時(shí)間:2022-07-09 17:05
目前,深度學(xué)習(xí)方法已經(jīng)廣泛地應(yīng)用于人類的社會(huì)生產(chǎn)和生活的各個(gè)方面,例如,物體識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理以及無(wú)人駕駛等許多方面,大幅度地提升了人類社會(huì)的生產(chǎn)和生活的智能化水平。然而,深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練優(yōu)化仍然被認(rèn)為是比較困難的事情,需要大量的經(jīng)驗(yàn)和技巧。深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練優(yōu)化作為深度學(xué)習(xí)的基礎(chǔ)理論的重要部分,對(duì)深度學(xué)習(xí)應(yīng)用具有基礎(chǔ)性的支撐作用。目前神經(jīng)網(wǎng)絡(luò)的初始化方法大多數(shù)是與網(wǎng)絡(luò)深度無(wú)關(guān)、深度神經(jīng)網(wǎng)絡(luò)的權(quán)值空間中存在的對(duì)稱性給神經(jīng)網(wǎng)絡(luò)訓(xùn)練帶來(lái)了不利影響、Adam算法存在收斂性和泛化性問(wèn)題、對(duì)深度經(jīng)網(wǎng)絡(luò)損失曲面的了解還很有限。因此本論文圍繞著如何高效率地訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),重點(diǎn)研究解決這些問(wèn)題的方法。本論文的主要貢獻(xiàn)包括以下幾個(gè)方面:(1)提出了基于權(quán)值縮放不變的歸一化方法。神經(jīng)深度網(wǎng)絡(luò)的權(quán)值空間中的對(duì)稱性對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練有不利影響,研究者提出了多種方法解決該問(wèn)題,但計(jì)算開(kāi)銷都比較大。本論文根據(jù)Relu網(wǎng)絡(luò)本身的權(quán)值縮放不變性,提出了基于權(quán)值縮放不變的歸一化來(lái)解決該問(wèn)題,即在訓(xùn)練過(guò)程中通過(guò)執(zhí)行逐點(diǎn)權(quán)值縮放變換來(lái)對(duì)神經(jīng)網(wǎng)絡(luò)的權(quán)值進(jìn)行調(diào)整,包括激活向前傳播時(shí)的層內(nèi)調(diào)整和梯度向后傳播時(shí)的層間調(diào)整...
【文章頁(yè)數(shù)】:169 頁(yè)
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
Abstract
主要符號(hào)對(duì)照表
第一章 緒論
1.1 研究背景與意義
1.1.1 研究背景
1.1.2 研究意義
1.2 研究問(wèn)題分解
1.3 本論文研究?jī)?nèi)容與主要貢獻(xiàn)
1.4 本論文組織結(jié)構(gòu)
第二章 深度神經(jīng)網(wǎng)絡(luò)優(yōu)化問(wèn)題概述
2.1 深度神經(jīng)網(wǎng)絡(luò)初始化方法研究現(xiàn)狀
2.1.1 常用的神經(jīng)網(wǎng)絡(luò)初始化方法
2.1.2 最近幾種新穎的神經(jīng)網(wǎng)絡(luò)初始化
2.1.3 深度隨機(jī)神經(jīng)網(wǎng)絡(luò)信號(hào)傳播
2.2 深度神經(jīng)網(wǎng)絡(luò)歸一化研究現(xiàn)狀
2.2.1 常用歸一化方法
2.2.2 其它歸一化技術(shù)
2.3 深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練優(yōu)化算法研究現(xiàn)狀
2.3.1 訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)一階優(yōu)化算法
2.3.2 訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)二階優(yōu)化算法
2.4 深度神經(jīng)網(wǎng)絡(luò)全局優(yōu)化研究現(xiàn)狀
2.4.1 深度神經(jīng)網(wǎng)絡(luò)損失曲面的關(guān)鍵點(diǎn)
2.4.2 深度神經(jīng)網(wǎng)絡(luò)損失曲面的幾何性質(zhì)
2.4.3 深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)動(dòng)力學(xué)
第三章 深度神經(jīng)網(wǎng)絡(luò)的歸一化和初始化方法
3.1 深度神經(jīng)網(wǎng)絡(luò)歸一化研究
3.1.1 深度神經(jīng)網(wǎng)絡(luò)權(quán)值空間的對(duì)稱性
3.1.2 基于縮放不變的權(quán)值歸一方法
3.1.3 實(shí)驗(yàn)結(jié)果
3.2 深度神經(jīng)網(wǎng)絡(luò)初始化研究
3.2.1 網(wǎng)絡(luò)模型和理論工具
3.2.2 理論分析
3.2.3 修正的正交初始化
3.2.4 實(shí)驗(yàn)結(jié)果
3.3 本章小結(jié)
第四章 深度神經(jīng)網(wǎng)絡(luò)的自適應(yīng)梯度優(yōu)化方法
4.1 本章引言
4.2 預(yù)備知識(shí)
4.3 Adam類型優(yōu)化算法的動(dòng)力學(xué)分析與軌跡分析
4.3.1 Adam類型優(yōu)化算法的動(dòng)力學(xué)分析
4.3.2 Adam和 SGD的優(yōu)化軌跡對(duì)比分析
4.4 具有動(dòng)態(tài)動(dòng)量和基礎(chǔ)學(xué)習(xí)率的自適應(yīng)梯度方法
4.4.1 算法的實(shí)現(xiàn)細(xì)節(jié)
4.4.2 算法收斂性分析
4.5 本章實(shí)驗(yàn)
4.5.1 參數(shù)設(shè)置
4.5.2 圖像分類任務(wù)
4.5.3 語(yǔ)言建模任務(wù)
4.6 本章小結(jié)
第五章 單調(diào)策略優(yōu)化算法
5.1 本章引言
5.2 相關(guān)工作
5.3 基礎(chǔ)準(zhǔn)備
5.4 單調(diào)的策略優(yōu)化算法
5.4.1 策略改進(jìn)的下界
5.4.2 單調(diào)的策略優(yōu)化算法的提出
5.5 實(shí)驗(yàn)分析
5.5.1 仿真實(shí)驗(yàn)建立
5.5.2 實(shí)驗(yàn)結(jié)果
5.6 本章小結(jié)
第六章 深度神經(jīng)網(wǎng)絡(luò)損失曲面的探索
6.1 本章引言
6.2 實(shí)驗(yàn)工具
6.2.1 插值法
6.2.2 特征值計(jì)算方法
6.2.3 模式連接
6.3 本章實(shí)驗(yàn)
6.3.1 實(shí)驗(yàn)的設(shè)置
6.3.2 各種優(yōu)化算法的軌跡
6.3.3 各種優(yōu)化算法軌跡處損失曲面的幾何性質(zhì)
6.3.4 等價(jià)局部極小點(diǎn)間的連通路徑
6.4 本章小結(jié)
第七章 基于權(quán)值縮放不變的深度神經(jīng)網(wǎng)絡(luò)集成
7.1 本章引言
7.2 相關(guān)工作
7.2.1 個(gè)體網(wǎng)絡(luò)模型生成方法
7.2.2 神經(jīng)網(wǎng)絡(luò)“隱式”集成方法
7.2.3 神經(jīng)網(wǎng)絡(luò)模型選擇方法
7.3 神經(jīng)網(wǎng)絡(luò)集成方法與模型選擇方法
7.3.1 集成學(xué)習(xí)基礎(chǔ)與多樣性度量
7.3.2 基于權(quán)值縮放不變的神經(jīng)網(wǎng)絡(luò)集成方法
7.3.3 模型選擇方法
7.4 實(shí)驗(yàn)分析
7.4.1 實(shí)驗(yàn)設(shè)置
7.4.2 實(shí)驗(yàn)結(jié)果
7.5 本章小結(jié)
第八章 總結(jié)與展望
8.1 論文工作總結(jié)
8.2 今后工作展望
參考文獻(xiàn)
附錄
致謝
附件
本文編號(hào):3657497
【文章頁(yè)數(shù)】:169 頁(yè)
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
Abstract
主要符號(hào)對(duì)照表
第一章 緒論
1.1 研究背景與意義
1.1.1 研究背景
1.1.2 研究意義
1.2 研究問(wèn)題分解
1.3 本論文研究?jī)?nèi)容與主要貢獻(xiàn)
1.4 本論文組織結(jié)構(gòu)
第二章 深度神經(jīng)網(wǎng)絡(luò)優(yōu)化問(wèn)題概述
2.1 深度神經(jīng)網(wǎng)絡(luò)初始化方法研究現(xiàn)狀
2.1.1 常用的神經(jīng)網(wǎng)絡(luò)初始化方法
2.1.2 最近幾種新穎的神經(jīng)網(wǎng)絡(luò)初始化
2.1.3 深度隨機(jī)神經(jīng)網(wǎng)絡(luò)信號(hào)傳播
2.2 深度神經(jīng)網(wǎng)絡(luò)歸一化研究現(xiàn)狀
2.2.1 常用歸一化方法
2.2.2 其它歸一化技術(shù)
2.3 深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練優(yōu)化算法研究現(xiàn)狀
2.3.1 訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)一階優(yōu)化算法
2.3.2 訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)二階優(yōu)化算法
2.4 深度神經(jīng)網(wǎng)絡(luò)全局優(yōu)化研究現(xiàn)狀
2.4.1 深度神經(jīng)網(wǎng)絡(luò)損失曲面的關(guān)鍵點(diǎn)
2.4.2 深度神經(jīng)網(wǎng)絡(luò)損失曲面的幾何性質(zhì)
2.4.3 深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)動(dòng)力學(xué)
第三章 深度神經(jīng)網(wǎng)絡(luò)的歸一化和初始化方法
3.1 深度神經(jīng)網(wǎng)絡(luò)歸一化研究
3.1.1 深度神經(jīng)網(wǎng)絡(luò)權(quán)值空間的對(duì)稱性
3.1.2 基于縮放不變的權(quán)值歸一方法
3.1.3 實(shí)驗(yàn)結(jié)果
3.2 深度神經(jīng)網(wǎng)絡(luò)初始化研究
3.2.1 網(wǎng)絡(luò)模型和理論工具
3.2.2 理論分析
3.2.3 修正的正交初始化
3.2.4 實(shí)驗(yàn)結(jié)果
3.3 本章小結(jié)
第四章 深度神經(jīng)網(wǎng)絡(luò)的自適應(yīng)梯度優(yōu)化方法
4.1 本章引言
4.2 預(yù)備知識(shí)
4.3 Adam類型優(yōu)化算法的動(dòng)力學(xué)分析與軌跡分析
4.3.1 Adam類型優(yōu)化算法的動(dòng)力學(xué)分析
4.3.2 Adam和 SGD的優(yōu)化軌跡對(duì)比分析
4.4 具有動(dòng)態(tài)動(dòng)量和基礎(chǔ)學(xué)習(xí)率的自適應(yīng)梯度方法
4.4.1 算法的實(shí)現(xiàn)細(xì)節(jié)
4.4.2 算法收斂性分析
4.5 本章實(shí)驗(yàn)
4.5.1 參數(shù)設(shè)置
4.5.2 圖像分類任務(wù)
4.5.3 語(yǔ)言建模任務(wù)
4.6 本章小結(jié)
第五章 單調(diào)策略優(yōu)化算法
5.1 本章引言
5.2 相關(guān)工作
5.3 基礎(chǔ)準(zhǔn)備
5.4 單調(diào)的策略優(yōu)化算法
5.4.1 策略改進(jìn)的下界
5.4.2 單調(diào)的策略優(yōu)化算法的提出
5.5 實(shí)驗(yàn)分析
5.5.1 仿真實(shí)驗(yàn)建立
5.5.2 實(shí)驗(yàn)結(jié)果
5.6 本章小結(jié)
第六章 深度神經(jīng)網(wǎng)絡(luò)損失曲面的探索
6.1 本章引言
6.2 實(shí)驗(yàn)工具
6.2.1 插值法
6.2.2 特征值計(jì)算方法
6.2.3 模式連接
6.3 本章實(shí)驗(yàn)
6.3.1 實(shí)驗(yàn)的設(shè)置
6.3.2 各種優(yōu)化算法的軌跡
6.3.3 各種優(yōu)化算法軌跡處損失曲面的幾何性質(zhì)
6.3.4 等價(jià)局部極小點(diǎn)間的連通路徑
6.4 本章小結(jié)
第七章 基于權(quán)值縮放不變的深度神經(jīng)網(wǎng)絡(luò)集成
7.1 本章引言
7.2 相關(guān)工作
7.2.1 個(gè)體網(wǎng)絡(luò)模型生成方法
7.2.2 神經(jīng)網(wǎng)絡(luò)“隱式”集成方法
7.2.3 神經(jīng)網(wǎng)絡(luò)模型選擇方法
7.3 神經(jīng)網(wǎng)絡(luò)集成方法與模型選擇方法
7.3.1 集成學(xué)習(xí)基礎(chǔ)與多樣性度量
7.3.2 基于權(quán)值縮放不變的神經(jīng)網(wǎng)絡(luò)集成方法
7.3.3 模型選擇方法
7.4 實(shí)驗(yàn)分析
7.4.1 實(shí)驗(yàn)設(shè)置
7.4.2 實(shí)驗(yàn)結(jié)果
7.5 本章小結(jié)
第八章 總結(jié)與展望
8.1 論文工作總結(jié)
8.2 今后工作展望
參考文獻(xiàn)
附錄
致謝
附件
本文編號(hào):3657497
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/3657497.html
最近更新
教材專著