機(jī)器學(xué)習(xí)中的一階優(yōu)化算法收斂性研究
發(fā)布時(shí)間:2025-02-11 17:40
由于具有對(duì)目標(biāo)函數(shù)的假設(shè)較弱,收斂速度快和易于實(shí)現(xiàn)等特點(diǎn),一階優(yōu)化算法被廣泛應(yīng)用于求解機(jī)器學(xué)習(xí)模型參數(shù)。然而傳統(tǒng)的一階優(yōu)化算法在實(shí)現(xiàn)時(shí)會(huì)遇到各種各樣的問題。一方面,隨著數(shù)據(jù)規(guī)模的爆發(fā)式增長(zhǎng)和深度神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)模型中參數(shù)規(guī)模不斷增加,傳統(tǒng)的確定性數(shù)值優(yōu)化算法有計(jì)算量過大的問題。另一方面,數(shù)值優(yōu)化領(lǐng)域中討論的一階算法分析往往基于最壞計(jì)算復(fù)雜度。由于實(shí)際當(dāng)中最壞情況往往不會(huì)出現(xiàn),實(shí)際中傳統(tǒng)的隨機(jī)梯度下降等方法在求解過程中可能浪費(fèi)大量的迭代。為此,機(jī)器學(xué)習(xí)領(lǐng)域的研究者們提出了ADAGRAD等針對(duì)凸問題的隨機(jī)自適應(yīng)算法,這些方法通過利用隨機(jī)梯度的歷史信息來自適應(yīng)地更新步長(zhǎng),在實(shí)際應(yīng)用中通常有更好的性能。但是,目前大量的機(jī)器學(xué)習(xí)任務(wù)(如深度神經(jīng)網(wǎng)絡(luò))的目標(biāo)函數(shù)為非凸函數(shù),在非凸情況下大部分上述算法在理論層面尚缺乏收斂性保證。綜上,研究實(shí)用、收斂速度更快的優(yōu)化算法是機(jī)器學(xué)習(xí)理論中的一個(gè)重要挑戰(zhàn)。為此,本文重點(diǎn)研究能同時(shí)提升理論收斂速度和實(shí)際表現(xiàn)的一階優(yōu)化算法,具體包括四個(gè)方面:1)研究了 KL不等式在非凸矩陣秩最小化問題上的應(yīng)用,證明了當(dāng)目標(biāo)函數(shù)滿足KL性質(zhì)時(shí)關(guān)于奇異值的非凸規(guī)范化項(xiàng)可被傳統(tǒng)的近鄰...
【文章頁(yè)數(shù)】:137 頁(yè)
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 基本問題描述
1.2 本文貢獻(xiàn)
第2章 背景介紹
2.1 基本性質(zhì)和標(biāo)記定義
2.1.1 計(jì)算復(fù)雜度和收斂速度
2.1.2 標(biāo)記定義
2.2 相關(guān)工作
2.2.1 誤差界和Kurdyka-Lojasiewicz性質(zhì)
2.2.2 隨機(jī)梯度下降法和自適應(yīng)算法簡(jiǎn)介
2.2.3 非凸優(yōu)化算法簡(jiǎn)介
2.2.4 方差減小的隨機(jī)一階算法
第3章 基于迭代閾值收縮的非凸矩陣秩最小化算法
3.1 矩陣秩最小化問題和非凸規(guī)范化項(xiàng)
3.2 重加權(quán)的非凸奇異值規(guī)范化項(xiàng)收斂結(jié)果分析
3.3 多個(gè)矩陣的秩最小化問題
3.4 實(shí)際實(shí)現(xiàn)中的問題和解決方案
3.5 矩陣補(bǔ)全問題中的算法驗(yàn)證
3.5.1 人造數(shù)據(jù)集
3.5.2 圖像數(shù)據(jù)集
3.5.3 多個(gè)域的推薦問題
第4章 SADAGRAD:強(qiáng)自適應(yīng)的隨機(jī)梯度算法
4.1 二階增長(zhǎng)條件下的強(qiáng)自適應(yīng)的隨機(jī)次梯度算法
4.2 SADAGRAD算法基于近鄰算法的變種
4.3 實(shí)際應(yīng)用中的SADAGRAD算法變種
4.4 SADAGRAD算法在滿足局部誤差界假設(shè)下的擴(kuò)展
4.5 實(shí)驗(yàn)驗(yàn)證
第5章 非凸優(yōu)化中統(tǒng)一的階段化學(xué)習(xí)方法框架
5.1 階段化優(yōu)化算法框架
5.2 具體的階段化優(yōu)化算法
5.2.1 階段化的隨機(jī)梯度下降法
5.2.2 階段化的動(dòng)量隨機(jī)梯度法
5.2.3 階段化的自適應(yīng)算法
5.3 實(shí)驗(yàn)驗(yàn)證
第6章 Stagewise-Katyusha:階段化的加速的方差減小隨機(jī)梯度下降法
6.1 Stagewise-Katyusha算法和假設(shè)
6.2 收斂性分析
第7章 總結(jié)
參考文獻(xiàn)
附錄A 第3章證明
A.1 定理3.6證明
A.2 引理3.7證明
A.3 定理3.9證明
附錄B 第4章證明
B.1 命題4.1證明
B.2 定理4.2證明
B.3 定理4.4證明
B.4 定理4.5證明
B.5 定理4.7證明
B.6 定理4.8證明
附錄C 第5章證明
C.1 定理5.3證明
C.2 定理5.5證明
C.3 定理5.7證明
C.4 引理5.4證明
C.5 引理5.6證明
致謝
在讀期間發(fā)表的學(xué)術(shù)論文與取得的研究成果
本文編號(hào):4033617
【文章頁(yè)數(shù)】:137 頁(yè)
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 基本問題描述
1.2 本文貢獻(xiàn)
第2章 背景介紹
2.1 基本性質(zhì)和標(biāo)記定義
2.1.1 計(jì)算復(fù)雜度和收斂速度
2.1.2 標(biāo)記定義
2.2 相關(guān)工作
2.2.1 誤差界和Kurdyka-Lojasiewicz性質(zhì)
2.2.2 隨機(jī)梯度下降法和自適應(yīng)算法簡(jiǎn)介
2.2.3 非凸優(yōu)化算法簡(jiǎn)介
2.2.4 方差減小的隨機(jī)一階算法
第3章 基于迭代閾值收縮的非凸矩陣秩最小化算法
3.1 矩陣秩最小化問題和非凸規(guī)范化項(xiàng)
3.2 重加權(quán)的非凸奇異值規(guī)范化項(xiàng)收斂結(jié)果分析
3.3 多個(gè)矩陣的秩最小化問題
3.4 實(shí)際實(shí)現(xiàn)中的問題和解決方案
3.5 矩陣補(bǔ)全問題中的算法驗(yàn)證
3.5.1 人造數(shù)據(jù)集
3.5.2 圖像數(shù)據(jù)集
3.5.3 多個(gè)域的推薦問題
第4章 SADAGRAD:強(qiáng)自適應(yīng)的隨機(jī)梯度算法
4.1 二階增長(zhǎng)條件下的強(qiáng)自適應(yīng)的隨機(jī)次梯度算法
4.2 SADAGRAD算法基于近鄰算法的變種
4.3 實(shí)際應(yīng)用中的SADAGRAD算法變種
4.4 SADAGRAD算法在滿足局部誤差界假設(shè)下的擴(kuò)展
4.5 實(shí)驗(yàn)驗(yàn)證
第5章 非凸優(yōu)化中統(tǒng)一的階段化學(xué)習(xí)方法框架
5.1 階段化優(yōu)化算法框架
5.2 具體的階段化優(yōu)化算法
5.2.1 階段化的隨機(jī)梯度下降法
5.2.2 階段化的動(dòng)量隨機(jī)梯度法
5.2.3 階段化的自適應(yīng)算法
5.3 實(shí)驗(yàn)驗(yàn)證
第6章 Stagewise-Katyusha:階段化的加速的方差減小隨機(jī)梯度下降法
6.1 Stagewise-Katyusha算法和假設(shè)
6.2 收斂性分析
第7章 總結(jié)
參考文獻(xiàn)
附錄A 第3章證明
A.1 定理3.6證明
A.2 引理3.7證明
A.3 定理3.9證明
附錄B 第4章證明
B.1 命題4.1證明
B.2 定理4.2證明
B.3 定理4.4證明
B.4 定理4.5證明
B.5 定理4.7證明
B.6 定理4.8證明
附錄C 第5章證明
C.1 定理5.3證明
C.2 定理5.5證明
C.3 定理5.7證明
C.4 引理5.4證明
C.5 引理5.6證明
致謝
在讀期間發(fā)表的學(xué)術(shù)論文與取得的研究成果
本文編號(hào):4033617
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/4033617.html
最近更新
教材專著