通信高效的分布式并行隨機(jī)優(yōu)化算法的研究
發(fā)布時間:2022-10-18 18:41
隨著大數(shù)據(jù)時代的到來,機(jī)器學(xué)習(xí)模型規(guī)模變得越來越大,隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)算法及其分布式并行變體成為大規(guī)模機(jī)器學(xué)習(xí)任務(wù)的主要優(yōu)化算法。雖然現(xiàn)有的分布式隨機(jī)梯度下降算法在理論上具有優(yōu)秀的線性加速比性質(zhì),但是由于在實踐中分布式訓(xùn)練需要引入額外的通信開銷,這些算法很難實現(xiàn)真正的線性時間加速比。因此,設(shè)計通信高效的分布式并行算法在機(jī)器學(xué)習(xí)的研究中至關(guān)重要。本文從兩種不同的角度提出改進(jìn)算法以減小分布式優(yōu)化中的通信代價。針對大規(guī)模深度學(xué)習(xí)任務(wù),我們提出計算與通信解耦的分布式隨機(jī)梯度下降(Computation and Communication Decoupled SGD,CoCoD-SGD)算法,通過并行執(zhí)行計算和通信以減小通信開銷。我們從理論上證明了所提出的算法在同構(gòu)和異構(gòu)兩種計算環(huán)境中都具有線性加速比。另外,相比于已有的分布式優(yōu)化算法,所提出的算法具有更低的通信開銷和更高的時間加速比。具體來說,當(dāng)使用N個計算設(shè)備協(xié)同地進(jìn)行T次迭代,CoCoD-SGD的通信復(fù)雜度為O(N3/4T3/4),與目前最優(yōu)的算法局部隨機(jī)梯度下降(Local-SG...
【文章頁數(shù)】:86 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景
1.1.1 關(guān)注的問題
1.1.2 基本算法
1.2 研究現(xiàn)狀與研究動機(jī)
1.3 符號、定義和假設(shè)
1.3.1 符號
1.3.2 定義
1.3.3 假設(shè)
1.4 本文主要貢獻(xiàn)
1.5 本文組織結(jié)構(gòu)
第2章 相關(guān)工作
2.1 通信高效的分布式隨機(jī)優(yōu)化算法
2.1.1 高效通信算法
2.1.2 低通信復(fù)雜度算法
2.1.3 計算和通信并行
2.2 Local-SGD算法擴(kuò)展
2.2.1 聯(lián)邦學(xué)習(xí)場景
2.2.2 自適應(yīng)通信周期
2.2.3 利用方差約減加速
2.3 階段性算法
第3章 CoCoD-SGD算法
3.1 算法流程
3.2 CoCoD-SGD相關(guān)理論
3.2.1 收斂性分析
3.2.2 時間加速比分析
第4章 STL-SGD算法
4.1 元算法:Local-SGD
4.2 STL-SGD算法
4.2.1 STL-SGD~(sc)算法
4.2.2 STL-SGD~(nc)算法
4.3 與已有研究結(jié)果的對比
第5章 實驗
5.1 CoCoD-SGD算法的相關(guān)實驗
5.1.1 實驗設(shè)置
5.1.2 同構(gòu)環(huán)境
5.1.3 異構(gòu)環(huán)境
5.2 STL-SGD算法的相關(guān)實驗
5.2.1 凸問題
5.2.2 非凸問題
第6章 總結(jié)與展望
6.1 研究內(nèi)容總結(jié)
6.2 工作展望
參考文獻(xiàn)
補(bǔ)充材料
.1 第3章中理論結(jié)果的證明
.2 第4章中部分理論結(jié)果的證明
致謝
在讀期間發(fā)表的學(xué)術(shù)論文與取得的研究成果
本文編號:3692848
【文章頁數(shù)】:86 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景
1.1.1 關(guān)注的問題
1.1.2 基本算法
1.2 研究現(xiàn)狀與研究動機(jī)
1.3 符號、定義和假設(shè)
1.3.1 符號
1.3.2 定義
1.3.3 假設(shè)
1.4 本文主要貢獻(xiàn)
1.5 本文組織結(jié)構(gòu)
第2章 相關(guān)工作
2.1 通信高效的分布式隨機(jī)優(yōu)化算法
2.1.1 高效通信算法
2.1.2 低通信復(fù)雜度算法
2.1.3 計算和通信并行
2.2 Local-SGD算法擴(kuò)展
2.2.1 聯(lián)邦學(xué)習(xí)場景
2.2.2 自適應(yīng)通信周期
2.2.3 利用方差約減加速
2.3 階段性算法
第3章 CoCoD-SGD算法
3.1 算法流程
3.2 CoCoD-SGD相關(guān)理論
3.2.1 收斂性分析
3.2.2 時間加速比分析
第4章 STL-SGD算法
4.1 元算法:Local-SGD
4.2 STL-SGD算法
4.2.1 STL-SGD~(sc)算法
4.2.2 STL-SGD~(nc)算法
4.3 與已有研究結(jié)果的對比
第5章 實驗
5.1 CoCoD-SGD算法的相關(guān)實驗
5.1.1 實驗設(shè)置
5.1.2 同構(gòu)環(huán)境
5.1.3 異構(gòu)環(huán)境
5.2 STL-SGD算法的相關(guān)實驗
5.2.1 凸問題
5.2.2 非凸問題
第6章 總結(jié)與展望
6.1 研究內(nèi)容總結(jié)
6.2 工作展望
參考文獻(xiàn)
補(bǔ)充材料
.1 第3章中理論結(jié)果的證明
.2 第4章中部分理論結(jié)果的證明
致謝
在讀期間發(fā)表的學(xué)術(shù)論文與取得的研究成果
本文編號:3692848
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3692848.html
最近更新
教材專著