基于AVX2指令集的深度學(xué)習(xí)混合運(yùn)算策略
發(fā)布時(shí)間:2023-03-26 23:05
由于圖形處理器(GPU)內(nèi)存容量有限,其所能承載的深度學(xué)習(xí)網(wǎng)絡(luò)模型規(guī)模受到很大限制。該文提出了一種深度學(xué)習(xí)混合運(yùn)算策略,借助于Intel新的單指令多數(shù)據(jù)AVX2指令集,充分挖掘CPU對(duì)GPU的輔助支撐潛力。為節(jié)省GPU內(nèi)存,將中間數(shù)據(jù)規(guī)模較大的網(wǎng)絡(luò)層放在CPU端計(jì)算,并通過(guò)AVX2指令集提高CPU端的計(jì)算效率。核心技術(shù)點(diǎn)包括網(wǎng)絡(luò)模型的切分與協(xié)調(diào)、基于AVX2指令的應(yīng)用代碼矢量化等。上述策略最終在Caffe上實(shí)現(xiàn)。在包括CIFAR-10、 ImageNet在內(nèi)的典型數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:采用混合運(yùn)算策略后,Caffe能夠正常運(yùn)行更大型神經(jīng)網(wǎng)絡(luò)模型,并保持較高的執(zhí)行效率。
【文章頁(yè)數(shù)】:7 頁(yè)
【文章目錄】:
1 相關(guān)工作
2 神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的混合運(yùn)算
2.1 神經(jīng)網(wǎng)絡(luò)
2.2 深度學(xué)習(xí)混合運(yùn)算
3 基于AVX2指令集的深度學(xué)習(xí)混合運(yùn)算策略
3.1 網(wǎng)絡(luò)劃分
1) 網(wǎng)絡(luò)層內(nèi)存使用量的統(tǒng)計(jì)。
2) 網(wǎng)絡(luò)層計(jì)算量的統(tǒng)計(jì)。
3) 網(wǎng)絡(luò)分組決策。
3.2 基于AVX2指令集的CPU運(yùn)算加速
1) 代碼矢量化。
2) 通用代碼優(yōu)化。
3.3 OpenMP多線程并行
1) 卷積層。
2) 池化層。
3) Softmax層。
4) 全連接層(內(nèi)積層)。
3.4 訓(xùn)練與測(cè)試并行
4 測(cè)試與分析
4.1 測(cè)試環(huán)境
4.2 測(cè)試方案
1) 測(cè)試混合運(yùn)算策略能否按照配置的GPU內(nèi)存限制劃分網(wǎng)絡(luò)。
2) 測(cè)試ACaffe基于AVX2指令集加速后混合運(yùn)算模式速度的提升。
3) 測(cè)試不同顯存限制下混合運(yùn)算策略的表現(xiàn)。
4.3 結(jié)果分析
5 結(jié) 論
本文編號(hào):3771925
【文章頁(yè)數(shù)】:7 頁(yè)
【文章目錄】:
1 相關(guān)工作
2 神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的混合運(yùn)算
2.1 神經(jīng)網(wǎng)絡(luò)
2.2 深度學(xué)習(xí)混合運(yùn)算
3 基于AVX2指令集的深度學(xué)習(xí)混合運(yùn)算策略
3.1 網(wǎng)絡(luò)劃分
1) 網(wǎng)絡(luò)層內(nèi)存使用量的統(tǒng)計(jì)。
2) 網(wǎng)絡(luò)層計(jì)算量的統(tǒng)計(jì)。
3) 網(wǎng)絡(luò)分組決策。
3.2 基于AVX2指令集的CPU運(yùn)算加速
1) 代碼矢量化。
2) 通用代碼優(yōu)化。
3.3 OpenMP多線程并行
1) 卷積層。
2) 池化層。
3) Softmax層。
4) 全連接層(內(nèi)積層)。
3.4 訓(xùn)練與測(cè)試并行
4 測(cè)試與分析
4.1 測(cè)試環(huán)境
4.2 測(cè)試方案
1) 測(cè)試混合運(yùn)算策略能否按照配置的GPU內(nèi)存限制劃分網(wǎng)絡(luò)。
2) 測(cè)試ACaffe基于AVX2指令集加速后混合運(yùn)算模式速度的提升。
3) 測(cè)試不同顯存限制下混合運(yùn)算策略的表現(xiàn)。
4.3 結(jié)果分析
5 結(jié) 論
本文編號(hào):3771925
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3771925.html
最近更新
教材專著