天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計(jì)算機(jī)論文 >

基于AVX2指令集的深度學(xué)習(xí)混合運(yùn)算策略

發(fā)布時(shí)間:2023-03-26 23:05
  由于圖形處理器(GPU)內(nèi)存容量有限,其所能承載的深度學(xué)習(xí)網(wǎng)絡(luò)模型規(guī)模受到很大限制。該文提出了一種深度學(xué)習(xí)混合運(yùn)算策略,借助于Intel新的單指令多數(shù)據(jù)AVX2指令集,充分挖掘CPU對(duì)GPU的輔助支撐潛力。為節(jié)省GPU內(nèi)存,將中間數(shù)據(jù)規(guī)模較大的網(wǎng)絡(luò)層放在CPU端計(jì)算,并通過AVX2指令集提高CPU端的計(jì)算效率。核心技術(shù)點(diǎn)包括網(wǎng)絡(luò)模型的切分與協(xié)調(diào)、基于AVX2指令的應(yīng)用代碼矢量化等。上述策略最終在Caffe上實(shí)現(xiàn)。在包括CIFAR-10、 ImageNet在內(nèi)的典型數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:采用混合運(yùn)算策略后,Caffe能夠正常運(yùn)行更大型神經(jīng)網(wǎng)絡(luò)模型,并保持較高的執(zhí)行效率。

【文章頁數(shù)】:7 頁

【文章目錄】:
1 相關(guān)工作
2 神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的混合運(yùn)算
    2.1 神經(jīng)網(wǎng)絡(luò)
    2.2 深度學(xué)習(xí)混合運(yùn)算
3 基于AVX2指令集的深度學(xué)習(xí)混合運(yùn)算策略
    3.1 網(wǎng)絡(luò)劃分
        1) 網(wǎng)絡(luò)層內(nèi)存使用量的統(tǒng)計(jì)。
        2) 網(wǎng)絡(luò)層計(jì)算量的統(tǒng)計(jì)。
        3) 網(wǎng)絡(luò)分組決策。
    3.2 基于AVX2指令集的CPU運(yùn)算加速
        1) 代碼矢量化。
        2) 通用代碼優(yōu)化。
    3.3 OpenMP多線程并行
        1) 卷積層。
        2) 池化層。
        3) Softmax層。
        4) 全連接層(內(nèi)積層)。
    3.4 訓(xùn)練與測試并行
4 測試與分析
    4.1 測試環(huán)境
    4.2 測試方案
        1) 測試混合運(yùn)算策略能否按照配置的GPU內(nèi)存限制劃分網(wǎng)絡(luò)。
        2) 測試ACaffe基于AVX2指令集加速后混合運(yùn)算模式速度的提升。
        3) 測試不同顯存限制下混合運(yùn)算策略的表現(xiàn)。
    4.3 結(jié)果分析
5 結(jié) 論



本文編號(hào):3771925

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3771925.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9aa22***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com