基于AVX2指令集的深度學(xué)習(xí)混合運(yùn)算策略

發(fā)布時(shí)間：2023-03-26 23:05

　　由于圖形處理器(GPU)內(nèi)存容量有限,其所能承載的深度學(xué)習(xí)網(wǎng)絡(luò)模型規(guī)模受到很大限制。該文提出了一種深度學(xué)習(xí)混合運(yùn)算策略,借助于Intel新的單指令多數(shù)據(jù)AVX2指令集,充分挖掘CPU對(duì)GPU的輔助支撐潛力。為節(jié)省GPU內(nèi)存,將中間數(shù)據(jù)規(guī)模較大的網(wǎng)絡(luò)層放在CPU端計(jì)算,并通過AVX2指令集提高CPU端的計(jì)算效率。核心技術(shù)點(diǎn)包括網(wǎng)絡(luò)模型的切分與協(xié)調(diào)、基于AVX2指令的應(yīng)用代碼矢量化等。上述策略最終在Caffe上實(shí)現(xiàn)。在包括CIFAR-10、 ImageNet在內(nèi)的典型數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:采用混合運(yùn)算策略后,Caffe能夠正常運(yùn)行更大型神經(jīng)網(wǎng)絡(luò)模型,并保持較高的執(zhí)行效率。

【文章頁數(shù)】：7 頁

【文章目錄】：
1 相關(guān)工作
2 神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的混合運(yùn)算
    2.1 神經(jīng)網(wǎng)絡(luò)
    2.2 深度學(xué)習(xí)混合運(yùn)算
3 基于AVX2指令集的深度學(xué)習(xí)混合運(yùn)算策略
    3.1 網(wǎng)絡(luò)劃分
        1) 網(wǎng)絡(luò)層內(nèi)存使用量的統(tǒng)計(jì)。
        2) 網(wǎng)絡(luò)層計(jì)算量的統(tǒng)計(jì)。
        3) 網(wǎng)絡(luò)分組決策。
    3.2 基于AVX2指令集的CPU運(yùn)算加速
        1) 代碼矢量化。
        2) 通用代碼優(yōu)化。
    3.3 OpenMP多線程并行
        1) 卷積層。
        2) 池化層。
        3) Softmax層。
        4) 全連接層(內(nèi)積層)。
    3.4 訓(xùn)練與測試并行
4 測試與分析
    4.1 測試環(huán)境
    4.2 測試方案
        1) 測試混合運(yùn)算策略能否按照配置的GPU內(nèi)存限制劃分網(wǎng)絡(luò)。
        2) 測試ACaffe基于AVX2指令集加速后混合運(yùn)算模式速度的提升。
        3) 測試不同顯存限制下混合運(yùn)算策略的表現(xiàn)。
    4.3 結(jié)果分析
5 結(jié) 論

本文編號(hào)：3771925

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3771925.html

上一篇：未來教師計(jì)算思維的培養(yǎng)途徑探索
下一篇：基于FCSAN心跳的電力云平臺(tái)虛擬機(jī)HA實(shí)現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于AVX2指令集的深度學(xué)習(xí)混合運(yùn)算策略