天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 計算機論文 >

面向飛騰多核處理器的Winograd快速卷積算法優(yōu)化

發(fā)布時間:2021-06-26 15:15
  隨著深度學習的快速發(fā)展,卷積神經(jīng)網(wǎng)絡已廣泛應用于計算機視覺、自然語言處理等人工智能領域中.Winograd快速卷積算法因能有效降低卷積神經(jīng)網(wǎng)絡中卷積操作的計算復雜度而受到廣泛關注.隨著國防科技大學自主研制的飛騰多核處理器在智能領域的推廣應用,對面向飛騰多核處理器的高性能卷積實現(xiàn)提出了強烈需求.針對飛騰多核處理器的體系結構特征與Wingorad快速卷積算法的計算特點,提出了一種高性能并行Winograd快速卷積算法.該算法不依賴通用矩陣乘庫函數(shù),由卷積核轉換、輸入特征圖轉換、逐元素乘、輸出特征圖逆變換等4個部分構成,融合設計了4個部分的數(shù)據(jù)操作,并設計了與之配套的數(shù)據(jù)布局、多級并行數(shù)據(jù)轉換算法與多級并行矩陣乘算法,實現(xiàn)訪存性能以及算法整體性能的提升.在兩款飛騰多核處理器上的測試結果顯示,與開源庫ACL和NNPACK中的Winograd快速卷積實現(xiàn)相比,該算法分別能獲得1.05~16.11倍與1.66~16.90倍的性能加速;集成到開源框架Mxnet后,該算法使得VGG16網(wǎng)絡的前向計算獲得了3.01~6.79倍的性能加速. 

【文章來源】:計算機研究與發(fā)展. 2020,57(06)北大核心EICSCD

【文章頁數(shù)】:12 頁

【部分圖文】:

面向飛騰多核處理器的Winograd快速卷積算法優(yōu)化


不同版本Mxnet之間的性能加速比

特征圖,算法,特征圖,逆轉換


z=ATuA→z=AT(ATuT)T.(10)根據(jù)上述分析,本文基于式(7)~(10)提出了基于scatter與packing為一體的數(shù)據(jù)轉換算法,卷積核轉換、輸入特征圖轉換以及輸出特征圖逆轉換分別如算法2中行①~(11)、行(12)~(24)、行(39)~(53)所示.

矩陣圖,矩陣,算法


在逐元素乘部分,實質上是執(zhí)行δ2個矩陣大小分別為K×C與C×(B×Γ×Λ)的實數(shù)矩陣乘.從并行計算的角度來看,可以從δ2,K以及B×Γ×Λ等3個維度進行并行處理.在飛騰多核處理器中,即可利用單核中的向量單元進行數(shù)據(jù)級并行計算,也可利用多個核心進行線程級并行處理.為有效開發(fā)飛騰多核處理器的計算潛力,需要在向量數(shù)據(jù)級并行與多核線程級并行之間進行權衡設計.同時考慮到矩陣是由數(shù)據(jù)轉換過程中采用scatter方式構建的,以及還將基于矩陣乘的結果采用gather方式構建輸出特征圖逆變換的輸入小矩陣u,本文提出了如算法2中行(25)~(38)所示的矩陣乘實現(xiàn).本文選擇采用向量單元來同時計算S個矩陣乘.由于飛騰多核處理器的片上存儲通常至少依次由寄存器、一級緩存和二級緩存等層次構成,本文也通過矩陣分塊的方式來提升每一層次的數(shù)據(jù)重用性.矩陣G,D和U分別被劃分成大小為Cl1×Kr×S的子矩陣 g ? 、大小為Cl1×Br×S的子矩陣 d ? 以及大小為Br×Kr×S的子矩陣 u ? . 每個子矩陣 u ? 的計算方法為

【參考文獻】:
期刊論文
[1]基于Intel平臺的Winograd快速卷積算法研究與優(yōu)化[J]. 武錚,安虹,金旭,遲孟賢,呂國鋒,文可,周鑫.  計算機研究與發(fā)展. 2019(04)



本文編號:3251580

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3251580.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶28a8f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com