矩陣乘協(xié)處理器上BLAS level-3運算的設計
發(fā)布時間:2022-12-04 23:33
BLAS level-3運算的計算復雜度較高,其往往成為應用的性能瓶頸。采用線性陣列結構的矩陣乘協(xié)處理器可實現(xiàn)高性能、高效的矩陣乘運算。在矩陣乘協(xié)處理器上高效實現(xiàn)BLAS level-3運算,對大規(guī)模科學與工程仿真應用的計算加速至關重要。以矩陣乘為核心運算,結合線性陣列的結構特點,提出了矩陣乘協(xié)處理器上BLAS level-3運算的設計,并構建了相應的性能分析模型。實驗結果表明,矩陣乘協(xié)處理器上SYMM、SYRK和TRMM運算的計算效率分別達到了99%,98%和80%,與SW26010和NVIDIA V100 GPU上矩陣運算的計算效率相比,最高提升了31%。
【文章頁數(shù)】:9 頁
【文章目錄】:
1 引言
2 矩陣乘協(xié)處理器的結構與性能
2.1 線性陣列結構
2.2 矩陣乘協(xié)處理器上矩陣乘的計算性能和效率
3 BLAS level-3運算至矩陣乘協(xié)處理器的映射
3.1 各運算至線性陣列結構的映射
3.2 性能分析模型
(1) SYMM。
(2) SYRK和SYR2K。
(3) TRMM。
(4) TRSM。
4 實驗結果與分析
5 結束語
【參考文獻】:
期刊論文
[1]雙精度浮點矩陣乘協(xié)處理器研究[J]. 賈迅,鄔貴明,謝向輝,吳東. 計算機研究與發(fā)展. 2019(02)
博士論文
[1]FPGA矩陣計算并行算法與結構[D]. 鄔貴明.國防科學技術大學 2011
本文編號:3709206
【文章頁數(shù)】:9 頁
【文章目錄】:
1 引言
2 矩陣乘協(xié)處理器的結構與性能
2.1 線性陣列結構
2.2 矩陣乘協(xié)處理器上矩陣乘的計算性能和效率
3 BLAS level-3運算至矩陣乘協(xié)處理器的映射
3.1 各運算至線性陣列結構的映射
3.2 性能分析模型
(1) SYMM。
(2) SYRK和SYR2K。
(3) TRMM。
(4) TRSM。
4 實驗結果與分析
5 結束語
【參考文獻】:
期刊論文
[1]雙精度浮點矩陣乘協(xié)處理器研究[J]. 賈迅,鄔貴明,謝向輝,吳東. 計算機研究與發(fā)展. 2019(02)
博士論文
[1]FPGA矩陣計算并行算法與結構[D]. 鄔貴明.國防科學技術大學 2011
本文編號:3709206
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3709206.html
最近更新
教材專著