天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計(jì)算機(jī)論文 >

矩陣乘協(xié)處理器上BLAS level-3運(yùn)算的設(shè)計(jì)

發(fā)布時(shí)間:2022-12-04 23:33
  BLAS level-3運(yùn)算的計(jì)算復(fù)雜度較高,其往往成為應(yīng)用的性能瓶頸。采用線性陣列結(jié)構(gòu)的矩陣乘協(xié)處理器可實(shí)現(xiàn)高性能、高效的矩陣乘運(yùn)算。在矩陣乘協(xié)處理器上高效實(shí)現(xiàn)BLAS level-3運(yùn)算,對(duì)大規(guī)?茖W(xué)與工程仿真應(yīng)用的計(jì)算加速至關(guān)重要。以矩陣乘為核心運(yùn)算,結(jié)合線性陣列的結(jié)構(gòu)特點(diǎn),提出了矩陣乘協(xié)處理器上BLAS level-3運(yùn)算的設(shè)計(jì),并構(gòu)建了相應(yīng)的性能分析模型。實(shí)驗(yàn)結(jié)果表明,矩陣乘協(xié)處理器上SYMM、SYRK和TRMM運(yùn)算的計(jì)算效率分別達(dá)到了99%,98%和80%,與SW26010和NVIDIA V100 GPU上矩陣運(yùn)算的計(jì)算效率相比,最高提升了31%。 

【文章頁數(shù)】:9 頁

【文章目錄】:
1 引言
2 矩陣乘協(xié)處理器的結(jié)構(gòu)與性能
    2.1 線性陣列結(jié)構(gòu)
    2.2 矩陣乘協(xié)處理器上矩陣乘的計(jì)算性能和效率
3 BLAS level-3運(yùn)算至矩陣乘協(xié)處理器的映射
    3.1 各運(yùn)算至線性陣列結(jié)構(gòu)的映射
    3.2 性能分析模型
        (1) SYMM。
        (2) SYRK和SYR2K。
        (3) TRMM。
        (4) TRSM。
4 實(shí)驗(yàn)結(jié)果與分析
5 結(jié)束語


【參考文獻(xiàn)】:
期刊論文
[1]雙精度浮點(diǎn)矩陣乘協(xié)處理器研究[J]. 賈迅,鄔貴明,謝向輝,吳東.  計(jì)算機(jī)研究與發(fā)展. 2019(02)

博士論文
[1]FPGA矩陣計(jì)算并行算法與結(jié)構(gòu)[D]. 鄔貴明.國(guó)防科學(xué)技術(shù)大學(xué) 2011



本文編號(hào):3709206

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3709206.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶17e54***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com