基于申威1600的3級BLAS GEMM函數(shù)優(yōu)化
發(fā)布時間:2017-10-14 08:11
本文關鍵詞:基于申威1600的3級BLAS GEMM函數(shù)優(yōu)化
更多相關文章: 申威 三級BLAS GEMM 高性能計算 多核
【摘要】:BLAS是當前科學計算領域重要的底層支持數(shù)學庫之一,其中的3級BLAS函數(shù)應用最為廣泛.本文基于國產(chǎn)申威1600平臺,提出了一種基礎線性代數(shù)庫BLAS的三級函數(shù)通用矩陣乘GEMM的高性能實現(xiàn)方法.在單核上,使用乘加指令、循環(huán)展開、軟件流水線指令重排、SIMD向量化運算、寄存器分塊技術等與平臺架構相關的技術手段,實現(xiàn)匯編級手工優(yōu)化;在多核上,提出了適用于該平臺的多線程加速方案.實驗結果顯示,在單核串行性能測試中,與知名開源數(shù)學庫Goto BLAS相比,我們實現(xiàn)了平均4.72倍的加速效果;在多核并行擴展測試中,4線程版的性能則平均達到了單線程版性能的3.02倍.
【作者單位】: 中國科學院軟件研究所;中國科學院大學;
【關鍵詞】: 申威 三級BLAS GEMM 高性能計算 多核
【基金】:國家自然科學基金(91530103,91530323)
【分類號】:TP38
【正文快照】: 1引言1.1背景介紹BLAS(Basic Linear Algebra Subprograms)是一個線性代數(shù)核心子程序的集合,主要包括向量和矩陣的基本操作.它是最基本和最重要的數(shù)學庫之一,廣泛應用于科學工程計算.目前世界上有關矩陣運算的軟件幾乎都調(diào)用BLAS數(shù)學庫;重要的稠密線性代數(shù)算法軟件包(如EISPAC,
本文編號:1029950
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1029950.html
最近更新
教材專著