細(xì)粒度任務(wù)并行GPU通用矩陣乘
本文選題:通用矩陣乘 切入點:持久化kernel 出處:《計算機工程與科學(xué)》2015年05期
【摘要】:稠密線性代數(shù)運算對模式識別和生物信息等許多實際應(yīng)用至關(guān)重要,而通用矩陣乘(GEMM)處于稠密線性代數(shù)運算的基礎(chǔ)地位。在cuBLAS與MAGMA中,GEMM被實現(xiàn)為若干kernel函數(shù),對大型GEMM計算能夠達(dá)到很高的性能。然而,現(xiàn)有實現(xiàn)對批量的小型GEMM計算性能發(fā)揮則較為有限。而且,現(xiàn)有實現(xiàn)也不能在多個具有不同性能的GPU之間自動擴展并達(dá)到負(fù)載均衡。提出任務(wù)并行式GEMM(TPGEMM),用細(xì)粒度任務(wù)并行的方式實現(xiàn)批量矩陣乘和多GPU矩陣乘。一個或多個GEMM的計算能夠被拆分為多個任務(wù),動態(tài)地調(diào)度到一個或多個GPU上。TPGEMM避免了為批量矩陣乘啟動多個kernel函數(shù)的開銷,對批量矩陣乘能夠取得顯著高于cuBLAS與MAGMA的性能。在低開銷細(xì)粒度任務(wù)調(diào)度的基礎(chǔ)上,TPGEMM支持單個GEMM計算在多個GPU間的自動并行,在一臺具有四個不同性能GPU的工作站上取得了接近100%的擴展效率。
[Abstract]:Dense linear algebraic operations are very important for many practical applications, such as pattern recognition and biological information, while general-purpose matrix multiplication is the basis of dense linear algebraic operations. In cuBLAS and MAGMA, they are implemented as several kernel functions. High performance can be achieved for large GEMM computing. However, the performance of existing implementations for batch small GEMM computing is limited. The existing implementation can not automatically extend and achieve load balance among multiple GPU with different performance. This paper proposes a task-parallel GPU matrix multiplication, which implements batch matrix multiplication and multiple GPU matrix multiplication by fine-grained task parallelism. The calculation of GEMM can be split into multiple tasks, Dynamically scheduling to one or more GPU. TPGEMM avoids the overhead of starting multiple kernel functions for batch matrix multiplication. The performance of batch matrix multiplication is significantly higher than that of cuBLAS and MAGMA. On the basis of low overhead fine-grained task scheduling, TPGEMM supports automatic parallelism of single GEMM computation between multiple GPU. Nearly 100% expansion efficiency is achieved on a workstation with four different performance GPU.
【作者單位】: 南開大學(xué)計算機與控制工程學(xué)院;
【分類號】:TP338.6
【共引文獻(xiàn)】
相關(guān)期刊論文 前3條
1 林關(guān)成;;實驗教學(xué)中心集群渲染系統(tǒng)的構(gòu)建與測試[J];信息技術(shù);2014年03期
2 肖華東;孫婧;魏敏;李娟;沈瑜;;高性能計算機系統(tǒng)相對持續(xù)性能度量模型[J];計算機工程與應(yīng)用;2015年05期
3 劉剛;張恒;張滇;毛睿;;基于龍芯3B處理器的Linpack優(yōu)化實現(xiàn)[J];深圳大學(xué)學(xué)報(理工版);2014年03期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 孫偉;李艷靈;周文勇;;細(xì)粒度基于傳遞功能的約束委托模型[J];信陽師范學(xué)院學(xué)報(自然科學(xué)版);2013年03期
2 夏汛;陳玲;;基于攔截器的細(xì)粒度權(quán)限設(shè)計[J];福建電腦;2012年11期
3 歐陽純萍;陽小華;雷龍艷;徐強;余穎;劉志明;;多策略中文微博細(xì)粒度情緒分析研究[J];北京大學(xué)學(xué)報(自然科學(xué)版);2014年01期
4 史大偉;袁天偉;;一種粗細(xì)粒度結(jié)合的動態(tài)污點分析方法[J];計算機工程;2014年03期
5 戢彥泓,郭常杰,鐘玉琢,孫立峰;基于細(xì)粒度可擴展編碼的多源視頻流化方案[J];清華大學(xué)學(xué)報(自然科學(xué)版);2004年04期
6 涂登彪;譚光明;孫凝暉;;無鎖同步的細(xì)粒度并行介度中心算法[J];軟件學(xué)報;2011年05期
7 張宇軒;魏廷存;樊曉椏;張萌;;面向流體系的細(xì)粒度異步訪存調(diào)度[J];計算機應(yīng)用研究;2012年03期
8 原子;于莉莉;劉超;;引入缺陷的細(xì)粒度軟件變更識別方法[J];北京航空航天大學(xué)學(xué)報;2014年09期
9 王寬;;基于細(xì)粒度調(diào)整的同步播放控制算法[J];山西電子技術(shù);2008年05期
10 華秀麗;徐凡;王中卿;李培峰;;細(xì)粒度科技論文摘要句子分類方法[J];計算機工程;2012年14期
相關(guān)會議論文 前6條
1 葉蘊芳;楊榆;羅鑫;徐國愛;;Appfuse系統(tǒng)中細(xì)粒度權(quán)限控制的研究與實現(xiàn)[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會通信與信息技術(shù)會議論文集(上冊)[C];2008年
2 江偉玉;高能;劉澤藝;林雪燕;;一種云計算中的多重身份認(rèn)證與授權(quán)方案[A];第27次全國計算機安全學(xué)術(shù)交流會論文集[C];2012年
3 李俊青;謝圣獻(xiàn);劉廣亮;陳晨;;P2P網(wǎng)絡(luò)基于蟻群優(yōu)化的動態(tài)細(xì)粒度訪問控制框架[A];2008年全國開放式分布與并行計算機學(xué)術(shù)會議論文集(下冊)[C];2008年
4 郭磊;唐玉華;周杰;董亞卓;;基于FPGA的Cholesky分解細(xì)粒度并行結(jié)構(gòu)與實現(xiàn)[A];2010年第16屆全國信息存儲技術(shù)大會(IST2010)論文集[C];2010年
5 盛振華;吳羽;江錦華;壽黎但;陳剛;;InfoSigs:一種面向WEB對象的細(xì)粒度聚類算法[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(A輯)[C];2009年
6 何全勝;;基于端口認(rèn)證和堆疊VLAN兩種技術(shù)在LAN接入中的應(yīng)用分析[A];2007中國科協(xié)年會——通信與信息發(fā)展高層論壇論文集[C];2007年
相關(guān)重要報紙文章 前2條
1 趙曉濤;巡展中的三大熱門[N];網(wǎng)絡(luò)世界;2007年
2 樂天邋編譯;編織一張更好的Web[N];計算機世界;2007年
相關(guān)博士學(xué)位論文 前3條
1 時杰;關(guān)系數(shù)據(jù)庫細(xì)粒度訪問控制研究[D];華中科技大學(xué);2010年
2 朱倩;面向自由文本的細(xì)粒度關(guān)系抽取的關(guān)鍵技術(shù)研究[D];江蘇大學(xué);2011年
3 余a\;基于Simulink模型的細(xì)粒度多線程技術(shù)研究[D];浙江大學(xué);2014年
相關(guān)碩士學(xué)位論文 前10條
1 張s,
本文編號:1669884
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1669884.html