天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機論文 >

細(xì)粒度任務(wù)并行GPU通用矩陣乘

發(fā)布時間:2018-03-26 22:26

  本文選題:通用矩陣乘 切入點:持久化kernel 出處:《計算機工程與科學(xué)》2015年05期


【摘要】:稠密線性代數(shù)運算對模式識別和生物信息等許多實際應(yīng)用至關(guān)重要,而通用矩陣乘(GEMM)處于稠密線性代數(shù)運算的基礎(chǔ)地位。在cuBLAS與MAGMA中,GEMM被實現(xiàn)為若干kernel函數(shù),對大型GEMM計算能夠達(dá)到很高的性能。然而,現(xiàn)有實現(xiàn)對批量的小型GEMM計算性能發(fā)揮則較為有限。而且,現(xiàn)有實現(xiàn)也不能在多個具有不同性能的GPU之間自動擴展并達(dá)到負(fù)載均衡。提出任務(wù)并行式GEMM(TPGEMM),用細(xì)粒度任務(wù)并行的方式實現(xiàn)批量矩陣乘和多GPU矩陣乘。一個或多個GEMM的計算能夠被拆分為多個任務(wù),動態(tài)地調(diào)度到一個或多個GPU上。TPGEMM避免了為批量矩陣乘啟動多個kernel函數(shù)的開銷,對批量矩陣乘能夠取得顯著高于cuBLAS與MAGMA的性能。在低開銷細(xì)粒度任務(wù)調(diào)度的基礎(chǔ)上,TPGEMM支持單個GEMM計算在多個GPU間的自動并行,在一臺具有四個不同性能GPU的工作站上取得了接近100%的擴展效率。
[Abstract]:Dense linear algebraic operations are very important for many practical applications, such as pattern recognition and biological information, while general-purpose matrix multiplication is the basis of dense linear algebraic operations. In cuBLAS and MAGMA, they are implemented as several kernel functions. High performance can be achieved for large GEMM computing. However, the performance of existing implementations for batch small GEMM computing is limited. The existing implementation can not automatically extend and achieve load balance among multiple GPU with different performance. This paper proposes a task-parallel GPU matrix multiplication, which implements batch matrix multiplication and multiple GPU matrix multiplication by fine-grained task parallelism. The calculation of GEMM can be split into multiple tasks, Dynamically scheduling to one or more GPU. TPGEMM avoids the overhead of starting multiple kernel functions for batch matrix multiplication. The performance of batch matrix multiplication is significantly higher than that of cuBLAS and MAGMA. On the basis of low overhead fine-grained task scheduling, TPGEMM supports automatic parallelism of single GEMM computation between multiple GPU. Nearly 100% expansion efficiency is achieved on a workstation with four different performance GPU.
【作者單位】: 南開大學(xué)計算機與控制工程學(xué)院;
【分類號】:TP338.6

【共引文獻(xiàn)】

相關(guān)期刊論文 前3條

1 林關(guān)成;;實驗教學(xué)中心集群渲染系統(tǒng)的構(gòu)建與測試[J];信息技術(shù);2014年03期

2 肖華東;孫婧;魏敏;李娟;沈瑜;;高性能計算機系統(tǒng)相對持續(xù)性能度量模型[J];計算機工程與應(yīng)用;2015年05期

3 劉剛;張恒;張滇;毛睿;;基于龍芯3B處理器的Linpack優(yōu)化實現(xiàn)[J];深圳大學(xué)學(xué)報(理工版);2014年03期

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 孫偉;李艷靈;周文勇;;細(xì)粒度基于傳遞功能的約束委托模型[J];信陽師范學(xué)院學(xué)報(自然科學(xué)版);2013年03期

2 夏汛;陳玲;;基于攔截器的細(xì)粒度權(quán)限設(shè)計[J];福建電腦;2012年11期

3 歐陽純萍;陽小華;雷龍艷;徐強;余穎;劉志明;;多策略中文微博細(xì)粒度情緒分析研究[J];北京大學(xué)學(xué)報(自然科學(xué)版);2014年01期

4 史大偉;袁天偉;;一種粗細(xì)粒度結(jié)合的動態(tài)污點分析方法[J];計算機工程;2014年03期

5 戢彥泓,郭常杰,鐘玉琢,孫立峰;基于細(xì)粒度可擴展編碼的多源視頻流化方案[J];清華大學(xué)學(xué)報(自然科學(xué)版);2004年04期

6 涂登彪;譚光明;孫凝暉;;無鎖同步的細(xì)粒度并行介度中心算法[J];軟件學(xué)報;2011年05期

7 張宇軒;魏廷存;樊曉椏;張萌;;面向流體系的細(xì)粒度異步訪存調(diào)度[J];計算機應(yīng)用研究;2012年03期

8 原子;于莉莉;劉超;;引入缺陷的細(xì)粒度軟件變更識別方法[J];北京航空航天大學(xué)學(xué)報;2014年09期

9 王寬;;基于細(xì)粒度調(diào)整的同步播放控制算法[J];山西電子技術(shù);2008年05期

10 華秀麗;徐凡;王中卿;李培峰;;細(xì)粒度科技論文摘要句子分類方法[J];計算機工程;2012年14期

相關(guān)會議論文 前6條

1 葉蘊芳;楊榆;羅鑫;徐國愛;;Appfuse系統(tǒng)中細(xì)粒度權(quán)限控制的研究與實現(xiàn)[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會通信與信息技術(shù)會議論文集(上冊)[C];2008年

2 江偉玉;高能;劉澤藝;林雪燕;;一種云計算中的多重身份認(rèn)證與授權(quán)方案[A];第27次全國計算機安全學(xué)術(shù)交流會論文集[C];2012年

3 李俊青;謝圣獻(xiàn);劉廣亮;陳晨;;P2P網(wǎng)絡(luò)基于蟻群優(yōu)化的動態(tài)細(xì)粒度訪問控制框架[A];2008年全國開放式分布與并行計算機學(xué)術(shù)會議論文集(下冊)[C];2008年

4 郭磊;唐玉華;周杰;董亞卓;;基于FPGA的Cholesky分解細(xì)粒度并行結(jié)構(gòu)與實現(xiàn)[A];2010年第16屆全國信息存儲技術(shù)大會(IST2010)論文集[C];2010年

5 盛振華;吳羽;江錦華;壽黎但;陳剛;;InfoSigs:一種面向WEB對象的細(xì)粒度聚類算法[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(A輯)[C];2009年

6 何全勝;;基于端口認(rèn)證和堆疊VLAN兩種技術(shù)在LAN接入中的應(yīng)用分析[A];2007中國科協(xié)年會——通信與信息發(fā)展高層論壇論文集[C];2007年

相關(guān)重要報紙文章 前2條

1 趙曉濤;巡展中的三大熱門[N];網(wǎng)絡(luò)世界;2007年

2 樂天邋編譯;編織一張更好的Web[N];計算機世界;2007年

相關(guān)博士學(xué)位論文 前3條

1 時杰;關(guān)系數(shù)據(jù)庫細(xì)粒度訪問控制研究[D];華中科技大學(xué);2010年

2 朱倩;面向自由文本的細(xì)粒度關(guān)系抽取的關(guān)鍵技術(shù)研究[D];江蘇大學(xué);2011年

3 余a\;基于Simulink模型的細(xì)粒度多線程技術(shù)研究[D];浙江大學(xué);2014年

相關(guān)碩士學(xué)位論文 前10條

1 張s,

本文編號:1669884


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1669884.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ba1c3***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
亚洲欧美天堂精品在线| 办公室丝袜高跟秘书国产| 久久国产青偷人人妻潘金莲| 欧美成人黄色一级视频| 精品人妻一区二区三区四在线| 国产色一区二区三区精品视频| 九九蜜桃视频香蕉视频| 东京不热免费观看日本| 国产精品人妻熟女毛片av久久| 亚洲中文字幕熟女丝袜久久| 免费在线成人午夜视频| 黑丝国产精品一区二区| 香蕉尹人视频在线精品| 欧美丰满大屁股一区二区三区| 日本精品最新字幕视频播放| 国产精品亚洲一区二区| 大香伊蕉欧美一区二区三区| 亚洲成人免费天堂诱惑| 亚洲熟女少妇精品一区二区三区| 国产精品国产亚洲区久久| 久久精品a毛片看国产成人| 国产国产精品精品在线| 精品欧美在线观看国产| 麻豆剧果冻传媒一二三区| 超碰在线免费公开中国黄片| 色小姐干香蕉在线综合网| 日韩日韩欧美国产精品| 久久黄片免费播放大全| 精品一区二区三区乱码中文| 欧美一级片日韩一级片| 夫妻性生活动态图视频| 91精品国产品国语在线不卡| 久久精品国产一区久久久| 国产成人亚洲综合色就色| 亚洲午夜av一区二区| 午夜精品麻豆视频91| 国产一区二区三区不卡| 日韩不卡一区二区视频| 日韩性生活视频免费在线观看| 久久黄片免费播放大全| 加勒比东京热拍拍一区二区|