異構(gòu)平臺上基于OpenCL的矩陣乘并行算法

發(fā)布時間：2021-06-10 09:47

　　在分析開放式計算語言（OpenCL）平臺底層硬件構(gòu)架的基礎(chǔ)上,從數(shù)據(jù)本地化、計算資源利用率和訪存帶寬利用率等多個不同角度優(yōu)化了矩陣乘算法,并實現(xiàn)了矩陣乘算法在OpenCL架構(gòu)下的加速.實驗數(shù)據(jù)顯示,與基于CPU的單線程算法、基于OpenMP多線程算法和基于統(tǒng)一計算設(shè)備架構(gòu)（CUDA）并行算法相比,基于OpenCL架構(gòu)的矩陣乘并行算法效率更高.

【文章來源】：西南大學(xué)學(xué)報(自然科學(xué)版). 2020,42(11)北大核心CSCD

【文章頁數(shù)】：7 頁

【部分圖文】：

矩陣乘并行算法執(zhí)行模式

矩陣圖,并行算法,加速比,矩陣

當(dāng)矩陣大小比較小時, 系統(tǒng)啟動的參與并行運算處理的工作項不多, 并沒有充分利用GPU中大量的CU. 隨著矩陣大小的擴大, 系統(tǒng)啟動的工作項數(shù)目在不斷增多, 算法獲得的加速比也隨著系統(tǒng)負荷的不斷增加而擴大. 當(dāng)GPU的運算負荷接近飽和狀態(tài)時, 獲得的加速比相應(yīng)地也逐漸減緩. 同時, CUDA加速的矩陣乘并行算法受制于硬件平臺, OpenCL加速的矩陣乘并行算法分別在AMD GPU和NVIDIA GPU平臺上取得了22.24倍和24.56倍加速比, 說明在多種硬件平臺上基于OpenCL的矩陣乘并行算法能夠在最大程度上實現(xiàn)性能的可移植性和兼容性.3 結(jié)束語

【參考文獻】：
期刊論文
[1]基于Spark的極限學(xué)習(xí)機算法并行化研究[J]. 劉鵬,王學(xué)奎,黃宜華,孟磊,丁恩杰.  計算機科學(xué). 2017(12)
[2]基于DCT預(yù)測編碼的Epiphany-OpenCL大矩陣乘并行計算[J]. 龍卓群,王曉瑜,王昌明.  自動化與儀表. 2017(07)
[3]布爾矩陣乘的分布式異構(gòu)并行優(yōu)化[J]. 朱敏,唐波,趙娟,鄒丹,李金才.  計算機工程與科學(xué). 2017(04)
[4]基于FPGA的Systolic乘法技術(shù)研究[J]. 周磊濤,陶耀東,劉生,李鎖.  計算機工程與科學(xué). 2015(09)
[5]基于GPU的相關(guān)干涉儀算法實現(xiàn)[J]. 王云龍,吳瑛.  信息工程大學(xué)學(xué)報. 2015(01)
[6]基于Parray數(shù)組類型的矩陣乘法實現(xiàn)[J]. 崔翔,李曉雯,陳一峯.  計算機學(xué)報. 2014(12)
[7]基于FPGA的全流水雙精度浮點矩陣乘法器設(shè)計[J]. 劉沛華,魯華祥,龔國良,劉文鵬.  智能系統(tǒng)學(xué)報. 2012(04)
[8]基于CUDA的矩陣乘法的并行實現(xiàn)[J]. 張夢元.  信息通信. 2012(02)

本文編號：3222152

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3222152.html

上一篇：容器技術(shù)在5G核心網(wǎng)中的應(yīng)用與方案探討
下一篇：基于翻轉(zhuǎn)課堂計算機類課程網(wǎng)絡(luò)學(xué)習(xí)空間的生態(tài)化研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

異構(gòu)平臺上基于OpenCL的矩陣乘并行算法