異構(gòu)平臺(tái)上基于OpenCL的矩陣乘并行算法
發(fā)布時(shí)間:2021-06-10 09:47
在分析開放式計(jì)算語(yǔ)言(OpenCL)平臺(tái)底層硬件構(gòu)架的基礎(chǔ)上,從數(shù)據(jù)本地化、計(jì)算資源利用率和訪存帶寬利用率等多個(gè)不同角度優(yōu)化了矩陣乘算法,并實(shí)現(xiàn)了矩陣乘算法在OpenCL架構(gòu)下的加速.實(shí)驗(yàn)數(shù)據(jù)顯示,與基于CPU的單線程算法、基于OpenMP多線程算法和基于統(tǒng)一計(jì)算設(shè)備架構(gòu)(CUDA)并行算法相比,基于OpenCL架構(gòu)的矩陣乘并行算法效率更高.
【文章來(lái)源】:西南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2020,42(11)北大核心CSCD
【文章頁(yè)數(shù)】:7 頁(yè)
【部分圖文】:
矩陣乘并行算法執(zhí)行模式
當(dāng)矩陣大小比較小時(shí), 系統(tǒng)啟動(dòng)的參與并行運(yùn)算處理的工作項(xiàng)不多, 并沒(méi)有充分利用GPU中大量的CU. 隨著矩陣大小的擴(kuò)大, 系統(tǒng)啟動(dòng)的工作項(xiàng)數(shù)目在不斷增多, 算法獲得的加速比也隨著系統(tǒng)負(fù)荷的不斷增加而擴(kuò)大. 當(dāng)GPU的運(yùn)算負(fù)荷接近飽和狀態(tài)時(shí), 獲得的加速比相應(yīng)地也逐漸減緩. 同時(shí), CUDA加速的矩陣乘并行算法受制于硬件平臺(tái), OpenCL加速的矩陣乘并行算法分別在AMD GPU和NVIDIA GPU平臺(tái)上取得了22.24倍和24.56倍加速比, 說(shuō)明在多種硬件平臺(tái)上基于OpenCL的矩陣乘并行算法能夠在最大程度上實(shí)現(xiàn)性能的可移植性和兼容性.3 結(jié)束語(yǔ)
【參考文獻(xiàn)】:
期刊論文
[1]基于Spark的極限學(xué)習(xí)機(jī)算法并行化研究[J]. 劉鵬,王學(xué)奎,黃宜華,孟磊,丁恩杰. 計(jì)算機(jī)科學(xué). 2017(12)
[2]基于DCT預(yù)測(cè)編碼的Epiphany-OpenCL大矩陣乘并行計(jì)算[J]. 龍卓群,王曉瑜,王昌明. 自動(dòng)化與儀表. 2017(07)
[3]布爾矩陣乘的分布式異構(gòu)并行優(yōu)化[J]. 朱敏,唐波,趙娟,鄒丹,李金才. 計(jì)算機(jī)工程與科學(xué). 2017(04)
[4]基于FPGA的Systolic乘法技術(shù)研究[J]. 周磊濤,陶耀東,劉生,李鎖. 計(jì)算機(jī)工程與科學(xué). 2015(09)
[5]基于GPU的相關(guān)干涉儀算法實(shí)現(xiàn)[J]. 王云龍,吳瑛. 信息工程大學(xué)學(xué)報(bào). 2015(01)
[6]基于Parray數(shù)組類型的矩陣乘法實(shí)現(xiàn)[J]. 崔翔,李曉雯,陳一峯. 計(jì)算機(jī)學(xué)報(bào). 2014(12)
[7]基于FPGA的全流水雙精度浮點(diǎn)矩陣乘法器設(shè)計(jì)[J]. 劉沛華,魯華祥,龔國(guó)良,劉文鵬. 智能系統(tǒng)學(xué)報(bào). 2012(04)
[8]基于CUDA的矩陣乘法的并行實(shí)現(xiàn)[J]. 張夢(mèng)元. 信息通信. 2012(02)
本文編號(hào):3222152
【文章來(lái)源】:西南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2020,42(11)北大核心CSCD
【文章頁(yè)數(shù)】:7 頁(yè)
【部分圖文】:
矩陣乘并行算法執(zhí)行模式
當(dāng)矩陣大小比較小時(shí), 系統(tǒng)啟動(dòng)的參與并行運(yùn)算處理的工作項(xiàng)不多, 并沒(méi)有充分利用GPU中大量的CU. 隨著矩陣大小的擴(kuò)大, 系統(tǒng)啟動(dòng)的工作項(xiàng)數(shù)目在不斷增多, 算法獲得的加速比也隨著系統(tǒng)負(fù)荷的不斷增加而擴(kuò)大. 當(dāng)GPU的運(yùn)算負(fù)荷接近飽和狀態(tài)時(shí), 獲得的加速比相應(yīng)地也逐漸減緩. 同時(shí), CUDA加速的矩陣乘并行算法受制于硬件平臺(tái), OpenCL加速的矩陣乘并行算法分別在AMD GPU和NVIDIA GPU平臺(tái)上取得了22.24倍和24.56倍加速比, 說(shuō)明在多種硬件平臺(tái)上基于OpenCL的矩陣乘并行算法能夠在最大程度上實(shí)現(xiàn)性能的可移植性和兼容性.3 結(jié)束語(yǔ)
【參考文獻(xiàn)】:
期刊論文
[1]基于Spark的極限學(xué)習(xí)機(jī)算法并行化研究[J]. 劉鵬,王學(xué)奎,黃宜華,孟磊,丁恩杰. 計(jì)算機(jī)科學(xué). 2017(12)
[2]基于DCT預(yù)測(cè)編碼的Epiphany-OpenCL大矩陣乘并行計(jì)算[J]. 龍卓群,王曉瑜,王昌明. 自動(dòng)化與儀表. 2017(07)
[3]布爾矩陣乘的分布式異構(gòu)并行優(yōu)化[J]. 朱敏,唐波,趙娟,鄒丹,李金才. 計(jì)算機(jī)工程與科學(xué). 2017(04)
[4]基于FPGA的Systolic乘法技術(shù)研究[J]. 周磊濤,陶耀東,劉生,李鎖. 計(jì)算機(jī)工程與科學(xué). 2015(09)
[5]基于GPU的相關(guān)干涉儀算法實(shí)現(xiàn)[J]. 王云龍,吳瑛. 信息工程大學(xué)學(xué)報(bào). 2015(01)
[6]基于Parray數(shù)組類型的矩陣乘法實(shí)現(xiàn)[J]. 崔翔,李曉雯,陳一峯. 計(jì)算機(jī)學(xué)報(bào). 2014(12)
[7]基于FPGA的全流水雙精度浮點(diǎn)矩陣乘法器設(shè)計(jì)[J]. 劉沛華,魯華祥,龔國(guó)良,劉文鵬. 智能系統(tǒng)學(xué)報(bào). 2012(04)
[8]基于CUDA的矩陣乘法的并行實(shí)現(xiàn)[J]. 張夢(mèng)元. 信息通信. 2012(02)
本文編號(hào):3222152
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3222152.html
最近更新
教材專著