天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 物理論文 >

聲子BTE應(yīng)用的并行和優(yōu)化研究

發(fā)布時(shí)間:2021-06-30 15:33
  聲子玻爾茲曼輸運(yùn)方程(BTE)可以有效地模擬介觀尺度下的導(dǎo)熱問題,相比于隨機(jī)性方法,以有限體積法為代表的確定性方法求解聲子BTE方程被認(rèn)為更有希望解決工程實(shí)際問題。但是有限體積法求解BTE具有迭代步數(shù)多,迭代時(shí)間長的問題。為此提出了聲子BTE方程迭代求解部分在GPU上的并行加速方案,并設(shè)計(jì)適當(dāng)?shù)木程分配方式及數(shù)據(jù)存儲格式,采用循環(huán)展開和內(nèi)核融合等優(yōu)化手段對迭代過程進(jìn)行并行加速。此外,采用基于角方向的并行策略,使用MPI+CUDA、CUDA-Aware MPI和NCCL函數(shù)的方式實(shí)現(xiàn)了聲子BTE求解多GPU并行版本。實(shí)驗(yàn)結(jié)果表明,相較于Intel Xeon Gold 6248上的串行版本,在單塊V100 GPU上獲得了最大31.5倍的加速。同時(shí)使用NCCL函數(shù)的GPU并行版本在8臺DGX-2節(jié)點(diǎn)共計(jì)128塊V100 GPU上最高達(dá)到了83%的并行效率,比MPI+CUDA版本提升57%。 

【文章來源】:計(jì)算機(jī)科學(xué)與探索. 2020,14(08)北大核心CSCD

【文章頁數(shù)】:10 頁

【部分圖文】:

聲子BTE應(yīng)用的并行和優(yōu)化研究


聲子BTE非灰模型求解過程

存儲結(jié)構(gòu),數(shù)據(jù),空間維度,子模式


聲子BTE方程維度較高,迭代計(jì)算過程所需的數(shù)據(jù),如能量密度值,除空間維度,還額外擁有聲子模式以及角方向這兩個(gè)維度。其中空間維度使用網(wǎng)格編號表示,因此數(shù)據(jù)一般存儲在三維數(shù)組當(dāng)中。由于GPU函數(shù)是以網(wǎng)格單元進(jìn)行的CUDA線程分配,因此計(jì)算過程中相鄰線程間訪問的是數(shù)組中同一聲子模式和角方向下,相鄰網(wǎng)格單元間的數(shù)據(jù)。為了能夠利用GPU合并訪存特性,簡化CPU、GPU端數(shù)據(jù)傳輸,數(shù)據(jù)采用如圖2所示的一維數(shù)組進(jìn)行存儲。4.2 BiCGSTAB算法實(shí)現(xiàn)流程

流程圖,算法,流程,矩陣


ELL格式存儲方式如圖4所示,采用兩個(gè)二維數(shù)組來存儲一個(gè)n×k的矩陣(k為包含非零元素最多行的非零元素?cái)?shù)目)。在實(shí)際使用中,使用兩個(gè)一維向量按列方向?qū)仃囘M(jìn)行存儲。使用ELL格式的SpMV算法在GPU內(nèi)易于并行實(shí)現(xiàn),計(jì)算過程中每個(gè)CUDA線程計(jì)算矩陣的一行,由ELL存儲方式可知,CUDA線程對矩陣值以及列索引的訪問均是連續(xù)的,能夠充分利用GPU合并訪存特性。圖4 ELL稀疏矩陣存儲格式


本文編號:3258011

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/wulilw/3258011.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e57ec***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com