聲子BTE應用的并行和優(yōu)化研究

發(fā)布時間：2021-06-30 15:33

　　聲子玻爾茲曼輸運方程（BTE）可以有效地模擬介觀尺度下的導熱問題,相比于隨機性方法,以有限體積法為代表的確定性方法求解聲子BTE方程被認為更有希望解決工程實際問題。但是有限體積法求解BTE具有迭代步數(shù)多,迭代時間長的問題。為此提出了聲子BTE方程迭代求解部分在GPU上的并行加速方案,并設計適當?shù)木€程分配方式及數(shù)據存儲格式,采用循環(huán)展開和內核融合等優(yōu)化手段對迭代過程進行并行加速。此外,采用基于角方向的并行策略,使用MPI+CUDA、CUDA-Aware MPI和NCCL函數(shù)的方式實現(xiàn)了聲子BTE求解多GPU并行版本。實驗結果表明,相較于Intel Xeon Gold 6248上的串行版本,在單塊V100 GPU上獲得了最大31.5倍的加速。同時使用NCCL函數(shù)的GPU并行版本在8臺DGX-2節(jié)點共計128塊V100 GPU上最高達到了83%的并行效率,比MPI+CUDA版本提升57%。

【文章來源】：計算機科學與探索. 2020,14(08)北大核心CSCD

【文章頁數(shù)】：10 頁

【部分圖文】：

聲子BTE非灰模型求解過程

存儲結構,數(shù)據,空間維度,子模式

聲子BTE方程維度較高，迭代計算過程所需的數(shù)據，如能量密度值，除空間維度，還額外擁有聲子模式以及角方向這兩個維度。其中空間維度使用網格編號表示，因此數(shù)據一般存儲在三維數(shù)組當中。由于GPU函數(shù)是以網格單元進行的CUDA線程分配，因此計算過程中相鄰線程間訪問的是數(shù)組中同一聲子模式和角方向下，相鄰網格單元間的數(shù)據。為了能夠利用GPU合并訪存特性，簡化CPU、GPU端數(shù)據傳輸，數(shù)據采用如圖2所示的一維數(shù)組進行存儲。4.2 BiCGSTAB算法實現(xiàn)流程

流程圖,算法,流程,矩陣

ELL格式存儲方式如圖4所示，采用兩個二維數(shù)組來存儲一個n×k的矩陣（k為包含非零元素最多行的非零元素數(shù)目）。在實際使用中，使用兩個一維向量按列方向對矩陣進行存儲。使用ELL格式的SpMV算法在GPU內易于并行實現(xiàn)，計算過程中每個CUDA線程計算矩陣的一行，由ELL存儲方式可知，CUDA線程對矩陣值以及列索引的訪問均是連續(xù)的，能夠充分利用GPU合并訪存特性。圖4 ELL稀疏矩陣存儲格式

本文編號：3258011

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/wulilw/3258011.html

上一篇：激光選區(qū)熔化制備點陣結構銅合金組織結構和力學行為研究
下一篇：物理教學中貫徹“課程思政”——在大學物理教學中體現(xiàn)對科學精神的培養(yǎng)

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

聲子BTE應用的并行和優(yōu)化研究