天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 物理論文 >

聲子BTE應用的并行和優(yōu)化研究

發(fā)布時間:2021-06-30 15:33
  聲子玻爾茲曼輸運方程(BTE)可以有效地模擬介觀尺度下的導熱問題,相比于隨機性方法,以有限體積法為代表的確定性方法求解聲子BTE方程被認為更有希望解決工程實際問題。但是有限體積法求解BTE具有迭代步數(shù)多,迭代時間長的問題。為此提出了聲子BTE方程迭代求解部分在GPU上的并行加速方案,并設計適當?shù)木程分配方式及數(shù)據存儲格式,采用循環(huán)展開和內核融合等優(yōu)化手段對迭代過程進行并行加速。此外,采用基于角方向的并行策略,使用MPI+CUDA、CUDA-Aware MPI和NCCL函數(shù)的方式實現(xiàn)了聲子BTE求解多GPU并行版本。實驗結果表明,相較于Intel Xeon Gold 6248上的串行版本,在單塊V100 GPU上獲得了最大31.5倍的加速。同時使用NCCL函數(shù)的GPU并行版本在8臺DGX-2節(jié)點共計128塊V100 GPU上最高達到了83%的并行效率,比MPI+CUDA版本提升57%。 

【文章來源】:計算機科學與探索. 2020,14(08)北大核心CSCD

【文章頁數(shù)】:10 頁

【部分圖文】:

聲子BTE應用的并行和優(yōu)化研究


聲子BTE非灰模型求解過程

存儲結構,數(shù)據,空間維度,子模式


聲子BTE方程維度較高,迭代計算過程所需的數(shù)據,如能量密度值,除空間維度,還額外擁有聲子模式以及角方向這兩個維度。其中空間維度使用網格編號表示,因此數(shù)據一般存儲在三維數(shù)組當中。由于GPU函數(shù)是以網格單元進行的CUDA線程分配,因此計算過程中相鄰線程間訪問的是數(shù)組中同一聲子模式和角方向下,相鄰網格單元間的數(shù)據。為了能夠利用GPU合并訪存特性,簡化CPU、GPU端數(shù)據傳輸,數(shù)據采用如圖2所示的一維數(shù)組進行存儲。4.2 BiCGSTAB算法實現(xiàn)流程

流程圖,算法,流程,矩陣


ELL格式存儲方式如圖4所示,采用兩個二維數(shù)組來存儲一個n×k的矩陣(k為包含非零元素最多行的非零元素數(shù)目)。在實際使用中,使用兩個一維向量按列方向對矩陣進行存儲。使用ELL格式的SpMV算法在GPU內易于并行實現(xiàn),計算過程中每個CUDA線程計算矩陣的一行,由ELL存儲方式可知,CUDA線程對矩陣值以及列索引的訪問均是連續(xù)的,能夠充分利用GPU合并訪存特性。圖4 ELL稀疏矩陣存儲格式


本文編號:3258011

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/wulilw/3258011.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶e57ec***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com