典型隱式CFD求解方法的眾核并行計(jì)算

發(fā)布時(shí)間：2019-11-03 11:40

【摘要】：計(jì)算流體力學(xué)(Computational Fluid Dynamics,CFD)作為一種強(qiáng)有力的計(jì)算分析工具,已經(jīng)廣泛應(yīng)用到航空、航天、氣象、船舶、武器裝備等領(lǐng)域。隨著其向高精度、大規(guī)模、高時(shí)效方向發(fā)展,對(duì)計(jì)算與存儲(chǔ)量的需求日益增加,開展高效大規(guī)模并行計(jì)算成為必然趨勢(shì)。近年來,隨著眾核技術(shù)的不斷發(fā)展,異構(gòu)眾核體系結(jié)構(gòu)逐漸成為高端超級(jí)計(jì)算機(jī)系統(tǒng)的主流架構(gòu)。與傳統(tǒng)同構(gòu)并行計(jì)算機(jī)系統(tǒng)相比,異構(gòu)眾核體系結(jié)構(gòu)兼顧了通用性和能效比,為大規(guī)�？茖W(xué)和工程計(jì)算提供了很好的機(jī)遇。同時(shí),異構(gòu)眾核體系結(jié)構(gòu)的復(fù)雜硬件結(jié)構(gòu)和編程環(huán)境也給包括CFD在內(nèi)的領(lǐng)域應(yīng)用開發(fā)帶來了諸多現(xiàn)實(shí)的困難和挑戰(zhàn)。本文以一個(gè)有限體積的CFD實(shí)際應(yīng)用為背景,在圖形處理器(Graphics Processing Unit,GPU)和英特爾集成眾核(Many Integrated Core,MIC)兩種主流眾核處理器架構(gòu)上開展了典型隱式CFD求解方法的并行算法和優(yōu)化方法研究。主要工作包括:(1)詳細(xì)介紹了兩種主流眾核處理器架構(gòu)特點(diǎn)和編程環(huán)境,總結(jié)了各自的性能優(yōu)化方法,從硬件和軟件兩個(gè)方面對(duì)比分析了兩者的異同,并根據(jù)自身的經(jīng)驗(yàn),給出了兩種架構(gòu)編程和優(yōu)化的學(xué)習(xí)曲線。(2)對(duì)ADI、JACOBI等隱式CFD求解方法基本原理、CFD計(jì)算流程、計(jì)算數(shù)據(jù)依賴關(guān)系等進(jìn)行了深入分析,結(jié)合GPU眾核體系結(jié)構(gòu)和并行編程模型特點(diǎn),提出了基于網(wǎng)格點(diǎn)并行和基于網(wǎng)格線并行的GPU并行算法;對(duì)實(shí)際CFD應(yīng)用場(chǎng)景下的ADI和JACOBI方法進(jìn)行了GPU并行算法設(shè)計(jì)、實(shí)現(xiàn)與性能優(yōu)化,并采用不同規(guī)模的結(jié)構(gòu)網(wǎng)格真實(shí)算例進(jìn)行了并行性能測(cè)試與分析。結(jié)果顯示:在200萬規(guī)模的單區(qū)結(jié)構(gòu)網(wǎng)格上,ADI和JACOBI求解方法的GPU(NVIDIA Tesla M2050)并行分別取得了10.3倍和14.25倍的加速比(相對(duì)于Intel Xeon X5670單核);相對(duì)而言JACOBI迭代求解方法體現(xiàn)出了較好的GPU并行計(jì)算性能。(3)基于LIKWID性能分析工具,對(duì)MIC眾核架構(gòu)下LU-SGS、ADI、JACOBI的OpenMP并行性能進(jìn)行了深入分析,提出了基于微體系架構(gòu)硬件指標(biāo)的優(yōu)化方法,有助于深入理解眾核架構(gòu)下Cache、SIMD等對(duì)應(yīng)用性能的影響。針對(duì)JACOBI方法,MIC性能優(yōu)化在理想和真實(shí)場(chǎng)景下取得加速性能差異,借助性能分析工具—LIKWID,通過收集和分析程序執(zhí)行中的硬件指標(biāo),對(duì)不同場(chǎng)景下這種加速性能差異進(jìn)行了比較研究與合理性解釋。測(cè)試結(jié)果表明:在單區(qū)200萬網(wǎng)格規(guī)模下,JACOBI方法相對(duì)于CPU單核,取得17.54的加速比。
【圖文】：

架構(gòu)圖,架構(gòu)

0 架構(gòu)如圖 2.4 所示。其中主要控制模塊包括：命令處理器（Command Processor）：這是 GPU 中的第一個(gè)模板編程計(jì)算引擎，，具有處理命令、取流操作、狀態(tài)控制和寄存器管它還負(fù)責(zé)流的 DMA 操作、控制單元的中斷。存儲(chǔ)控制器（Memory Controller）：內(nèi)存訪問控制器。負(fù)責(zé) GPUHost 系統(tǒng)內(nèi)存之間的數(shù)據(jù)傳輸。超線程管理調(diào)度器 (Ultra-Threaded Dispatch Processor)：渲染核的器。負(fù)責(zé)調(diào)度最多 1024 個(gè)并發(fā)線程，動(dòng)態(tài)地分派給 ALU 陣列單它還包括一個(gè)可編程的資源定序器和仲裁器。

流程圖,解法器,并行計(jì)算,流程

算法 2 ADI 解法器的 GPU 并行計(jì)算流程圖 4.5 ADI 解法器的 GPU 并行計(jì)算流程4.3 JACOBI 迭代的 GPU 并行算法設(shè)計(jì)下圖 4.6 是 JACOBI 方法在 CFD 實(shí)際應(yīng)用中的計(jì)算流程。公式（1.21）中的右端項(xiàng)b（主要包括 JACOBI 矩陣的計(jì)算和矩陣向量乘）、左端項(xiàng)矩陣D（主要是
【學(xué)位授予單位】：國(guó)防科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2013
【分類號(hào)】：O35;TP338.6

本文編號(hào)：2555063

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2555063.html

上一篇：優(yōu)化虛擬機(jī)放置均衡數(shù)據(jù)中心網(wǎng)絡(luò)核心層數(shù)據(jù)流量
下一篇：基于模糊PID的FDM型3D打印機(jī)噴頭溫度控制系統(tǒng)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

典型隱式CFD求解方法的眾核并行計(jì)算