典型隱式CFD求解方法的眾核并行計算
發(fā)布時間:2019-11-03 11:40
【摘要】:計算流體力學(Computational Fluid Dynamics,CFD)作為一種強有力的計算分析工具,已經(jīng)廣泛應(yīng)用到航空、航天、氣象、船舶、武器裝備等領(lǐng)域。隨著其向高精度、大規(guī)模、高時效方向發(fā)展,對計算與存儲量的需求日益增加,開展高效大規(guī)模并行計算成為必然趨勢。近年來,隨著眾核技術(shù)的不斷發(fā)展,異構(gòu)眾核體系結(jié)構(gòu)逐漸成為高端超級計算機系統(tǒng)的主流架構(gòu)。與傳統(tǒng)同構(gòu)并行計算機系統(tǒng)相比,異構(gòu)眾核體系結(jié)構(gòu)兼顧了通用性和能效比,為大規(guī)?茖W和工程計算提供了很好的機遇。同時,異構(gòu)眾核體系結(jié)構(gòu)的復雜硬件結(jié)構(gòu)和編程環(huán)境也給包括CFD在內(nèi)的領(lǐng)域應(yīng)用開發(fā)帶來了諸多現(xiàn)實的困難和挑戰(zhàn)。本文以一個有限體積的CFD實際應(yīng)用為背景,在圖形處理器(Graphics Processing Unit,GPU)和英特爾集成眾核(Many Integrated Core,MIC)兩種主流眾核處理器架構(gòu)上開展了典型隱式CFD求解方法的并行算法和優(yōu)化方法研究。主要工作包括:(1)詳細介紹了兩種主流眾核處理器架構(gòu)特點和編程環(huán)境,總結(jié)了各自的性能優(yōu)化方法,從硬件和軟件兩個方面對比分析了兩者的異同,并根據(jù)自身的經(jīng)驗,給出了兩種架構(gòu)編程和優(yōu)化的學習曲線。(2)對ADI、JACOBI等隱式CFD求解方法基本原理、CFD計算流程、計算數(shù)據(jù)依賴關(guān)系等進行了深入分析,結(jié)合GPU眾核體系結(jié)構(gòu)和并行編程模型特點,提出了基于網(wǎng)格點并行和基于網(wǎng)格線并行的GPU并行算法;對實際CFD應(yīng)用場景下的ADI和JACOBI方法進行了GPU并行算法設(shè)計、實現(xiàn)與性能優(yōu)化,并采用不同規(guī)模的結(jié)構(gòu)網(wǎng)格真實算例進行了并行性能測試與分析。結(jié)果顯示:在200萬規(guī)模的單區(qū)結(jié)構(gòu)網(wǎng)格上,ADI和JACOBI求解方法的GPU(NVIDIA Tesla M2050)并行分別取得了10.3倍和14.25倍的加速比(相對于Intel Xeon X5670單核);相對而言JACOBI迭代求解方法體現(xiàn)出了較好的GPU并行計算性能。(3)基于LIKWID性能分析工具,對MIC眾核架構(gòu)下LU-SGS、ADI、JACOBI的OpenMP并行性能進行了深入分析,提出了基于微體系架構(gòu)硬件指標的優(yōu)化方法,有助于深入理解眾核架構(gòu)下Cache、SIMD等對應(yīng)用性能的影響。針對JACOBI方法,MIC性能優(yōu)化在理想和真實場景下取得加速性能差異,借助性能分析工具—LIKWID,通過收集和分析程序執(zhí)行中的硬件指標,對不同場景下這種加速性能差異進行了比較研究與合理性解釋。測試結(jié)果表明:在單區(qū)200萬網(wǎng)格規(guī)模下,JACOBI方法相對于CPU單核,取得17.54的加速比。
【圖文】:
0 架構(gòu)如圖 2.4 所示。其中主要控制模塊包括:命令處理器(Command Processor):這是 GPU 中的第一個模板編程計算引擎,,具有處理命令、取流操作、狀態(tài)控制和寄存器管它還負責流的 DMA 操作、控制單元的中斷。存儲控制器(Memory Controller):內(nèi)存訪問控制器。負責 GPUHost 系統(tǒng)內(nèi)存之間的數(shù)據(jù)傳輸。超線程管理調(diào)度器 (Ultra-Threaded Dispatch Processor):渲染核的器。負責調(diào)度最多 1024 個并發(fā)線程,動態(tài)地分派給 ALU 陣列單它還包括一個可編程的資源定序器和仲裁器。
算法 2 ADI 解法器的 GPU 并行計算流程 圖 4.5 ADI 解法器的 GPU 并行計算流程4.3 JACOBI 迭代的 GPU 并行算法設(shè)計下圖 4.6 是 JACOBI 方法在 CFD 實際應(yīng)用中的計算流程。公式(1.21)中的右端項b(主要包括 JACOBI 矩陣的計算和矩陣向量乘)、左端項矩陣D(主要是
【學位授予單位】:國防科學技術(shù)大學
【學位級別】:碩士
【學位授予年份】:2013
【分類號】:O35;TP338.6
本文編號:2555063
【圖文】:
0 架構(gòu)如圖 2.4 所示。其中主要控制模塊包括:命令處理器(Command Processor):這是 GPU 中的第一個模板編程計算引擎,,具有處理命令、取流操作、狀態(tài)控制和寄存器管它還負責流的 DMA 操作、控制單元的中斷。存儲控制器(Memory Controller):內(nèi)存訪問控制器。負責 GPUHost 系統(tǒng)內(nèi)存之間的數(shù)據(jù)傳輸。超線程管理調(diào)度器 (Ultra-Threaded Dispatch Processor):渲染核的器。負責調(diào)度最多 1024 個并發(fā)線程,動態(tài)地分派給 ALU 陣列單它還包括一個可編程的資源定序器和仲裁器。
算法 2 ADI 解法器的 GPU 并行計算流程 圖 4.5 ADI 解法器的 GPU 并行計算流程4.3 JACOBI 迭代的 GPU 并行算法設(shè)計下圖 4.6 是 JACOBI 方法在 CFD 實際應(yīng)用中的計算流程。公式(1.21)中的右端項b(主要包括 JACOBI 矩陣的計算和矩陣向量乘)、左端項矩陣D(主要是
【學位授予單位】:國防科學技術(shù)大學
【學位級別】:碩士
【學位授予年份】:2013
【分類號】:O35;TP338.6
本文編號:2555063
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2555063.html
最近更新
教材專著