基于GPU的不可壓縮管流并行數(shù)值模擬關(guān)鍵技術(shù)研究
發(fā)布時間:2017-09-11 10:04
本文關(guān)鍵詞:基于GPU的不可壓縮管流并行數(shù)值模擬關(guān)鍵技術(shù)研究
更多相關(guān)文章: 稀疏矩陣向量乘 有限差分算法 并行計算 對稱交錯條塊
【摘要】:不可壓縮管流問題作為流體力學(xué)的重要研究對象,對此進行的研究成果被廣泛應(yīng)用于等離子體物理學(xué)和磁流體力學(xué)等相關(guān)領(lǐng)域的科學(xué)研究。對不可壓縮管流進行精確模型的數(shù)值模擬需要巨大的計算資源和時間代價,始終是研究難點和熱點。本文通過研究其中的兩個關(guān)鍵步驟稀疏矩陣向量乘與有限差分Stencil算法,,結(jié)合并行優(yōu)化技術(shù)和數(shù)據(jù)局部性優(yōu)化技術(shù)提高了不可壓縮管流數(shù)值模擬的運行效率。 在不可壓縮管流數(shù)值模擬的矩陣向量乘求解問題中,矩陣一般呈現(xiàn)出總體稀疏局部存在較多稠密子矩陣的特征。傳統(tǒng)稀疏矩陣存儲結(jié)構(gòu)并不能很好地利用這一特征,因此本文提出了QCSR稀疏矩陣存儲結(jié)構(gòu)。QCSR存儲結(jié)構(gòu)結(jié)合了四叉樹結(jié)構(gòu)和CSR存儲結(jié)構(gòu)的優(yōu)勢,通過對稀疏矩陣進行遞歸式分解和重排列實現(xiàn)矩陣的存儲,提高矩陣向量乘運算的數(shù)據(jù)局部性。本文接著分析了CPU-GPU異構(gòu)并行系統(tǒng)的編程模型CUDA,通過采用線程映射優(yōu)化、數(shù)據(jù)存取優(yōu)化、數(shù)據(jù)傳輸優(yōu)化和數(shù)據(jù)復(fù)用優(yōu)化四個策略,在GPU上實現(xiàn)了基于QCSR存儲結(jié)構(gòu)的稀疏矩陣向量乘。實驗表明,與CSR存儲格式對比,基于QCSR存儲結(jié)構(gòu)的稀疏矩陣向量乘取得了平均1.15的加速比,并且降低了運算過程中矩陣內(nèi)非零元素分布因素對運算的影響,更具有普適性。 因不可壓縮管流中管流和外加磁場之間的相互作用以及傳熱問題的復(fù)雜性,基于壓力與速度場耦合方程組的半隱式方法需采用細(xì)粒度的網(wǎng)格劃分方式來分析流體內(nèi)部細(xì)節(jié),并由有限差分Stencil算法求解方程組。針對基于單向區(qū)域劃分方法的有限差分Stencil算法會出現(xiàn)迭代間數(shù)據(jù)局部性差和可擴展性差等問題,本文提出了基于多網(wǎng)格空間對稱交錯條塊式的有限差分Stencil并行迭代算法。該算法通過采用基于網(wǎng)格交錯條塊的區(qū)域劃分策略,引入時滯技術(shù)并沿新增的時間軸方向?qū)⒌臻g劃分成交錯條塊,提高了條塊內(nèi)部的數(shù)據(jù)局部性;通過采用多網(wǎng)格對稱運行策略,提高算法并行度,加快了有限差分Stencil迭代算法的收斂速度;通過采用交錯條塊的重排序策略,有效地減少有限差分Stencil算法在迭代過程中的通信和同步開銷,提高了并行效果。本文進一步在GPU上實現(xiàn)了多維有限差分Stencil迭代算法。實驗表明,采用相應(yīng)優(yōu)化策略后的有限差分Stencil迭代算法性能縮短了計算時間。 本文通過使用并行優(yōu)化技術(shù)和CPU-GPU異構(gòu)并行系統(tǒng)優(yōu)化了稀疏矩陣向量乘和有限差分Stencil迭代算法這兩個關(guān)鍵計算步驟,提升了不可壓縮管流數(shù)值模擬效率。對此進行的并行化研究成果具有一般性,可以推廣到相關(guān)的數(shù)值計算領(lǐng)域中。
【關(guān)鍵詞】:稀疏矩陣向量乘 有限差分算法 并行計算 對稱交錯條塊
【學(xué)位授予單位】:杭州電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:O151.21;TP333
【目錄】:
- 摘要5-7
- ABSTRACT7-9
- 目錄9-11
- 第一章 緒論11-18
- 1.1 研究背景11
- 1.2 課題相關(guān)領(lǐng)域發(fā)展現(xiàn)狀11-15
- 1.2.1 稀疏矩陣向量乘相關(guān)研究11-13
- 1.2.2 有限差分 Stencil 算法相關(guān)研究13-15
- 1.3 研究意義15
- 1.4 主要研究內(nèi)容15-16
- 1.5 論文結(jié)構(gòu)16-18
- 第二章 并行計算技術(shù)概況18-24
- 2.1 并行計算概述18-19
- 2.2 基于 GPU 的并行計算19-21
- 2.3 CUDA 編程模型21-23
- 2.3.1 線程層次結(jié)構(gòu)和硬件實現(xiàn)21-22
- 2.3.2 存儲器層次結(jié)構(gòu)22-23
- 2.4 本章總結(jié)23-24
- 第三章 基于 QCSR 存儲格式的稀疏矩陣向量乘及其并行化24-41
- 3.1 稀疏矩陣常用存儲格式24-27
- 3.1.1 坐標(biāo)格式24-25
- 3.1.2 壓縮稀疏行格式25
- 3.1.3 DIA 對角線存儲格式25-26
- 3.1.4 ELLPACK 格式26-27
- 3.1.5 混合格式27
- 3.2 基于 QCSR 存儲格式的稀疏矩陣向量乘27-34
- 3.2.1 QCSR 存儲結(jié)構(gòu)28-30
- 3.2.2 基于 QCSR 存儲結(jié)構(gòu)的稀疏矩陣向量乘30-31
- 3.2.3 效率分析31-32
- 3.2.4 數(shù)值實驗32-34
- 3.3 基于 GPU 的稀疏矩陣向量乘優(yōu)化策略34-38
- 3.3.1 線程映射優(yōu)化35-36
- 3.3.2 數(shù)據(jù)存取優(yōu)化36
- 3.3.3 數(shù)據(jù)傳輸優(yōu)化36-37
- 3.3.4 數(shù)據(jù)復(fù)用優(yōu)化37-38
- 3.4 基于 GPU 的稀疏矩陣向量乘實驗38-40
- 3.5 本章總結(jié)40-41
- 第四章 基于多網(wǎng)格空間對稱交錯條塊式的有限差分 Stencil 并行迭代算法41-52
- 4.1 有限差分 Stencil 算法42-43
- 4.2 基于單向區(qū)域劃分的有限差分 Stencil 并行算法43-44
- 4.3 基于多網(wǎng)格空間對稱交錯條塊式的有限差分 Stencil 算法44-47
- 4.4 數(shù)值實驗47-49
- 4.5 基于 GPU 的有限差分 Stencil 算法49-51
- 4.6 本章總結(jié)51-52
- 第五章 總結(jié)與展望52-54
- 5.1 工作總結(jié)52-53
- 5.2 研究展望53-54
- 致謝54-55
- 參考文獻55-61
- 附錄61-62
- 詳細(xì)摘要62-65
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前4條
1 袁娥;張云泉;劉芳芳;孫相征;;SpMV的自動性能優(yōu)化實現(xiàn)技術(shù)及其應(yīng)用研究[J];計算機研究與發(fā)展;2009年07期
2 吳恩華,柳有權(quán);基于圖形處理器(GPU)的通用計算[J];計算機輔助設(shè)計與圖形學(xué)學(xué)報;2004年05期
3 安虹,陳國良;并行程序設(shè)計模型和語言[J];軟件學(xué)報;2002年01期
4 胡長軍;張紀(jì)林;王玨;李建江;;迭代空間交錯條塊并行Gauss-Seidel算法[J];軟件學(xué)報;2008年06期
本文編號:830074
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/830074.html
最近更新
教材專著