電磁場積分方程算法在GPU/CPU異構(gòu)平臺上的實(shí)現(xiàn)
發(fā)布時間:2021-04-30 06:17
電大尺寸問題的數(shù)值分析一直是計(jì)算電磁學(xué)界的一個熱點(diǎn)課題。當(dāng)目標(biāo)的電尺寸比較大時,普通計(jì)算機(jī)的計(jì)算能力將難以勝任。為了解決這個問題,并行計(jì)算被引入到計(jì)算電磁算法中。在早期,并行算法的實(shí)現(xiàn)是在OpenMP支持下對多核CPU并行編程或在MPI支持下對計(jì)算機(jī)集群并行編程。近年來,一種新型的大規(guī)模并行處理器——圖形處理單元(GPGPU或GPU)被引入并行計(jì)算領(lǐng)域,使并行計(jì)算效率產(chǎn)生了一次飛躍,也為計(jì)算電磁學(xué)開辟了一個新的研究方向。本文研究電磁場積分方程算法在GPU/CPU異構(gòu)平臺上的實(shí)現(xiàn),主要創(chuàng)新點(diǎn)如下:1.提出了多層快速多極子算法(MLFMA)在GPU/CPU異構(gòu)平臺上的一個優(yōu)化實(shí)現(xiàn)。這個實(shí)現(xiàn)由四部分組成:1)對于近場矩陣填充設(shè)計(jì)了一個優(yōu)化的GPU/CPU協(xié)同計(jì)算方案;2)提出了一個高效率的稀疏矩陣-向量積算法,平均效率是商用GPU算法庫NVIDIA CUSPARSE的2.5倍左右;3)對MLFM中的遠(yuǎn)場底層匯聚/擴(kuò)散,提出warp級并行方案替換線程級并行方案;4)對MLFM中的遠(yuǎn)場高層匯聚/擴(kuò)散,提出紋理存儲方案替換通常的全局存儲方案,顯著地提高了局部二維插值計(jì)算的效率。與最新文獻(xiàn)相比,本文...
【文章來源】:東南大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:114 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景
1.2 異構(gòu)計(jì)算
1.3 本課題的研究現(xiàn)狀
1.4 本文的主要工作
第二章 面向通用計(jì)算的GPU技術(shù)
2.1 GPU的發(fā)展歷程
2.2 GPU的硬件結(jié)構(gòu)
2.2.1 整體架構(gòu)
2.2.2 各存儲器結(jié)構(gòu)與特性
2.3 GPU的軟件編程模型
2.4 CUDA的軟件體系與編譯
2.5 多GPU平臺
2.6 兩種基本的訪存優(yōu)化
2.6.1 合并訪存
2.6.2 bank沖突
2.7 指令級優(yōu)化
2.8 本章小結(jié)
第三章 多層快速多極子算法在GPU/CPU異構(gòu)平臺上的一個優(yōu)化實(shí)現(xiàn)
3.1 MLFMA算法的原理以及實(shí)現(xiàn)
3.2 多GPU平臺上近場矩陣元素的計(jì)算及其優(yōu)化
3.2.1 數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)
3.2.2 近場矩陣元素的計(jì)算
3.2.3 GPU與CPU的協(xié)同計(jì)算
3.3 稀疏矩陣向量積的GPU加速
3.4 多GPU平臺上遠(yuǎn)場矩陣-向量積的算法
3.4.1 最底層匯聚/擴(kuò)散
3.4.2 上層匯聚/擴(kuò)散
3.5 數(shù)值仿真
3.6 本章小結(jié)
3.7 附錄
第四章 自適應(yīng)交叉近似算法在多GPU平臺上的一個優(yōu)化實(shí)現(xiàn)
4.1 ACA算法原理
4.1.1 算法概述
4.1.2 算法流程
4.2 多GPU平臺上的并行ACA算法
4.2.1 近場矩陣填充的混合精度優(yōu)化
4.2.2 壓縮遠(yuǎn)場子矩陣的并行算法
4.2.3 批量化矩陣向量積的并行方案
4.3 數(shù)值算例
4.4 本章小結(jié)
第五章 高階矩量法在GPU/CPU異構(gòu)平臺上的帶有核外LU求解器的一個優(yōu)化實(shí)現(xiàn)
5.1 高階矩量法
5.1.1 高階面片
5.1.2 高階基函數(shù)
5.1.3 高階矩量法以及奇異性處理
5.2 高階矩量法元素計(jì)算的查表法
5.3 生成HMoM矩陣的一個CUDA算法—核內(nèi)存儲版本
5.3.1 任務(wù)分配
5.3.2 面向GPU的算法優(yōu)化
5.3.3 對比其它并行算法設(shè)計(jì)
5.4 生成HMoM矩陣的一個CUDA算法——核外存儲版本
5.4.1 高階矩量法矩陣的核外分塊方法
5.5 核外LU分解的一個OpenMP-CUDA算法
5.5.1 核外LU分解的算法框架
5.5.2 基于GPU的核外LU分解及其優(yōu)化
5.5.3 基于GPU/CPU協(xié)同計(jì)算的核外LU分解算法
5.6 數(shù)值算例
5.7 本章小結(jié)
參考文獻(xiàn)
結(jié)束語與展望
作者簡介
B.1 基本情況
B.2 學(xué)習(xí)和工作簡歷
B.3 在攻讀博士學(xué)位期間所學(xué)的課程
B.4 在攻讀博士學(xué)位期間參加的研究課題
B.5 在攻讀博士學(xué)位期間完成和發(fā)表的論文
致謝
本文編號:3169002
【文章來源】:東南大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:114 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景
1.2 異構(gòu)計(jì)算
1.3 本課題的研究現(xiàn)狀
1.4 本文的主要工作
第二章 面向通用計(jì)算的GPU技術(shù)
2.1 GPU的發(fā)展歷程
2.2 GPU的硬件結(jié)構(gòu)
2.2.1 整體架構(gòu)
2.2.2 各存儲器結(jié)構(gòu)與特性
2.3 GPU的軟件編程模型
2.4 CUDA的軟件體系與編譯
2.5 多GPU平臺
2.6 兩種基本的訪存優(yōu)化
2.6.1 合并訪存
2.6.2 bank沖突
2.7 指令級優(yōu)化
2.8 本章小結(jié)
第三章 多層快速多極子算法在GPU/CPU異構(gòu)平臺上的一個優(yōu)化實(shí)現(xiàn)
3.1 MLFMA算法的原理以及實(shí)現(xiàn)
3.2 多GPU平臺上近場矩陣元素的計(jì)算及其優(yōu)化
3.2.1 數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)
3.2.2 近場矩陣元素的計(jì)算
3.2.3 GPU與CPU的協(xié)同計(jì)算
3.3 稀疏矩陣向量積的GPU加速
3.4 多GPU平臺上遠(yuǎn)場矩陣-向量積的算法
3.4.1 最底層匯聚/擴(kuò)散
3.4.2 上層匯聚/擴(kuò)散
3.5 數(shù)值仿真
3.6 本章小結(jié)
3.7 附錄
第四章 自適應(yīng)交叉近似算法在多GPU平臺上的一個優(yōu)化實(shí)現(xiàn)
4.1 ACA算法原理
4.1.1 算法概述
4.1.2 算法流程
4.2 多GPU平臺上的并行ACA算法
4.2.1 近場矩陣填充的混合精度優(yōu)化
4.2.2 壓縮遠(yuǎn)場子矩陣的并行算法
4.2.3 批量化矩陣向量積的并行方案
4.3 數(shù)值算例
4.4 本章小結(jié)
第五章 高階矩量法在GPU/CPU異構(gòu)平臺上的帶有核外LU求解器的一個優(yōu)化實(shí)現(xiàn)
5.1 高階矩量法
5.1.1 高階面片
5.1.2 高階基函數(shù)
5.1.3 高階矩量法以及奇異性處理
5.2 高階矩量法元素計(jì)算的查表法
5.3 生成HMoM矩陣的一個CUDA算法—核內(nèi)存儲版本
5.3.1 任務(wù)分配
5.3.2 面向GPU的算法優(yōu)化
5.3.3 對比其它并行算法設(shè)計(jì)
5.4 生成HMoM矩陣的一個CUDA算法——核外存儲版本
5.4.1 高階矩量法矩陣的核外分塊方法
5.5 核外LU分解的一個OpenMP-CUDA算法
5.5.1 核外LU分解的算法框架
5.5.2 基于GPU的核外LU分解及其優(yōu)化
5.5.3 基于GPU/CPU協(xié)同計(jì)算的核外LU分解算法
5.6 數(shù)值算例
5.7 本章小結(jié)
參考文獻(xiàn)
結(jié)束語與展望
作者簡介
B.1 基本情況
B.2 學(xué)習(xí)和工作簡歷
B.3 在攻讀博士學(xué)位期間所學(xué)的課程
B.4 在攻讀博士學(xué)位期間參加的研究課題
B.5 在攻讀博士學(xué)位期間完成和發(fā)表的論文
致謝
本文編號:3169002
本文鏈接:http://sikaile.net/shoufeilunwen/jckxbs/3169002.html
最近更新
教材專著