基于申威處理器的PETSc異構并行算法設計和研究
發(fā)布時間:2020-10-02 09:50
隨著科學技術的不斷發(fā)展,世界上的各國都在大力研制自己的超級計算機,超級計算的性能排名也彰顯了一個國家的綜合國力。近年來,我國的超級計算機的性能排名一直高居世界第一,離不開國家的大力支持和投入。在該前提下,國家并行計算機工程技術研究中心自主研發(fā)了申威眾核處理器,并以此為基礎芯片搭建了目前世界上性能最好的超級計算機——神威·太湖之光。為加快國產自主設計的超級計算機更快、更好地投入大科學的數(shù)值計算中,需要科研工作者對國產申為眾核處理器的體系結構有深入理解,所以本文的第一個工作是對申威眾核處理器架構的研究和學習,并對神威·太湖之光的總體架構進行理解。PETSc工具箱由美國能源部支持開發(fā),廣泛用于大規(guī)模的偏微分方程的求解,是大規(guī)�?茖W數(shù)值計算的基礎庫。在許多的超級計算機的應用中都需要調用通用的共性數(shù)學庫,其中PETSc函數(shù)庫就是這一類數(shù)學庫,PETSc函數(shù)庫已經在CPU+GPU異構體系中得到充分的運用,但是在國產的眾核異構芯片上的運用基礎為零,要想實現(xiàn)其在國產眾核異構芯片上的運用,首先需要深入了解PETSc函數(shù)庫的軟件結構,所以本文的第二個工作是對PETSc函數(shù)庫的學習和研究。在完成對硬件和軟件的學習和研究后,本文的第三個工作是根據(jù)軟件特點和硬件特點來實現(xiàn)整個PETSc函數(shù)庫的移植,并根據(jù)研究需要,對PETSc函數(shù)庫中部分的核心函數(shù)進行優(yōu)化,運行時,最多用到神威·太湖之光8192個計算節(jié)點,最后的實驗結果表明:部分核心函數(shù)的并行算法在優(yōu)化后,單節(jié)點的加速比最大達到16.4,基本達到理論加速比;在輸入規(guī)模較大的多節(jié)點MPI可擴展性測試中,8192個節(jié)點的運行時間與256個節(jié)點的運行時間之比為32,,且加速比隨著異構處理器數(shù)目的線性增加接近線性增加,表明PETSc核心函數(shù)并行算法在神威·太湖之光超級計算機上具有良好的可擴展性。
【學位單位】:湖南大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TP332
【部分圖文】:
近似度排序)、BLAS 和 LAPACK、CUSP(一個基于 CUDA GPUS 的 C++模稀疏矩陣函數(shù)庫)、ESSL(用于 IBM 的數(shù)學庫快速稀疏直接 LU 分解)、FFTW歐美最快的傅里葉變換)等等。就此來看 PETSc 工具箱的研究已經滲入到各個他的函數(shù)庫中,它們相輔相成。許多用戶也利用 PETSc 工具箱進行應用開發(fā)并具體的良好的效果例如:地震陷周期地殼形變模擬的 DFDMOD 并行多物理有限元程序[7],DEFMOD 是一個較小的,但完全非結構化且并行的多物理有限元代碼,包括 2D 或者 3D、隱式者顯式等,用于模擬地殼變形的時間尺度范圍從毫秒到數(shù)千年。它可以用來模擬由于地震和火山破裂、粘彈性松弛、冰川后回彈、孔隙彈性彈、水文(UN)加載、地下水庫的流體注入和/或撤出等動態(tài)和準靜態(tài)過程引的變形。FIDMOD 是用 FORTRAN 95 編寫的,并使用 PETSC 的稀疏數(shù)據(jù)結構和求解。在 PCS 或 HPC 集群上,可以使用(穩(wěn)定)線性三、四、四重或十六進制元來解決問題。到目前為止,只支持規(guī)定的負載。部分結果如圖 1.1 所示:
圖 1.2 W7—X 聚變模擬結果德國格賴夫斯瓦爾德 W7-X 聚變實驗中平行流的 Fokk-普朗克動力學計算[8],中 Fokk-普朗克動力學的解法計算簡稱 SFINCS,SIFCS 是一種計算非軸對稱或對稱環(huán)形等離子體中的新古典效應的代碼,如星狀體和托卡馬克。該代碼解決每個物種的分布函數(shù)的漂移動力學方程。除了新古典通量、流動和自舉電流之,還可以獲得其他時刻,例如通量表面上的密度變化,或者分布函數(shù)本身�;� PETSc 函數(shù)庫開發(fā),它的模擬結果如圖 1.2 所示。因此,就目前來看,PETSc 工具箱的研究和應用的范圍十分廣泛。對于我們應用研究,充分的去了解和學習 PETSc 工具箱的底層實現(xiàn)顯得十分有必要。.2.2 神威·太湖之光研究現(xiàn)狀超級計算機是世界上大國科技競爭的角逐點之一,我國一直在大力發(fā)展超級算機的研究,從最早的銀河系列到天河系列再到神威系列,彰顯了我國對大型級計算機的重視。正因如此,也涌現(xiàn)了一大批前仆后繼的科研工作者對超級計
圖 3.4 異構編譯3.5 主從核設計引發(fā)的思考申威處理器的主核和從核的異構體系結構設計給予了編程人員更加靈活的編程方式和算法設計空間,通過主從核的異構體系結構設計也引發(fā)了一些直觀的思考:1)首先最直觀也是最重要的是當程序單節(jié)點運行時主從核的加速效果如何,而多節(jié)點的 MPI 可擴展性又如何?2)從核進行 DMA 批量訪問主存時,意味著數(shù)據(jù)的傳輸,那么數(shù)據(jù)傳輸?shù)拇笮槎嗌俦容^合適,多大的數(shù)據(jù)量才能保證最好的性能呢?3)從核個數(shù)為 64 個,那么在進行主核與從核之間的數(shù)據(jù)傳輸時,從核的個數(shù)對傳輸?shù)挠绊懭绾危?)從核可以用 DMA 方式批量從主存獲得數(shù)據(jù),也可以通過離散的直接訪問主存方式獲取數(shù)據(jù),對于一些程序從核需要隨機不連續(xù)的訪存,這樣的訪存
本文編號:2832250
【學位單位】:湖南大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TP332
【部分圖文】:
近似度排序)、BLAS 和 LAPACK、CUSP(一個基于 CUDA GPUS 的 C++模稀疏矩陣函數(shù)庫)、ESSL(用于 IBM 的數(shù)學庫快速稀疏直接 LU 分解)、FFTW歐美最快的傅里葉變換)等等。就此來看 PETSc 工具箱的研究已經滲入到各個他的函數(shù)庫中,它們相輔相成。許多用戶也利用 PETSc 工具箱進行應用開發(fā)并具體的良好的效果例如:地震陷周期地殼形變模擬的 DFDMOD 并行多物理有限元程序[7],DEFMOD 是一個較小的,但完全非結構化且并行的多物理有限元代碼,包括 2D 或者 3D、隱式者顯式等,用于模擬地殼變形的時間尺度范圍從毫秒到數(shù)千年。它可以用來模擬由于地震和火山破裂、粘彈性松弛、冰川后回彈、孔隙彈性彈、水文(UN)加載、地下水庫的流體注入和/或撤出等動態(tài)和準靜態(tài)過程引的變形。FIDMOD 是用 FORTRAN 95 編寫的,并使用 PETSC 的稀疏數(shù)據(jù)結構和求解。在 PCS 或 HPC 集群上,可以使用(穩(wěn)定)線性三、四、四重或十六進制元來解決問題。到目前為止,只支持規(guī)定的負載。部分結果如圖 1.1 所示:
圖 1.2 W7—X 聚變模擬結果德國格賴夫斯瓦爾德 W7-X 聚變實驗中平行流的 Fokk-普朗克動力學計算[8],中 Fokk-普朗克動力學的解法計算簡稱 SFINCS,SIFCS 是一種計算非軸對稱或對稱環(huán)形等離子體中的新古典效應的代碼,如星狀體和托卡馬克。該代碼解決每個物種的分布函數(shù)的漂移動力學方程。除了新古典通量、流動和自舉電流之,還可以獲得其他時刻,例如通量表面上的密度變化,或者分布函數(shù)本身�;� PETSc 函數(shù)庫開發(fā),它的模擬結果如圖 1.2 所示。因此,就目前來看,PETSc 工具箱的研究和應用的范圍十分廣泛。對于我們應用研究,充分的去了解和學習 PETSc 工具箱的底層實現(xiàn)顯得十分有必要。.2.2 神威·太湖之光研究現(xiàn)狀超級計算機是世界上大國科技競爭的角逐點之一,我國一直在大力發(fā)展超級算機的研究,從最早的銀河系列到天河系列再到神威系列,彰顯了我國對大型級計算機的重視。正因如此,也涌現(xiàn)了一大批前仆后繼的科研工作者對超級計
圖 3.4 異構編譯3.5 主從核設計引發(fā)的思考申威處理器的主核和從核的異構體系結構設計給予了編程人員更加靈活的編程方式和算法設計空間,通過主從核的異構體系結構設計也引發(fā)了一些直觀的思考:1)首先最直觀也是最重要的是當程序單節(jié)點運行時主從核的加速效果如何,而多節(jié)點的 MPI 可擴展性又如何?2)從核進行 DMA 批量訪問主存時,意味著數(shù)據(jù)的傳輸,那么數(shù)據(jù)傳輸?shù)拇笮槎嗌俦容^合適,多大的數(shù)據(jù)量才能保證最好的性能呢?3)從核個數(shù)為 64 個,那么在進行主核與從核之間的數(shù)據(jù)傳輸時,從核的個數(shù)對傳輸?shù)挠绊懭绾危?)從核可以用 DMA 方式批量從主存獲得數(shù)據(jù),也可以通過離散的直接訪問主存方式獲取數(shù)據(jù),對于一些程序從核需要隨機不連續(xù)的訪存,這樣的訪存
【參考文獻】
相關期刊論文 前8條
1 鄭方;張昆;鄔貴明;高紅光;唐勇;呂暉;過鋒;李宏亮;謝向輝;陳左寧;;面向高性能計算的眾核處理器結構級高能效技術[J];計算機學報;2014年10期
2 王濤;;“天河二號”超級計算機[J];科學;2013年04期
3 徐瑩;徐磊;姜愷;;三維Navier-Stokes方程分步法的并行算法在異構平臺上實現(xiàn)初探[J];計算機工程與科學;2012年09期
4 呂明洲;陳耀武;;基于異構多核處理器的H.264并行編碼算法[J];計算機工程;2012年16期
5 蔣建春;汪同慶;曾素華;;求解異構并行系統(tǒng)任務分配的混合離散粒子群算法[J];控制與決策;2011年09期
6 李樹;田東風;鄧力;;中子中子碰撞產生超高能中子問題模擬[J];計算物理;2010年05期
7 蔣韻聯(lián);孫廣中;許胤龍;;并行異構系統(tǒng)中的一種高效任務調度算法[J];計算機工程;2007年11期
8 陸林生;董超群;李志輝;;多相空間數(shù)值模擬并行化研究[J];計算機科學;2003年03期
相關博士學位論文 前1條
1 肖漢;基于CPU+GPU的影像匹配高效能異構并行計算研究[D];武漢大學;2011年
相關碩士學位論文 前1條
1 宋志方;面向天河二號異構眾核平臺的CFD模擬與性能優(yōu)化技術研究[D];國防科學技術大學;2014年
本文編號:2832250
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2832250.html
最近更新
教材專著