面向天河二號異構(gòu)眾核平臺的CFD模擬與性能優(yōu)化技術(shù)研究
本文關(guān)鍵詞:面向天河二號異構(gòu)眾核平臺的CFD模擬與性能優(yōu)化技術(shù)研究
更多相關(guān)文章: 訪存受限 CFD 力導(dǎo)引算法 LBM NPB-MZ 并行優(yōu)化 CPU+MIC
【摘要】:以高速的協(xié)處理器或加速器配合主處理器協(xié)同工作,正成為當(dāng)前高性能計算機(jī)架構(gòu)發(fā)展的新趨勢。例如,以圖形處理器(Graphic Processing Unit,簡稱GPU)為加速器、或者以Intel的集成眾核(Many Integrated Core,簡稱MIC)為協(xié)處理器的混合異構(gòu)架構(gòu)在高端計算機(jī)中日益成為主流,以2014年上半年世界超級計算機(jī)500強(qiáng)(TOP500)為例,前10名中有4臺、前15名中有7臺均為混合異構(gòu)架構(gòu)。如何將現(xiàn)有的領(lǐng)域應(yīng)用問題無縫移植到這些混合異構(gòu)計算平臺上,將日益成為高性能計算應(yīng)用開發(fā)人員面臨的挑戰(zhàn)性問題。本文以典型計算流體動力學(xué)(CFD)應(yīng)用問題為切入點,分析了其訪存計算特征,重點探索了此類應(yīng)用問題在以天河二號為代表的CPU+MIC混合異構(gòu)計算平臺上的協(xié)同并行與性能優(yōu)化方法,以期為其它相似應(yīng)用領(lǐng)域的大規(guī)模異構(gòu)協(xié)同并行提供方法積累與技術(shù)借鑒?紤]到當(dāng)前的CFD模擬包括Navier-Stokes控制方程離散求解、格子Boltzmann方程求解等兩大主流方法,本文首先從應(yīng)用問題計算特征入手分析,結(jié)果表明,這兩類方法均屬計算密度較低的訪存受限型應(yīng)用;其次,對以CFD為代表的訪存受限類應(yīng)用在CPU+MIC混合異構(gòu)平臺上的性能移植進(jìn)行了詳細(xì)研究與探索。由于真實CFD應(yīng)用求解具有較為復(fù)雜的物理過程與計算流程,我們先以一個同樣具有訪存受限特征的簡單模型應(yīng)用(力導(dǎo)引算法SORGRAD)為例,探索了在純CPU平臺及純MIC平臺兩種同構(gòu)型平臺上的加速與優(yōu)化方法,然后以NS方程離散求解的應(yīng)用程序NPB BT-MZ和格子Boltzmann方程求解方法(LBM)的應(yīng)用程序Open LBMflow為例,分別研究了兩類CFD求解應(yīng)用在天河二號平臺上的異構(gòu)協(xié)同并行移植與性能優(yōu)化方法。我們按照并行與優(yōu)化技術(shù)側(cè)重點、以及環(huán)境平臺的不同,將研究工作組織為兩部分:一是面向同構(gòu)型(即純CPU或純MIC)眾核平臺的典型CFD應(yīng)用并行與優(yōu)化,重點研究了性能模型、應(yīng)用特征與眾核平臺的高效并行與性能優(yōu)化技術(shù);面向天河CPU+MIC混合異構(gòu)環(huán)境下的CFD數(shù)值模擬,重點關(guān)注異構(gòu)環(huán)境中獨特的協(xié)同并行與優(yōu)化方法。具體研究工作與主要創(chuàng)新點如下:(一)面向天河眾核同構(gòu)平臺的典型CFD應(yīng)用并行與優(yōu)化方面:(1)基于屋頂式性能模型、以計算密度為度量指標(biāo),分析了典型CFD求解過程的程序特征,為后續(xù)并行移植及性能優(yōu)化時選擇突破口提供了理論基礎(chǔ)與決策依據(jù)。分析結(jié)果表明,傳統(tǒng)CFD求解方法通常屬于計算密度較小的“訪存受限型”應(yīng)用,這表明在進(jìn)行并行移植及性能優(yōu)化時,訪存性能優(yōu)化將是首要關(guān)注的目標(biāo)。(2)以力導(dǎo)引算法應(yīng)用問題(SORGRAD)為例,基于CPU同構(gòu)平臺及MIC同構(gòu)平臺,提出并實現(xiàn)了數(shù)據(jù)級與指令級兩級并行的加速與優(yōu)化方法。數(shù)據(jù)級并行采用了Open MP多線程實現(xiàn),指令級并行則針對算法核心模塊采用了單指令多數(shù)據(jù)(SIMD)向量化實現(xiàn);將程序移植到MIC平臺上時,重點測試分析了使用更寬的向量指令的并行效果。數(shù)值測試結(jié)果表明,以native的模式在MIC對程序進(jìn)行并行計算,在數(shù)據(jù)規(guī)模大于8704時,并行程序相對于串行程序性能最高提升在600倍左右。在力導(dǎo)引問題上所獲得的訪存受限型應(yīng)用并行與優(yōu)化經(jīng)驗,可推廣到物理過程更復(fù)雜的CFD應(yīng)用問題中去。(3)針對采用格子Boltzmann方法(LBM)類的CFD應(yīng)用求解問題,采用了任務(wù)級、數(shù)據(jù)集和指令級三級并行策略,提出并實現(xiàn)了MPI+Open MP混合并行方法,結(jié)果表明,LBM應(yīng)用問題具有良好的強(qiáng)可擴(kuò)展性和弱可擴(kuò)展性,在CPU上多線程優(yōu)化性能可提升14倍左右。通過單核優(yōu)化,在數(shù)據(jù)規(guī)模為512*256*256(除特殊說明外測試規(guī)模均為512*256*256)時串行程序性能提升就可達(dá)2.97倍;通過程序多線程優(yōu)化,性能提升14倍左右;通過跨節(jié)點并行優(yōu)化,對MPI通信次序進(jìn)行了重新排序,結(jié)果表明大規(guī)模的LBM并行計算具有良好的強(qiáng)可擴(kuò)展性和弱可擴(kuò)展性;通過指令級的SIMD優(yōu)化,使得訪存順序與計算順序相匹配,有效提高了計算/訪存比。(4)針對NS離散求解(NPB BT-MZ)類CFD應(yīng)用問題,對其算法實現(xiàn)上的并行性進(jìn)行了探索,實現(xiàn)了該問題的粘性項與非粘性項的并發(fā)計算,以及不同維方向上粘性項計算的并行。分析與測試驗證,驗證了并行方法的正確性,性能測試結(jié)果表明,新的并行算法可提升性能2.8倍。(二)面向天河CPU+MIC混合異構(gòu)環(huán)境下的CFD應(yīng)用協(xié)同并行:(1)針對LBM應(yīng)用問題在混合異構(gòu)平臺上的計算,提出了基于offload異步傳輸?shù)膮f(xié)同并行計算方法。結(jié)果表明,該并行實現(xiàn)很好的將CPU與MIC通信時間進(jìn)行了隱藏,在單節(jié)點上取得了較CPU串行程序加速69.24倍的性能;在天河二號上進(jìn)行的大規(guī)模測試結(jié)果表明,該協(xié)同并行方法具有良好的弱可擴(kuò)展性。(2)針對BT-MZ應(yīng)用程序在混合異構(gòu)平臺上的計算,提出了基于線程嵌套的并行計算方法,結(jié)合流水線并行化思想,實現(xiàn)了CPU+MIC異構(gòu)并行性能較純CPU性能加速2.14倍的性能。
【關(guān)鍵詞】:訪存受限 CFD 力導(dǎo)引算法 LBM NPB-MZ 并行優(yōu)化 CPU+MIC
【學(xué)位授予單位】:國防科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP338;O35
【目錄】:
- 摘要9-11
- ABSTRACT11-14
- 第一章 緒論14-20
- 1.1 研究背景14-16
- 1.1.1 計算流體力學(xué)簡介14-15
- 1.1.2 CFD基本流程15
- 1.1.3 高性能計算機(jī)的發(fā)展歷史簡介15-16
- 1.2 CFD應(yīng)用的并行研究現(xiàn)狀16-18
- 1.2.1 國內(nèi)外研究現(xiàn)狀16-18
- 1.2.2 簡要分析總結(jié)18
- 1.3 研究內(nèi)容18-19
- 1.4 論文結(jié)構(gòu)19-20
- 第二章 天河二號超級計算機(jī)異構(gòu)眾核平臺及其并行編程技術(shù)20-24
- 2.1 天河二號的體系結(jié)構(gòu)20-22
- 2.2 CPU+MIC編程模型22-23
- 2.2.1 native模式22
- 2.2.2 offload模式22-23
- 2.2.3 symmetric模式23
- 2.3 本章小結(jié)23-24
- 第三章 面向天河眾核同構(gòu)平臺的典型CFD應(yīng)用并行與優(yōu)化24-49
- 3.1 性能模型分析24-26
- 3.2 并行優(yōu)化技術(shù)26-28
- 3.2.1 任務(wù)級并行優(yōu)化26
- 3.2.2 數(shù)據(jù)級并行優(yōu)化26-27
- 3.2.3 指令級并行優(yōu)化27-28
- 3.3 力導(dǎo)引算法的并行優(yōu)化28-32
- 3.3.1 力導(dǎo)引算法簡介28-29
- 3.3.2 力導(dǎo)引算法的并行與優(yōu)化29-30
- 3.3.3 力導(dǎo)引算法的優(yōu)化結(jié)果30-32
- 3.4 CFD典型應(yīng)用分析32-37
- 3.4.1 LBM程序分析32-35
- 3.4.2 NPB-MZ程序分析35-37
- 3.5 CFD典型求解器的并行實現(xiàn)37-41
- 3.5.1 LBM求解器的并行實現(xiàn)與優(yōu)化37-40
- 3.5.2 NPB-MZ求解器的并行實現(xiàn)與優(yōu)化40-41
- 3.6 CFD典型求解器的并行性能分析41-47
- 3.6.1 LBM求解器性能分析41-44
- 3.6.2 NPB-MZ求解器性能分析44-47
- 3.7 測試結(jié)果分析47-48
- 3.8 本章小結(jié)48-49
- 第四章 天河CPU+MIC混合異構(gòu)環(huán)境下的CFD應(yīng)用協(xié)同并行技術(shù)49-55
- 4.1 CPU+MIC協(xié)同計算的并行設(shè)計方案49-50
- 4.2 CPU+MIC協(xié)同并行編程模型50-52
- 4.2.1 基于多線程的協(xié)同并行編程模型50
- 4.2.2 基于offload異步傳輸?shù)膮f(xié)同并行編程模型50-52
- 4.3 CPU+MIC協(xié)同并行性能分析52-54
- 4.3.1 LBM應(yīng)用程序的協(xié)同并行性能52-53
- 4.3.2 NPB-MZ應(yīng)用程序的協(xié)同并行53-54
- 4.4 本章小結(jié)54-55
- 第五章 總結(jié)與展望55-56
- 致謝56-57
- 參考文獻(xiàn)57-60
- 作者在學(xué)期間取得的學(xué)術(shù)成果60
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 李培慧;何宗鍵;;某人力資源管理系統(tǒng)中用戶導(dǎo)入模塊性能優(yōu)化方案分析[J];科技信息;2010年35期
2 王江偉;陳琛;;淺析軟件性能優(yōu)化[J];科技風(fēng);2012年08期
3 楊波;;系統(tǒng)性能優(yōu)化問題研究[J];科技致富向?qū)?2013年09期
4 馬晶;;信息系統(tǒng)中數(shù)據(jù)庫的性能優(yōu)化[J];科技信息;2010年14期
5 靳春霞;;計算機(jī)系統(tǒng)性能優(yōu)化研究[J];河南科技;2010年15期
6 ;科技圖片[J];今日科技;1986年07期
7 李學(xué)國;沈應(yīng)蘭;;基于Oracle 11g表性能優(yōu)化初探[J];河南科技;2013年14期
8 陳聞凱;;數(shù)據(jù)庫的性能優(yōu)化[J];科技致富向?qū)?2013年21期
9 邢承杰;宋式斌;林莉;楊旭;;LoadRunner在系統(tǒng)性能優(yōu)化中的應(yīng)用[J];中山大學(xué)學(xué)報(自然科學(xué)版);2009年S1期
10 劉楚雄;梁鶯鶯;;管理信息系統(tǒng)數(shù)據(jù)庫性能優(yōu)化技術(shù)[J];科技廣場;2011年05期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 姚杰;;寶鋼不銹鋼系統(tǒng)數(shù)據(jù)庫性能優(yōu)化方案[A];中國計量協(xié)會冶金分會2007年會論文集[C];2007年
2 代桂平;殷保群;奚宏生;周亞平;;受控M/G/1排隊系統(tǒng)的性能優(yōu)化[A];第二十二屆中國控制會議論文集(下)[C];2003年
3 李彥;王屹;徐繼明;;ERP系統(tǒng)的性能優(yōu)化[A];全國煉鋼連鑄過程自動化技術(shù)交流會論文集[C];2006年
4 趙海波;楊昭;方箏;徐振軍;;燃?xì)鈮嚎s式熱泵系統(tǒng)全年季節(jié)性能優(yōu)化[A];中國制冷學(xué)會2007學(xué)術(shù)年會論文集[C];2007年
5 高明星;;DB2數(shù)據(jù)庫應(yīng)用性能優(yōu)化問題淺談[A];科技、工程與經(jīng)濟(jì)社會協(xié)調(diào)發(fā)展——中國科協(xié)第五屆青年學(xué)術(shù)年會論文集[C];2004年
6 奚宏生;唐昊;殷保群;周亞平;;Markov控制過程在緊致行動集上的性能優(yōu)化[A];第二十一屆中國控制會議論文集[C];2002年
7 高明星;;DB2數(shù)據(jù)庫應(yīng)用性能優(yōu)化問題淺談[A];鐵道部信息技術(shù)中心成立30周年暨鐵路運輸管理信息系統(tǒng)(TMIS)工程全面竣工投產(chǎn)TMIS工程建設(shè)論文專輯(二)[C];2005年
8 高明星;;DB2數(shù)據(jù)庫應(yīng)用性能優(yōu)化問題淺談[A];中國鐵道學(xué)會——2004年度學(xué)術(shù)活動優(yōu)秀論文評獎?wù)撐募痆C];2005年
9 杜勁松;李強(qiáng);包勁松;;國產(chǎn)600MW機(jī)組循環(huán)效率試驗及性能優(yōu)化分析[A];2008中國可持續(xù)發(fā)展論壇論文集(3)[C];2008年
10 杜勁松;李強(qiáng);包勁松;;國產(chǎn)600MW機(jī)組循環(huán)效率試驗及性能優(yōu)化分析[A];全國火電大機(jī)組(600MW級)競賽第十二屆年會論文集(上冊)[C];2008年
中國重要報紙全文數(shù)據(jù)庫 前4條
1 陳翔;性能優(yōu)化只能救火[N];中國計算機(jī)報;2007年
2 本報記者 郭平;EMC簡單高效實現(xiàn)私有云[N];計算機(jī)世界;2010年
3 ;安圖特引入新型數(shù)據(jù)加速解決方案[N];人民郵電;2008年
4 陳洪康 郭寶群 李雪梅;淺談VLDB性能優(yōu)化與維護(hù)[N];人民郵電;2001年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前8條
1 李攀攀;云服務(wù)SLA合規(guī)性驗證及性能優(yōu)化研究[D];哈爾濱工業(yè)大學(xué);2016年
2 陳偉鋒;大規(guī)模復(fù)雜過程系統(tǒng)的高性能優(yōu)化理論與方法研究[D];浙江大學(xué);2011年
3 李磊;分布式系統(tǒng)中容錯機(jī)制性能優(yōu)化技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2007年
4 賈海鵬;面向GPU計算平臺的若干并行優(yōu)化關(guān)鍵技術(shù)研究[D];中國海洋大學(xué);2012年
5 那俊;基于兩階段適應(yīng)的ASBS性能持續(xù)優(yōu)化方法研究[D];東北大學(xué);2011年
6 魏丫丫;Web傳輸?shù)男阅軆?yōu)化[D];清華大學(xué);2006年
7 何倩;P2P系統(tǒng)性能優(yōu)化若干關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2010年
8 毛宏燕;基于部分計值的服務(wù)性能優(yōu)化研究[D];上海交通大學(xué);2006年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 鄒興偉;防偽纖維熒光檢測儀性能優(yōu)化研究[D];西南科技大學(xué);2015年
2 邱能俊;科學(xué)大數(shù)據(jù)云分析服務(wù)的性能優(yōu)化技術(shù)研究[D];貴州大學(xué);2015年
3 陳俊t,
本文編號:851671
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/851671.html