非結(jié)構(gòu)CFD軟件MPI+OpenMP混合并行及超大規(guī)模非定常并行計(jì)算的應(yīng)用
發(fā)布時(shí)間:2021-07-05 16:11
常規(guī)工程應(yīng)用中,非定常數(shù)值模擬(如多體分離)的計(jì)算量十分巨大,如果為了達(dá)到更高的計(jì)算精度,加密網(wǎng)格或者采用高精度方法將會(huì)使得計(jì)算量進(jìn)一步增大,導(dǎo)致非定常數(shù)值模擬在CFD工程應(yīng)用中成為十分耗時(shí)和昂貴的工作,因此,提高非定常數(shù)值模擬的可擴(kuò)展性和計(jì)算效率十分必要。為充分發(fā)揮既有分布內(nèi)存又有共享內(nèi)存的多核處理器的性能和效率優(yōu)勢(shì),對(duì)作者團(tuán)隊(duì)開發(fā)的非結(jié)構(gòu)網(wǎng)格二階精度有限體積CFD軟件(HyperFLOW)進(jìn)行了混合并行改造,在計(jì)算節(jié)點(diǎn)間采用MPI消息傳遞機(jī)制,在節(jié)點(diǎn)內(nèi)采用OpenMP共享內(nèi)存的MPI+OpenMP混合并行策略。首先分別實(shí)現(xiàn)了兩種粒度(粗粒度和細(xì)粒度)的混合并行,并基于國(guó)產(chǎn)in-house集群采用CRM標(biāo)模(約4 000萬(wàn)網(wǎng)格單元)定常湍流算例對(duì)兩種混合并行模式進(jìn)行了測(cè)試和比較。結(jié)果表明,粗粒度在進(jìn)程數(shù)和分區(qū)數(shù)較少的小規(guī)模并行時(shí)具有效率優(yōu)勢(shì),16線程時(shí)效率較高;而細(xì)粒度混合并行在大規(guī)模并行計(jì)算時(shí)具有優(yōu)勢(shì),8線程時(shí)效率較高。其次,驗(yàn)證了混合并行在非定常計(jì)算情況下的可擴(kuò)展性,采用機(jī)翼外掛物投放標(biāo)模算例,分別生成3.6億和28.8億非結(jié)構(gòu)重疊網(wǎng)格,采用對(duì)等的(P2P)網(wǎng)格讀入模式和優(yōu)化的重...
【文章來(lái)源】:航空學(xué)報(bào). 2020,41(10)北大核心EICSCD
【文章頁(yè)數(shù)】:15 頁(yè)
【部分圖文】:
幾種并行模式的比較
圖2是MPI通信模式示意,圖中給出了4個(gè)進(jìn)程、4個(gè)網(wǎng)格塊,將每個(gè)網(wǎng)格塊分配至具有相同編號(hào)的進(jìn)程。以1號(hào)進(jìn)程為例,遍歷4個(gè)網(wǎng)格塊,該進(jìn)程上只有1號(hào)網(wǎng)格塊(與3號(hào)進(jìn)程中的3號(hào)網(wǎng)格塊為鄰居關(guān)系),當(dāng)遍歷到1號(hào)網(wǎng)格塊時(shí)向3號(hào)進(jìn)程發(fā)送消息,當(dāng)遍歷到3號(hào)網(wǎng)格塊時(shí)從1號(hào)網(wǎng)格塊接收消息,而對(duì)于0號(hào)、2號(hào)網(wǎng)格塊則跳過(guò)[13]。以下采用CRM標(biāo)模定常湍流算例[10]對(duì)MPI效率進(jìn)行測(cè)試,標(biāo)模網(wǎng)格為非結(jié)構(gòu)混合網(wǎng)格,網(wǎng)格量約為4 000萬(wàn)單元,具體網(wǎng)格量如表1所示。
圖3給出了加速比和并行效率的測(cè)試結(jié)果。最小測(cè)試規(guī)模為64核,最大測(cè)試規(guī)模為8 192核并行,不同并行規(guī)模的網(wǎng)格均采用8 192分區(qū)。結(jié)果顯示在1 024核并行時(shí),相對(duì)于64核的MPI并行效率為99.8%,加速比為15.97,接近理想加速比。但是在并行規(guī)模進(jìn)一步增大時(shí),并行效率急劇下降,當(dāng)并行核數(shù)為8 192核時(shí),程序的并行效率只有37.9%,加速比僅達(dá)48左右,與理想加速比128存在較大差距。這是因?yàn)殡S著并行規(guī)模增大,單核處理的網(wǎng)格量減少,在8 192核時(shí),單核處理的物理網(wǎng)格量只有不到5 000個(gè)單元,此時(shí)單核的計(jì)算量很小,而通信量隨著核數(shù)增加而急劇增大,從而使得并行效率嚴(yán)重下降。這體現(xiàn)出MPI并行模式在超大規(guī)模并行計(jì)算時(shí)存在的效率瓶頸問(wèn)題,必須通過(guò)減少通信時(shí)間占比來(lái)提高并行效率。利用多核處理器節(jié)點(diǎn)內(nèi)共享內(nèi)存的特性,將程序改造成節(jié)點(diǎn)間采用MPI通信、節(jié)點(diǎn)內(nèi)采用OpenMP共享內(nèi)存的兩級(jí)混合并行模式是一種減少通信量的可行辦法。2.2 混合并行改造與實(shí)例
【參考文獻(xiàn)】:
期刊論文
[1]A CFD-based numerical virtual ?ight simulator and its application in control law design of a maneuverable missile model[J]. Laiping ZHANG,Xinghua CHANG,Rong MA,Zhong ZHAO,Nianhua WANG. Chinese Journal of Aeronautics. 2019(12)
[2]湍流模擬壁面距離MPI/OpenMP混合并行計(jì)算方法[J]. 趙鐘,何磊,張健,徐慶新,張來(lái)平. 空氣動(dòng)力學(xué)學(xué)報(bào). 2019(06)
[3]并行重疊/變形混合網(wǎng)格生成技術(shù)及其應(yīng)用[J]. 常興華,王年華,馬戎,田潤(rùn)雨,張來(lái)平. 氣體物理. 2019(06)
[4]2018年中國(guó)高性能計(jì)算機(jī)發(fā)展現(xiàn)狀分析與展望[J]. 張?jiān)迫? 計(jì)算機(jī)科學(xué). 2019(01)
[5]適用于任意網(wǎng)格的大規(guī)模并行CFD計(jì)算框架PHengLEI[J]. 趙鐘,張來(lái)平,何磊,何先耀,郭永恒,徐慶新. 計(jì)算機(jī)學(xué)報(bào). 2019(11)
[6]并行化非結(jié)構(gòu)重疊網(wǎng)格隱式裝配技術(shù)[J]. 常興華,馬戎,張來(lái)平. 航空學(xué)報(bào). 2018(06)
[7]非結(jié)構(gòu)網(wǎng)格二階有限體積法中黏性通量離散格式精度分析與改進(jìn)[J]. 王年華,李明,張來(lái)平. 力學(xué)學(xué)報(bào). 2018(03)
[8]“神威·太湖之光”及其應(yīng)用系統(tǒng)[J]. 楊廣文,趙文來(lái),丁楠,段芳. 科學(xué). 2017(03)
[9]CFD技術(shù)在航空工程領(lǐng)域的應(yīng)用、挑戰(zhàn)與發(fā)展[J]. 周鑄,黃江濤,黃勇,劉剛,陳作斌,王運(yùn)濤,江雄. 航空學(xué)報(bào). 2017(03)
[10]E級(jí)計(jì)算給CFD帶來(lái)的機(jī)遇與挑戰(zhàn)[J]. 張來(lái)平,鄧小剛,何磊,李明,赫新. 空氣動(dòng)力學(xué)學(xué)報(bào). 2016(04)
本文編號(hào):3266398
【文章來(lái)源】:航空學(xué)報(bào). 2020,41(10)北大核心EICSCD
【文章頁(yè)數(shù)】:15 頁(yè)
【部分圖文】:
幾種并行模式的比較
圖2是MPI通信模式示意,圖中給出了4個(gè)進(jìn)程、4個(gè)網(wǎng)格塊,將每個(gè)網(wǎng)格塊分配至具有相同編號(hào)的進(jìn)程。以1號(hào)進(jìn)程為例,遍歷4個(gè)網(wǎng)格塊,該進(jìn)程上只有1號(hào)網(wǎng)格塊(與3號(hào)進(jìn)程中的3號(hào)網(wǎng)格塊為鄰居關(guān)系),當(dāng)遍歷到1號(hào)網(wǎng)格塊時(shí)向3號(hào)進(jìn)程發(fā)送消息,當(dāng)遍歷到3號(hào)網(wǎng)格塊時(shí)從1號(hào)網(wǎng)格塊接收消息,而對(duì)于0號(hào)、2號(hào)網(wǎng)格塊則跳過(guò)[13]。以下采用CRM標(biāo)模定常湍流算例[10]對(duì)MPI效率進(jìn)行測(cè)試,標(biāo)模網(wǎng)格為非結(jié)構(gòu)混合網(wǎng)格,網(wǎng)格量約為4 000萬(wàn)單元,具體網(wǎng)格量如表1所示。
圖3給出了加速比和并行效率的測(cè)試結(jié)果。最小測(cè)試規(guī)模為64核,最大測(cè)試規(guī)模為8 192核并行,不同并行規(guī)模的網(wǎng)格均采用8 192分區(qū)。結(jié)果顯示在1 024核并行時(shí),相對(duì)于64核的MPI并行效率為99.8%,加速比為15.97,接近理想加速比。但是在并行規(guī)模進(jìn)一步增大時(shí),并行效率急劇下降,當(dāng)并行核數(shù)為8 192核時(shí),程序的并行效率只有37.9%,加速比僅達(dá)48左右,與理想加速比128存在較大差距。這是因?yàn)殡S著并行規(guī)模增大,單核處理的網(wǎng)格量減少,在8 192核時(shí),單核處理的物理網(wǎng)格量只有不到5 000個(gè)單元,此時(shí)單核的計(jì)算量很小,而通信量隨著核數(shù)增加而急劇增大,從而使得并行效率嚴(yán)重下降。這體現(xiàn)出MPI并行模式在超大規(guī)模并行計(jì)算時(shí)存在的效率瓶頸問(wèn)題,必須通過(guò)減少通信時(shí)間占比來(lái)提高并行效率。利用多核處理器節(jié)點(diǎn)內(nèi)共享內(nèi)存的特性,將程序改造成節(jié)點(diǎn)間采用MPI通信、節(jié)點(diǎn)內(nèi)采用OpenMP共享內(nèi)存的兩級(jí)混合并行模式是一種減少通信量的可行辦法。2.2 混合并行改造與實(shí)例
【參考文獻(xiàn)】:
期刊論文
[1]A CFD-based numerical virtual ?ight simulator and its application in control law design of a maneuverable missile model[J]. Laiping ZHANG,Xinghua CHANG,Rong MA,Zhong ZHAO,Nianhua WANG. Chinese Journal of Aeronautics. 2019(12)
[2]湍流模擬壁面距離MPI/OpenMP混合并行計(jì)算方法[J]. 趙鐘,何磊,張健,徐慶新,張來(lái)平. 空氣動(dòng)力學(xué)學(xué)報(bào). 2019(06)
[3]并行重疊/變形混合網(wǎng)格生成技術(shù)及其應(yīng)用[J]. 常興華,王年華,馬戎,田潤(rùn)雨,張來(lái)平. 氣體物理. 2019(06)
[4]2018年中國(guó)高性能計(jì)算機(jī)發(fā)展現(xiàn)狀分析與展望[J]. 張?jiān)迫? 計(jì)算機(jī)科學(xué). 2019(01)
[5]適用于任意網(wǎng)格的大規(guī)模并行CFD計(jì)算框架PHengLEI[J]. 趙鐘,張來(lái)平,何磊,何先耀,郭永恒,徐慶新. 計(jì)算機(jī)學(xué)報(bào). 2019(11)
[6]并行化非結(jié)構(gòu)重疊網(wǎng)格隱式裝配技術(shù)[J]. 常興華,馬戎,張來(lái)平. 航空學(xué)報(bào). 2018(06)
[7]非結(jié)構(gòu)網(wǎng)格二階有限體積法中黏性通量離散格式精度分析與改進(jìn)[J]. 王年華,李明,張來(lái)平. 力學(xué)學(xué)報(bào). 2018(03)
[8]“神威·太湖之光”及其應(yīng)用系統(tǒng)[J]. 楊廣文,趙文來(lái),丁楠,段芳. 科學(xué). 2017(03)
[9]CFD技術(shù)在航空工程領(lǐng)域的應(yīng)用、挑戰(zhàn)與發(fā)展[J]. 周鑄,黃江濤,黃勇,劉剛,陳作斌,王運(yùn)濤,江雄. 航空學(xué)報(bào). 2017(03)
[10]E級(jí)計(jì)算給CFD帶來(lái)的機(jī)遇與挑戰(zhàn)[J]. 張來(lái)平,鄧小剛,何磊,李明,赫新. 空氣動(dòng)力學(xué)學(xué)報(bào). 2016(04)
本文編號(hào):3266398
本文鏈接:http://sikaile.net/kejilunwen/lxlw/3266398.html
最近更新
教材專著