天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計(jì)算機(jī)論文 >

面向申威眾核架構(gòu)的GROMACS并行實(shí)現(xiàn)與性能優(yōu)化

發(fā)布時(shí)間:2020-10-10 12:23
   隨著眾核處理器微結(jié)構(gòu)技術(shù)的發(fā)展,片上集成的計(jì)算和存儲(chǔ)資源越來越多,處理器結(jié)構(gòu)越來越復(fù)雜。海量的片上資源和多樣化的硬件結(jié)構(gòu)使得高性能計(jì)算應(yīng)用在眾核處理器上并行優(yōu)化的難度越來越高。當(dāng)前世界排名第一的超級(jí)計(jì)算機(jī)神威·太湖之光由完全自主設(shè)計(jì)的異構(gòu)眾核處理器SW26010構(gòu)建而成。該處理器采用獨(dú)特的主從結(jié)構(gòu),片上包含260個(gè)異構(gòu)核心,理論峰值性能高達(dá)3.06Tflops。鑒于其硬件結(jié)構(gòu)的獨(dú)特性,現(xiàn)有的商用平臺(tái)上的科學(xué)計(jì)算應(yīng)用必須經(jīng)過重構(gòu)和優(yōu)化后才能夠在神威·太湖之光上運(yùn)行。GROMACS是當(dāng)前最流行的開源分子動(dòng)力學(xué)模擬軟件之一,具有模擬速度快和適用范圍廣的優(yōu)點(diǎn),在新材料研制、化工模擬、生物醫(yī)藥等諸多領(lǐng)域被廣泛應(yīng)用。本文的研究目標(biāo)是在神威·太湖之光上開展GROMACS的并行實(shí)現(xiàn)和性能優(yōu)化工作,嘗試突破現(xiàn)有軟件在申威眾核架構(gòu)上并行優(yōu)化所面臨的一系列挑戰(zhàn)性難題,充分發(fā)揮出神威·太湖之光的計(jì)算能力,為國產(chǎn)眾核處理器應(yīng)用水平的提高和體系結(jié)構(gòu)的改進(jìn)提供指導(dǎo)。本文主要研究?jī)?nèi)容和工作成果如下:(1)為了適應(yīng)申威處理器獨(dú)特的異構(gòu)眾核架構(gòu),我們?yōu)镚ROMACS熱點(diǎn)函數(shù)設(shè)計(jì)了合理的任務(wù)劃分策略和并行實(shí)現(xiàn)方案。利用主核與從核間的并行性,我們實(shí)現(xiàn)了基于三級(jí)流水線的任務(wù)級(jí)并行模式,在不引入額外時(shí)間開銷的前提下解決了熱點(diǎn)函數(shù)并行化過程中出現(xiàn)的負(fù)載不平衡問題和數(shù)據(jù)依賴問題。(2)為了解決申威眾核架構(gòu)訪存帶寬受限的難題并充分利用處理器計(jì)算資源,我們提出了眾多性能優(yōu)化策略包括合理利用SPM、DMA、軟件Cache、從核混合并行等。利用GROMACS熱點(diǎn)函數(shù)的訪存局部性和申威眾核處理器從核間的并行性,我們實(shí)現(xiàn)了熱點(diǎn)函數(shù)運(yùn)行時(shí)數(shù)據(jù)的高效重用并將從核訪存時(shí)間開銷充分隱藏。針對(duì)每一條優(yōu)化策略,我們都對(duì)其實(shí)現(xiàn)細(xì)節(jié)和性能收益展開詳盡地分析與討論。(3)我們將GROMACS在從核上優(yōu)化后的版本與其僅在主核上運(yùn)行的版本進(jìn)行比較。在單核組上,我們使用64個(gè)從核將GROMACS熱點(diǎn)函數(shù)性能加速了約27倍,并且將軟件整體性能加速了約6倍。在多節(jié)點(diǎn)擴(kuò)展方面,我們將GROMACS的峰值模擬速度提升了約2倍。
【學(xué)位單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP332
【部分圖文】:

向量操作,太湖,亂序執(zhí)行,運(yùn)算系統(tǒng)


領(lǐng)域的最高榮譽(yù)一一戈登貝爾獎(jiǎng),這是我國即“全球大氣非靜力云分辨模擬”?[17]??之后第二次獲得該獎(jiǎng)項(xiàng)。神威?太湖之光的主要性能參數(shù)如表1.1所示。??圖1.1展示了神威?太湖之光的整體結(jié)構(gòu)。全機(jī)主要包括運(yùn)算系統(tǒng)、存儲(chǔ)系??統(tǒng)和管理系統(tǒng)等模塊。運(yùn)算系統(tǒng)是按照運(yùn)算節(jié)點(diǎn)、插件板、超節(jié)點(diǎn)、運(yùn)算機(jī)倉??的結(jié)構(gòu)逐層構(gòu)建起來的。其中,運(yùn)算節(jié)點(diǎn)是運(yùn)算系統(tǒng)的基本單元,8?jìng)(gè)運(yùn)算節(jié)??點(diǎn)集成在一個(gè)插件板上。一個(gè)超節(jié)點(diǎn)包含32個(gè)插件板,共計(jì)256個(gè)運(yùn)算節(jié)點(diǎn)。??超節(jié)點(diǎn)內(nèi)部采用全連接的模式,可實(shí)現(xiàn)高效的消息廣播;超節(jié)點(diǎn)間支持高速??Infiniband通信。4個(gè)超節(jié)點(diǎn)組成一個(gè)運(yùn)算機(jī)倉。一個(gè)完整的運(yùn)算系統(tǒng)包含40??個(gè)運(yùn)算機(jī)倉。存儲(chǔ)系統(tǒng)包括存儲(chǔ)網(wǎng)絡(luò)和磁盤存儲(chǔ)陣列,總?cè)萘窟_(dá)到20PB,負(fù)責(zé)??為運(yùn)算系統(tǒng)提供高效可靠的存儲(chǔ)服務(wù)。管理系統(tǒng)包括系統(tǒng)控制服務(wù)器、數(shù)據(jù)庫??服務(wù)器等,用于實(shí)現(xiàn)整個(gè)系統(tǒng)的管理與服務(wù)并確保全機(jī)的穩(wěn)定性和可用性。此??夕卜,神威?太湖之光還配備有完善的基礎(chǔ)軟件系統(tǒng),包括定制的Linux操作系統(tǒng)、??編譯工具鏈、基礎(chǔ)數(shù)學(xué)庫、并行開發(fā)環(huán)境和作業(yè)管理系統(tǒng)等。在并行模式方面,??節(jié)點(diǎn)級(jí)通常使用MPI實(shí)現(xiàn)并行

太湖,處理器,向量,部件


node、?nodes??圖1.1神威?太湖之光整體結(jié)構(gòu)??SW260丨0處理器的主核是功能完備的64位RISC核心,支持內(nèi)外部中斷、??內(nèi)存管理、超標(biāo)量處理、亂序執(zhí)行和256-bit向量操作,可運(yùn)行在系統(tǒng)模式和用??戶模式下。每個(gè)主核包含32KB的L1指令Cache、32KB的L1數(shù)據(jù)Cache和??256KB的L2Cache,且配備8GB的片外內(nèi)存空間。相比之下,從核也是64位??RISC核心,但結(jié)構(gòu)和功能相對(duì)簡(jiǎn)單,僅能運(yùn)行在用戶模式下,且不支持外部中??斷函數(shù)。每個(gè)從核包含16KB的L1指令Cache和64ICB的私有暫存空間(Scratch??Pad?Memory,?SPM)。這種設(shè)計(jì)極大地降低了處理器微結(jié)構(gòu)的復(fù)雜度,使得片??上能夠集成更多的從核計(jì)算資源。此外,從核同樣支持256-bit向量指令,其豐??4??

核數(shù),帶寬,函數(shù)


??少量的計(jì)算操作,是一個(gè)典型的訪存密集的案例。而從圖1.4中可以看出,對(duì)??于這種訪存密集型的案例,從核陣列所占用的實(shí)際帶寬會(huì)隨著所使用從核數(shù)的??增長(zhǎng)而輕易達(dá)到飽和;當(dāng)從核數(shù)為64時(shí),從核間的帶寬競(jìng)爭(zhēng)將十分激烈。分子??動(dòng)力學(xué)模擬是典型的計(jì)算密集型應(yīng)用場(chǎng)景。鑒于從核獨(dú)特的硬件特性,其在執(zhí)行??分子動(dòng)力學(xué)計(jì)算任務(wù)時(shí)免不了對(duì)計(jì)算數(shù)據(jù)進(jìn)行頻繁的搬運(yùn),而這種頻繁的訪存??操作往往會(huì)引起從核間激烈的帶寬競(jìng)爭(zhēng)。因此,如何解決分子動(dòng)力學(xué)軟件并行??化過程中可能出現(xiàn)的帶寬競(jìng)爭(zhēng)問題亦是一個(gè)極大的挑戰(zhàn)??■■bandwidth?utilization?of?Dcopy?—bandwidth?for?CPE?cluster??_?35??"i/T??go?30??0??1?25?19.95?20.17?22?04?21.25?21.41??iiiiilll??1?2?4?8?16?32?64??number?of?CPEs??圖1.4從核數(shù)目對(duì)函數(shù)Dcopy訪存帶寬的影響??1.3論文研究目標(biāo)和主要工作??正如前文所述,神威?太湖之光作為一臺(tái)采用申威異構(gòu)眾核架構(gòu)的超級(jí)計(jì)算??機(jī),擁有著海量的計(jì)算資源和存儲(chǔ)資源,但由于其發(fā)布時(shí)間較短且硬件架構(gòu)與??主流商用平臺(tái)相比有較大的不同
【相似文獻(xiàn)】

相關(guān)期刊論文 前4條

1 張寶花;徐順;;GROMACS軟件并行計(jì)算性能分析[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2016年12期

2 寇大治;左光宏;;nPME對(duì)GROMACS軟件并行計(jì)算性能的影響分析[J];計(jì)算機(jī)應(yīng)用與軟件;2014年10期

3 馮劍;;粗粒化系統(tǒng)的GROMACS模擬[J];滁州學(xué)院學(xué)報(bào);2018年05期

4 嚴(yán)歷;郭力;李曉霞;;分子動(dòng)力學(xué)模擬軟件GROMACS向GPGPU移植初探[J];計(jì)算機(jī)與應(yīng)用化學(xué);2010年12期


相關(guān)碩士學(xué)位論文 前4條

1 余洋;面向申威眾核架構(gòu)的GROMACS并行實(shí)現(xiàn)與性能優(yōu)化[D];中國科學(xué)技術(shù)大學(xué);2018年

2 王海強(qiáng);天河2號(hào)上CPU/MIC協(xié)同的分子動(dòng)力學(xué)模擬軟件GROMACS并行加速技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2015年

3 楊根慶;磷酸二酯酶4與抑制劑作用的模擬分析及其重組表達(dá)[D];重慶醫(yī)科大學(xué);2007年

4 李思琦;新型壬基酚甜菜堿和腰果酚甜菜堿的分子動(dòng)力學(xué)模擬的構(gòu)建與研究[D];東北石油大學(xué);2015年



本文編號(hào):2835188

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2835188.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d61e3***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com