基于高性能協(xié)處理器的粒子輸運(yùn)模擬加速關(guān)鍵技術(shù)研究
本文關(guān)鍵詞:基于高性能協(xié)處理器的粒子輸運(yùn)模擬加速關(guān)鍵技術(shù)研究 出處:《國防科學(xué)技術(shù)大學(xué)》2016年博士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 高性能協(xié)處理器 MIC FPGA 粒子輸運(yùn)并行計(jì)算 Sweep3D 離散縱標(biāo)法 非結(jié)構(gòu)化網(wǎng)格 DPM 蒙特卡羅方法 劑量模擬
【摘要】:粒子輸運(yùn)方程,用來描述給定介質(zhì)中粒子的質(zhì)量、電量、動量以及能量的守恒關(guān)系,其數(shù)值求解在許多物理和工程領(lǐng)域有著廣泛的應(yīng)用,如天體物理學(xué)的天體探測、醫(yī)學(xué)領(lǐng)域中的放射性治療、核反應(yīng)堆以及核武器設(shè)計(jì)等。隨著應(yīng)用需求的推動,粒子輸運(yùn)方程的高精度模擬需求不斷增加,物理建模不斷精細(xì),導(dǎo)致計(jì)算規(guī)模成千上萬倍的增加。此外,在某些特定應(yīng)用領(lǐng)域,粒子輸運(yùn)數(shù)值模擬還面臨高實(shí)時(shí)性需求的挑戰(zhàn)。近年來,運(yùn)用具有高性能功耗比的協(xié)處理器進(jìn)行計(jì)算加速已經(jīng)成為高性能并行計(jì)算發(fā)展的重要趨勢。然而,協(xié)處理器的種類多樣化以及硬件結(jié)構(gòu)的復(fù)雜化,使得協(xié)處理器加速粒子輸運(yùn)模擬面臨著并行算法設(shè)計(jì)與優(yōu)化、編程模型多樣性、合理選擇協(xié)處理器難度大等挑戰(zhàn)。為應(yīng)對這些挑戰(zhàn),本文基于MIC和FPGA兩種高性能協(xié)處理器,開展了粒子輸運(yùn)確定性方法和蒙特卡羅方法的并行加速算法或結(jié)構(gòu)研究,取得的研究成果主要包括以下幾個方面:1.提出了基于MIC的三維結(jié)構(gòu)化網(wǎng)格多級并行掃描算法,以實(shí)現(xiàn)結(jié)構(gòu)化網(wǎng)格下粒子輸運(yùn)有限差分離散縱標(biāo)方程的并行求解。該算法開發(fā)了波陣面掃描過程中的多級并行性,將波陣面中I-line網(wǎng)格柱的掃描直接映射到MIC的并行硬件線程上,并通過隔離關(guān)鍵物理量的計(jì)算實(shí)現(xiàn)了I-line網(wǎng)格柱上迭代求解有限差分離散縱標(biāo)方程的向量化。數(shù)值實(shí)驗(yàn)結(jié)果表明,對于不進(jìn)行負(fù)通量修正的情況,MIC與CPU上的并行實(shí)現(xiàn)相比可以獲得了2.03倍的加速效果;對于進(jìn)行負(fù)通量修正的情況,MIC能夠獲得1.50倍的性能加速。2.提出了兩種基于MIC的二維非結(jié)構(gòu)化網(wǎng)格多級并行掃描算法,以實(shí)現(xiàn)非結(jié)構(gòu)化網(wǎng)格下粒子輸運(yùn)間斷有限元離散縱標(biāo)方程的并行求解。在并行求解之前,設(shè)計(jì)了搜索排序算法來確定掃描過程中的波陣面及其排序。第一種算法采用并行硬件線程來開發(fā)波陣面中全部網(wǎng)格在所有能群上的并行性,并采用向量單元來開發(fā)單個網(wǎng)格單元在單能群上離散方程求解中的數(shù)據(jù)級并行性。第二種算法采用并行線程和向量單元來協(xié)同開發(fā)單個波陣面中所有網(wǎng)格單元在所有能群上計(jì)算的并行性,并進(jìn)行了存儲性能優(yōu)化。數(shù)值實(shí)驗(yàn)結(jié)果顯示,與CPU上的串行實(shí)現(xiàn)相比,兩種算法能夠分別獲得39.92倍和71.54倍的性能加速。3.提出了基于MIC的快速蒙特卡羅多級并行模擬算法,以實(shí)現(xiàn)光子和電子耦合的快速蒙特卡羅輻射輸運(yùn)DPM的快速求解。在該算法中,設(shè)計(jì)了多級并行訪問數(shù)據(jù)結(jié)構(gòu)來滿足線程和向量兩級并行的訪存需求,并在線程級并行化基礎(chǔ)上,進(jìn)行了數(shù)據(jù)局部性優(yōu)化,通過構(gòu)建多級并行隨機(jī)數(shù)發(fā)生器,實(shí)現(xiàn)了電子輸運(yùn)大部分過程的向量化模擬。數(shù)值實(shí)驗(yàn)表明,基于MIC的DPM實(shí)現(xiàn)與CPU上的DPM實(shí)現(xiàn)在精度上保持一致。與CPU上的DPM串行實(shí)現(xiàn)相比,基于MIC的多級并行算法能夠獲得16.22到18.82倍的性能加速。4.提出了基于FPGA的快速蒙特卡羅并行加速模擬結(jié)構(gòu),以實(shí)現(xiàn)光子的快速蒙特卡羅輻射輸運(yùn)的快速求解。該結(jié)構(gòu)基于單精度浮點(diǎn)實(shí)現(xiàn),通過流水線并行、位級并行以及特殊的結(jié)構(gòu)設(shè)計(jì),使得該結(jié)構(gòu)具有低功耗和高性能等特點(diǎn)。數(shù)值實(shí)驗(yàn)表明,基于FPGA的并行加速結(jié)構(gòu)所產(chǎn)生的劑量分布與軟件計(jì)算結(jié)果吻合。與3.40GHz CPU和2.30Ghz CPU上的串行實(shí)現(xiàn)相比,該加速結(jié)構(gòu)能夠分別獲得22.15倍和33.18倍的性能提升。綜上所述,本文對基于MIC和FPGA的粒子輸運(yùn)并行數(shù)值求解算法進(jìn)行了深入研究,使其能夠最大化地開發(fā)MIC和FPGA的計(jì)算潛力,為推動相應(yīng)數(shù)值模擬的實(shí)際應(yīng)用、基于高性能協(xié)處理器構(gòu)建面向粒子輸運(yùn)的專用大規(guī)模并行計(jì)算系統(tǒng)以及基于協(xié)處理器的粒子輸運(yùn)大規(guī)模并行求解奠定基礎(chǔ)。
[Abstract]:The particle transport equation is used to describe the quality of a given particle medium energy, momentum and energy conservation, the numerical solution is widely used in many fields such as astrophysics, physics and engineering, object detection, radiation therapy in the field of medicine, nuclear reactors and nuclear weapons design. With the promotion application requirements the transport equation of high precision simulation of the increasing demand for transport of particles, physical modeling continuously fine, resulting in the increase of the scale of tens of thousands of times the calculation. Furthermore, in certain applications, the particle transport simulation is also facing real-time challenges. In recent years, the use of high performance power consumption than the coprocessor to calculate acceleration has become an important trend of development of high performance parallel computing. However, the diversity and complexity of the coprocessor hardware structure, makes the co processor accelerated particles Transport simulation facing parallel algorithm design and optimization, the diversity of programming model, a reasonable choice of coprocessor difficult challenges. To cope with these challenges, the MIC and FPGA two kinds of high performance processor based on the particle transport parallel acceleration algorithm or structure of the transport of deterministic method and Monte Carlo method, research achievements mainly includes the following aspects: 1. proposed three-dimensional unstructured grid multistage parallel scanning algorithm based on MIC, to realize the particle transport structured grid finite difference parallel solving discrete ordinate equations. The algorithm developed multi-level parallelism of the wavefront in the scanning process, the direct mapping of I-line grid column scanning wavefront the parallel hardware thread MIC, and by calculating the isolation of key physical parameters to achieve the separation of vector discrete ordinate equations of the I-line iterative method for solving the finite difference grid column . numerical results show that for negative flux corrections, parallel implementation of MIC and CPU compared to obtain the acceleration effect of 2.03 times; the negative flux correction, MIC can get 1.50 times the acceleration of the performance.2. proposed two kinds of unstructured grid multilevel parallel MIC algorithm based on two-dimensional scanning in order to achieve particle, unstructured grid transport discontinuous finite element equation of discrete ordinate parallel solving. In parallel solution before the designed search ranking algorithm to determine the wavefront sort and scan process. The first algorithm uses parallel hardware threads to develop all wavefront meshes in all parallel to on the base of data, and uses vector unit to develop a single grid cell in a single Nengqun discrete equation in parallel. Second algorithms using parallel threads and vector unit to open cooperation A single wave front in all grid cells in all parallel computing cluster, and the storage performance optimization. Numerical results show that, compared with the CPU serial implementation, the two algorithms can achieve the performance of 39.92 times and 71.54 times respectively, the accelerated.3. presents fast Monte Carlo simulation algorithm of multistage parallel MIC based on the fast solution to realize fast Monte Carlo radiation photon and electron coupled transport of DPM. In this algorithm, the multistage parallel access data structure to meet the thread and the vector two level parallel memory design, and parallelization based on thread level, the data locality optimization, through the construction of multi level parallel the random number generator, to achieve the electronic transport process most to quantitative simulation. Numerical experiments show that the MIC DPM implementation and CPU DPM to achieve consistent accuracy. Based on CPU DPM Serial implementation compared performance of multilevel parallel algorithm MIC can achieve 16.22 to 18.82 times the acceleration of.4. presents fast Monte Carlo FPGA parallel simulation based on the structure based on the fast solution to achieve fast Monte Carlo radiative photon transport. Single precision floating point based on the structure, through the pipeline in parallel, bit level parallelism and structure design in particular, the structure has low power consumption and high performance. Numerical experiments show that the FPGA parallel acceleration of dose distribution and calculation results of the software structure generated based on agreement. Compared with 3.40GHz CPU and 2.30Ghz CPU on the serial implementation, the accelerating structure can enhance the performance of 22.15 times and 33.18 times respectively. In summary in this paper, in-depth study of parallel numerical algorithm MIC and FPGA based on particle transport, which can maximize the development of MIC and FPGA to calculate the potential In order to promote the practical application of corresponding numerical simulation, based on the high-performance coprocessor, we build a dedicated massively parallel computing system for particle transport and the large-scale parallel solution of particle transport based on coprocessor.
【學(xué)位授予單位】:國防科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2016
【分類號】:O572.2;TP332
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張健浪;;協(xié)處理器平臺打造戰(zhàn)略核心[J];個人電腦;2006年10期
2 張雨濃;馬偉木;李克訥;易稱福;;簡述協(xié)處理器發(fā)展歷程及前景展望[J];中國科技信息;2008年13期
3 趙成彥;;80387協(xié)處理器的選購與安裝[J];電腦愛好者;1995年07期
4 朱樟明,周端,楊銀堂,徐陽揚(yáng);嵌入式協(xié)處理器初等函數(shù)的快速統(tǒng)一實(shí)現(xiàn)[J];電子與信息學(xué)報(bào);2004年02期
5 史焱,吳行軍;高速雙有限域加密協(xié)處理器設(shè)計(jì)[J];微電子學(xué)與計(jì)算機(jī);2005年05期
6 金釗;;32位嵌入式CPU中系統(tǒng)控制協(xié)處理器的設(shè)計(jì)與實(shí)現(xiàn)[J];電子設(shè)計(jì)應(yīng)用;2006年10期
7 吳康;;應(yīng)用安全協(xié)處理器構(gòu)建一個金融終端中的安全嵌入式系統(tǒng)[J];中國公共安全(綜合版);2006年06期
8 孫季豐;袁春林;盛艷青;劉斌;;一種通用安全協(xié)處理器[J];計(jì)算機(jī)工程;2008年22期
9 魏強(qiáng);金然;寇曉蕤;王清賢;;基于安全協(xié)處理器保護(hù)軟件可信運(yùn)行框架[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年15期
10 孫俊杰;;閃存大佬推協(xié)處理器將閃存推向更廣闊市場[J];中國電子商情(基礎(chǔ)電子);2012年08期
相關(guān)會議論文 前4條
1 歐慶于;張昌宏;;應(yīng)用安全協(xié)處理器構(gòu)建安全嵌入式系統(tǒng)[A];中國造船工程學(xué)會電子技術(shù)學(xué)術(shù)委員會2006學(xué)術(shù)年會論文集(上冊)[C];2006年
2 孟憲元;;FPGA實(shí)現(xiàn)DSP系統(tǒng)的結(jié)構(gòu)模型[A];全國第二屆嵌入式技術(shù)聯(lián)合學(xué)術(shù)會議論文集[C];2007年
3 龐博;張長明;;基于CORDIC算法的數(shù)字協(xié)處理器設(shè)計(jì)與測試[A];2008年中國高校通信類院系學(xué)術(shù)研討會論文集(下冊)[C];2009年
4 李建贏;王虹宇;洪朝群;姜巍;;PIC/MC模型在Intel Xeon Phi上的初步實(shí)現(xiàn)與優(yōu)化[A];第十六屆全國等離子體科學(xué)技術(shù)會議暨第一屆全國等離子體醫(yī)學(xué)研討會會議摘要集[C];2013年
相關(guān)重要報(bào)紙文章 前10條
1 記者 周源;英特爾首批至強(qiáng)融合協(xié)處理器問世[N];網(wǎng)絡(luò)世界;2012年
2 沈文;AMD+ATI能否雙贏?[N];計(jì)算機(jī)世界;2006年
3 記者 孫永杰;“核”戰(zhàn)何時(shí)休 客戶需求最重要[N];中國電子報(bào);2006年
4 《網(wǎng)絡(luò)世界》記者 周源;MIC:以后請叫我“Phi”[N];網(wǎng)絡(luò)世界;2012年
5 馬文方;AMD收購ATi值不值?[N];中國計(jì)算機(jī)報(bào);2006年
6 Altera公司高級產(chǎn)品行銷經(jīng)理 Paul Ekas;FPGA協(xié)處理器優(yōu)化汽車信息系統(tǒng)設(shè)計(jì)[N];中國電子報(bào);2004年
7 ;TD-SCDMA手機(jī)采用協(xié)處理器[N];網(wǎng)絡(luò)世界;2001年
8 ;新品速遞[N];計(jì)算機(jī)世界;2001年
9 ;采用協(xié)處理器的TD-SCDMA手機(jī)設(shè)計(jì)[N];人民郵電;2001年
10 岳婷;AP面臨基帶和協(xié)處理器競爭[N];中國電子報(bào);2007年
相關(guān)博士學(xué)位論文 前6條
1 鄭喬石;暗硅時(shí)代CoDA架構(gòu)可擴(kuò)展性及能效問題研究[D];西北工業(yè)大學(xué);2015年
2 王慶林;基于高性能協(xié)處理器的粒子輸運(yùn)模擬加速關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2016年
3 宋宇鯤;動態(tài)可重構(gòu)協(xié)處理器研究[D];合肥工業(yè)大學(xué);2006年
4 杜學(xué)亮;定制指令與協(xié)處理器加速機(jī)制的研究[D];中國科學(xué)技術(shù)大學(xué);2009年
5 鄭裕峰;高速包分類協(xié)處理器及網(wǎng)絡(luò)平臺研究[D];中國科學(xué)技術(shù)大學(xué);2007年
6 王榮華;動態(tài)二進(jìn)制翻譯優(yōu)化研究[D];浙江大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 宋陽;TD-LTE系統(tǒng)PUSCH信道關(guān)鍵技術(shù)及其實(shí)現(xiàn)[D];電子科技大學(xué);2015年
2 黃亞晴;基于FPGA矢量協(xié)處理器架構(gòu)的信號處理機(jī)研究[D];中國艦船研究院;2015年
3 楊靜;基于有限差分的心電模型模擬在CPU與多MIC協(xié)處理器平臺的并行與優(yōu)化[D];國防科學(xué)技術(shù)大學(xué);2013年
4 陳呈;面向MIC平臺的OpenACC實(shí)現(xiàn)與優(yōu)化關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2013年
5 劉春;HINOC2.0 MAC協(xié)處理器的仿真與板級驗(yàn)證[D];西安電子科技大學(xué);2014年
6 梁志力;異構(gòu)多核系統(tǒng)中協(xié)處理器優(yōu)化[D];合肥工業(yè)大學(xué);2015年
7 董辛楠;基于通信優(yōu)化的多MIC協(xié)處理器平臺上的并行編程研究[D];國防科學(xué)技術(shù)大學(xué);2014年
8 高崢;HINOC2.0 SoC系統(tǒng)HIMAC協(xié)處理器的仿真及FPGA驗(yàn)證[D];西安電子科技大學(xué);2015年
9 林煥;應(yīng)用于近場通信安全單元的AES協(xié)處理器設(shè)計(jì)[D];華中科技大學(xué);2015年
10 王捷;一種高性能向量處理器的實(shí)現(xiàn)[D];天津大學(xué);2016年
,本文編號:1388080
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1388080.html