深穿透粒子輸運(yùn)蒙特卡羅模擬的CPU/GPU協(xié)同算法研究
發(fā)布時(shí)間:2021-07-14 00:37
近些年,由于GPU在性能和可編程性方面都有很大提升,通用GPU計(jì)算以高性價(jià)比的優(yōu)勢(shì)越來越受人們關(guān)注。眾多研究人員都將GPU應(yīng)用于所屬領(lǐng)域,GPU的應(yīng)用領(lǐng)域已從早期的單一圖形計(jì)算擴(kuò)展到通用計(jì)算,尤其是科學(xué)計(jì)算領(lǐng)域。粒子輸運(yùn)模擬在國(guó)民經(jīng)濟(jì)建設(shè)和大規(guī)?茖W(xué)工程計(jì)算中具有重要應(yīng)用,粒子輸運(yùn)蒙特卡羅(Monte Carlo,簡(jiǎn)稱MC)方法求解相對(duì)于確定性方法在求解某些復(fù)雜粒子輸運(yùn)問題時(shí)有顯著的優(yōu)勢(shì),但往往需要的計(jì)算量極大。CPU/GPU異構(gòu)混合系統(tǒng)的出現(xiàn)為這一問題的解決帶來了機(jī)遇和挑戰(zhàn)。本文在現(xiàn)有粒子輸運(yùn)MC模擬算法的基礎(chǔ)上,針對(duì)CPU/GPU混合異構(gòu)體系結(jié)構(gòu)的特點(diǎn),提出了一種面向大規(guī)模異構(gòu)混合系統(tǒng)的深穿透粒子輸運(yùn)MC模擬CPU/GPU協(xié)同算法,并實(shí)現(xiàn)了該算法與MCNP程序的整合。主要工作如下:1)提出一種基于GPU的MCNP偽隨機(jī)數(shù)發(fā)生器,采用了與已有MCNP偽隨機(jī)數(shù)發(fā)生器相同參數(shù)的線性同余法(LCG)來生成隨機(jī)數(shù),首先通過跳躍法快速為每個(gè)線程生成隨機(jī)數(shù)種子,然后利用GPU多線程并行生成多個(gè)隨機(jī)數(shù)子序列。相對(duì)運(yùn)行在Intel X5670上的MCNP偽隨機(jī)數(shù)發(fā)生器,本文提出的基于GPU的偽隨機(jī)數(shù)...
【文章來源】:國(guó)防科技大學(xué)湖南省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:78 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
G80體系結(jié)構(gòu)
圖 2.1 G80 體系結(jié)構(gòu)GT200 是 NVIDIA 在 G80 架構(gòu)基礎(chǔ)上改進(jìn)后推出的第二代統(tǒng)一架構(gòu),廣了 GeForce,Tesla,Quadro 等產(chǎn)品中。GT200 架構(gòu)相對(duì) G80 上沒有顯著主要改進(jìn)是對(duì) G80 在功能上進(jìn)行了擴(kuò)展。GT200 架構(gòu)中流處理器(Streessor)的數(shù)目增加到 240 個(gè),每個(gè)流處理器中寄存器數(shù)量增加為 G80 的一同時(shí)并發(fā)執(zhí)行更多的線程,對(duì)線程訪存做了進(jìn)一步優(yōu)化,同時(shí)增加對(duì)雙計(jì)算的支持。2.1.2 Fermi 體系結(jié)構(gòu)
國(guó)防科學(xué)技術(shù)大學(xué)研究生院工學(xué)碩士學(xué)位論文Fermi 體系結(jié)構(gòu)如圖 2.2[46]所示,其中每個(gè)流多處理器(Streaming Multipro中流處理器的數(shù)量從每組 8 個(gè)增加到了 32 個(gè),而 SM 數(shù)量由 30 組減少一改進(jìn)使得流處理器的總數(shù)量從 240 個(gè)增加到了 512 個(gè),是 GT200 的四 個(gè) 64 位訪存存儲(chǔ)器控制器提供了一個(gè) 384 位的訪存接口,最高支持R5 顯存,主機(jī)與線程之間通過 PCI-E 總線進(jìn)行通信;使用 GigaThread 全用于線程塊執(zhí)行調(diào)度。相比于 GT200 僅僅是對(duì) G80 性能和功能上的擴(kuò)展,NVIDIA 第三代統(tǒng)一i 借鑒 G80 和 GT200 的設(shè)計(jì)經(jīng)驗(yàn)和廣泛吸取用戶的使用反饋,在以下幾了較大的改進(jìn):其雙精度浮點(diǎn)計(jì)算性能有了很大提升,是 GT200 雙精度的 8 倍,增加了 ECC(Error Correcting Code)支持,提供了新型 Cach和更大容量的共享存儲(chǔ)器(Shared Memory),提高了上下文切換速度,子操作。
【參考文獻(xiàn)】:
期刊論文
[1]The TianHe-1A Supercomputer: Its Hardware and Software[J]. 楊學(xué)軍,廖湘科,盧凱,胡慶豐,宋君強(qiáng),蘇金樹. Journal of Computer Science & Technology. 2011(03)
[2]CPU/GPU協(xié)同并行計(jì)算研究綜述[J]. 盧風(fēng)順,宋君強(qiáng),銀?,張理論. 計(jì)算機(jī)科學(xué). 2011(03)
[3]蒙特卡羅方法發(fā)展中的若干問題[J]. 裴鹿成. 計(jì)算物理. 1992(S1)
本文編號(hào):3283042
【文章來源】:國(guó)防科技大學(xué)湖南省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:78 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
G80體系結(jié)構(gòu)
圖 2.1 G80 體系結(jié)構(gòu)GT200 是 NVIDIA 在 G80 架構(gòu)基礎(chǔ)上改進(jìn)后推出的第二代統(tǒng)一架構(gòu),廣了 GeForce,Tesla,Quadro 等產(chǎn)品中。GT200 架構(gòu)相對(duì) G80 上沒有顯著主要改進(jìn)是對(duì) G80 在功能上進(jìn)行了擴(kuò)展。GT200 架構(gòu)中流處理器(Streessor)的數(shù)目增加到 240 個(gè),每個(gè)流處理器中寄存器數(shù)量增加為 G80 的一同時(shí)并發(fā)執(zhí)行更多的線程,對(duì)線程訪存做了進(jìn)一步優(yōu)化,同時(shí)增加對(duì)雙計(jì)算的支持。2.1.2 Fermi 體系結(jié)構(gòu)
國(guó)防科學(xué)技術(shù)大學(xué)研究生院工學(xué)碩士學(xué)位論文Fermi 體系結(jié)構(gòu)如圖 2.2[46]所示,其中每個(gè)流多處理器(Streaming Multipro中流處理器的數(shù)量從每組 8 個(gè)增加到了 32 個(gè),而 SM 數(shù)量由 30 組減少一改進(jìn)使得流處理器的總數(shù)量從 240 個(gè)增加到了 512 個(gè),是 GT200 的四 個(gè) 64 位訪存存儲(chǔ)器控制器提供了一個(gè) 384 位的訪存接口,最高支持R5 顯存,主機(jī)與線程之間通過 PCI-E 總線進(jìn)行通信;使用 GigaThread 全用于線程塊執(zhí)行調(diào)度。相比于 GT200 僅僅是對(duì) G80 性能和功能上的擴(kuò)展,NVIDIA 第三代統(tǒng)一i 借鑒 G80 和 GT200 的設(shè)計(jì)經(jīng)驗(yàn)和廣泛吸取用戶的使用反饋,在以下幾了較大的改進(jìn):其雙精度浮點(diǎn)計(jì)算性能有了很大提升,是 GT200 雙精度的 8 倍,增加了 ECC(Error Correcting Code)支持,提供了新型 Cach和更大容量的共享存儲(chǔ)器(Shared Memory),提高了上下文切換速度,子操作。
【參考文獻(xiàn)】:
期刊論文
[1]The TianHe-1A Supercomputer: Its Hardware and Software[J]. 楊學(xué)軍,廖湘科,盧凱,胡慶豐,宋君強(qiáng),蘇金樹. Journal of Computer Science & Technology. 2011(03)
[2]CPU/GPU協(xié)同并行計(jì)算研究綜述[J]. 盧風(fēng)順,宋君強(qiáng),銀?,張理論. 計(jì)算機(jī)科學(xué). 2011(03)
[3]蒙特卡羅方法發(fā)展中的若干問題[J]. 裴鹿成. 計(jì)算物理. 1992(S1)
本文編號(hào):3283042
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3283042.html
最近更新
教材專著