基于CUDA的簡化并行編程方案設(shè)計
本文關(guān)鍵詞: CUDA GPGPU 并行編程 內(nèi)存管理 多地址空間 集群 出處:《大連理工大學(xué)》2013年碩士論文 論文類型:學(xué)位論文
【摘要】:NVIDIA公司設(shè)計的基于GPGPU的通用并行計算架構(gòu)CUDA已經(jīng)在各個領(lǐng)域得到廣泛的應(yīng)用。本文針對GPGPU設(shè)備外部的并行設(shè)計了基于CUDA的簡化并行編程方案。首先,本文針對大批量數(shù)據(jù)場景提出了GPGPU設(shè)備間并行編程簡化方案,以輔助本文提出的多地址空間封裝技術(shù)能夠獨(dú)立地運(yùn)行于集群環(huán)境中。此外,本文提出的GPGPU設(shè)備間并行編程解決方案引入了數(shù)據(jù)復(fù)用技術(shù),對視頻處理任務(wù)場景提供了優(yōu)化。其次,本文針對CUDA并行編程中內(nèi)存管理與多地址空間架構(gòu)具有較高耦合度這一問題,提出了多地址空間封裝技術(shù)來簡化CPU與GPGPU設(shè)備間的并行編程。 基于多地址空間封裝技術(shù),本文提出了源碼轉(zhuǎn)換技術(shù),以進(jìn)一步簡化CUDA編程中的內(nèi)存管理,允許編程者對于內(nèi)存相關(guān)變量采取只聲明不維護(hù)的編碼方式。在實(shí)驗(yàn)中,本文將多地址空間封裝技術(shù)與CUDA的統(tǒng)一虛擬尋址技術(shù)進(jìn)行了對比,實(shí)驗(yàn)結(jié)果表明:當(dāng)計算所需數(shù)據(jù)位于其它設(shè)備中時,在執(zhí)行訪存密集型任務(wù)時,多地址空間封裝技術(shù)占有性能優(yōu)勢;在執(zhí)行計算密集型任務(wù)時,統(tǒng)一虛擬尋址技術(shù)占有性能優(yōu)勢。最后,本文還通過從NPP庫中選取的三個具有代表性的算法再次驗(yàn)證了上述結(jié)論,并在實(shí)驗(yàn)中測量了多地址空間封裝技術(shù)的額外開銷,實(shí)驗(yàn)結(jié)果表明其額外開銷僅為0.04%至0.07%。
[Abstract]:CUDA, a general parallel computing architecture based on GPGPU, which is designed by NVIDIA Company, has been widely used in various fields. In this paper, a simplified parallel programming scheme based on CUDA is designed for the concurrent design of GPGPU devices. In this paper, we propose a simplified scheme of parallel programming between GPGPU devices for mass data scenarios, which can assist the multi-address space encapsulation technology proposed in this paper to run independently in the cluster environment. The parallel programming solution between GPGPU devices proposed in this paper introduces the technology of data reuse, which provides the optimization of the video processing task scene. In order to solve the problem of high coupling between memory management and multi-address space architecture in CUDA parallel programming, a multi-address space encapsulation technique is proposed to simplify the parallel programming between CPU and GPGPU devices. Based on the multi-address space encapsulation technology, this paper proposes the source code conversion technology to further simplify the memory management in CUDA programming, allowing the programmer to adopt the coding method of declaring and not maintaining the memory-related variables. In this paper, the multi-address space encapsulation technology is compared with the unified virtual addressing technology of CUDA. The experimental results show that when the computing data is located in other devices, the memory access intensive task is performed. The multi-address space encapsulation technology has the performance advantage, and the unified virtual addressing technology has the performance advantage when performing computation-intensive tasks. Finally, This paper also verifies the above conclusions again through three representative algorithms selected from the NPP library, and measures the extra cost of the multi-address space encapsulation technology in the experiment. The experimental results show that the extra cost is only 0.04% to 0.07.
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP338.6
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 吳長茂;張聰品;張慧云;王娟;;CUDA平臺下多核GPU高性能并行編程研究[J];河南機(jī)電高等?茖W(xué)校學(xué)報;2011年01期
2 李波;趙華成;張敏芳;;CUDA高性能計算并行編程[J];微型電腦應(yīng)用;2009年09期
3 陸建勇;焦良葆;;基于CUDA的光線跟蹤實(shí)現(xiàn)中紋理內(nèi)存的應(yīng)用研究[J];中國新技術(shù)新產(chǎn)品;2009年23期
4 劉琳;何劍鋒;王紅玲;;GPU加速數(shù)據(jù)挖掘算法的研究[J];鄭州大學(xué)學(xué)報(理學(xué)版);2010年02期
5 楊棟青;褚寶增;;CUDA技術(shù)在視頻壓縮中的應(yīng)用[J];硅谷;2009年17期
6 柳彬;王開志;劉興釗;郁文賢;;利用CUDA實(shí)現(xiàn)的基于GPU的SAR成像算法[J];信息技術(shù);2009年11期
7 胡前亮;陳炳發(fā);;一種采用CUDA的骨骼動畫陰影實(shí)時仿真方法[J];小型微型計算機(jī)系統(tǒng);2011年01期
8 張潤梅;王霄;;基于CUDA架構(gòu)的MD5破解方法研究[J];計算機(jī)科學(xué);2011年02期
9 甘新標(biāo);沈立;王志英;;基于CUDA的并行全搜索運(yùn)動估計算法[J];計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報;2010年03期
10 劉東亮;Paul Demorest;南仁東;;基于CUDA的相干消色散算法實(shí)現(xiàn)與測試[J];科學(xué)技術(shù)與工程;2010年08期
相關(guān)會議論文 前10條
1 侯有政;張方;;基于CUDA的動載荷頻域識別的并行算法研究[A];第十屆全國振動理論及應(yīng)用學(xué)術(shù)會議論文集(2011)上冊[C];2011年
2 俞洲;彭曉東;謝文明;陳夢云;;基于CUDA語言的海量空間科學(xué)數(shù)據(jù)實(shí)時體繪制研究[A];第二十三屆全國空間探測學(xué)術(shù)交流會論文摘要集[C];2010年
3 張光斌;謝維盛;吳鴻偉;;基于CUDA的多模式匹配技術(shù)[A];第26次全國計算機(jī)安全學(xué)術(shù)交流會論文集[C];2011年
4 印明明;;CUDA實(shí)現(xiàn)頻域?qū)拵Рㄊ纬蒣A];中國聲學(xué)學(xué)會水聲學(xué)分會2011年全國水聲學(xué)學(xué)術(shù)會議論文集[C];2011年
5 夏春芬;鄒承明;;CUDA共享內(nèi)存在人臉表情識別中的應(yīng)用[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2010)、第19屆全國多媒體學(xué)術(shù)會議(NCMT2010)、第6屆全國人機(jī)交互學(xué)術(shù)會議(CHCI2010)、第5屆全國普適計算學(xué)術(shù)會議(PCC2010)論文集[C];2010年
6 李建勛;趙寶升;柯熙政;;脈沖星導(dǎo)航系統(tǒng)模糊度解析算法的并行計算與實(shí)現(xiàn)基于GPU和CUDA架構(gòu)[A];第二屆中國衛(wèi)星導(dǎo)航學(xué)術(shù)年會電子文集[C];2011年
7 劉偉峰;唐先明;韓寶東;朱文妹;;基于GPU計算的光線投射法體繪制研究[A];圖像圖形技術(shù)研究與應(yīng)用2009——第四屆圖像圖形技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2009年
8 嚴(yán)歷;郭力;李曉霞;;分子動力學(xué)模擬軟件GROMACS向GPGPU移植初探[A];第十屆全國計算(機(jī))化學(xué)學(xué)術(shù)會議論文摘要集[C];2009年
9 徐侃;陳如山;杜磊;朱劍;楊陽;;可編程圖形處理器加速無條件穩(wěn)定的Crank-Nicolson FDTD分析三維微波電路[A];2009年全國微波毫米波會議論文集(下冊)[C];2009年
10 葉良;單桂華;遲學(xué)斌;;基于CUDA加速的光線投射法研究[A];圖像圖形技術(shù)研究與應(yīng)用(2010)[C];2010年
相關(guān)重要報紙文章 前10條
1 本報記者 劉洪宇;并行編程:雖難也能走捷徑[N];中國計算機(jī)報;2010年
2 Intel編程系統(tǒng)實(shí)驗(yàn)室 Ali-Reza邋Adl-Tabatabai;TM將取代互斥鎖助益并行編程[N];中國計算機(jī)報;2008年
3 英特爾微處理器技術(shù)實(shí)驗(yàn)室主任工程師 Anwar Ghuloum;并行編程為什么這么難?[N];中國計算機(jī)報;2007年
4 本報記者 楊琳樺;NVIDIA詳解CUDA攻略:“麥當(dāng)勞”式推廣之道[N];21世紀(jì)經(jīng)濟(jì)報道;2009年
5 吳加錄;英特爾軟件大會:軟件進(jìn)入多核時代[N];中國計算機(jī)報;2008年
6 魯媛媛;來一塊“英特爾”夾心軟糖[N];網(wǎng)絡(luò)世界;2008年
7 謝濤;英特爾:忽視并行化軟件后果很危險[N];電腦商報;2008年
8 本報記者 陳斌;多核的軟件推力[N];計算機(jī)世界;2008年
9 英特爾并行計算實(shí)驗(yàn)室研究員 TimothyMattson;并行計算:減少串行軟件[N];中國計算機(jī)報;2007年
10 蘇鐵;方正HPCC集群系統(tǒng)為高等教育全面助力[N];國際商報;2005年
相關(guān)博士學(xué)位論文 前10條
1 武華北;混合并行計算環(huán)境多級并行化編程模式的研究[D];天津大學(xué);2009年
2 李波;基于異構(gòu)多核平臺的優(yōu)化編程研究[D];華中科技大學(xué);2011年
3 成杏梅;基于媒體芯片的實(shí)時操作系統(tǒng)實(shí)現(xiàn)研究[D];浙江大學(xué);2008年
4 石林;GPU通用計算虛擬化方法研究[D];湖南大學(xué);2012年
5 吳鋒;基于GPU并行計算的數(shù)值模擬與燃煤鍋爐系統(tǒng)的優(yōu)化研究[D];浙江大學(xué);2010年
6 毛華慶;基于GPU優(yōu)化的三維實(shí)時渲染技術(shù)的研究[D];武漢大學(xué);2010年
7 白明澤;多核集群上的混合并行分子動力學(xué)計算研究[D];電子科技大學(xué);2012年
8 彭林;軟件事務(wù)存儲并行編程環(huán)境關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2010年
9 陳榕;多核環(huán)境下面向數(shù)據(jù)并行編程模型的性能和可伸縮性研究[D];復(fù)旦大學(xué);2011年
10 尹奎英;SAR圖像處理及地面目標(biāo)識別技術(shù)研究[D];西安電子科技大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 唐X;基于CUDA的簡化并行編程方案設(shè)計[D];大連理工大學(xué);2013年
2 呂慶;基于CUDA的圖像數(shù)字水印技術(shù)的研究[D];大連理工大學(xué);2011年
3 陳波;基于CPU-GPU異構(gòu)平臺的性能優(yōu)化及多核并行編程模型的研究[D];中國科學(xué)技術(shù)大學(xué);2011年
4 張奇;基于CUDA架構(gòu)的MD5并行破解算法設(shè)計與實(shí)現(xiàn)[D];電子科技大學(xué);2012年
5 鄧偉良;基于MPI的并行編程技巧[D];暨南大學(xué);2001年
6 梁慧;基于多核的數(shù)據(jù)并行編程平臺的研究與實(shí)現(xiàn)[D];東北大學(xué);2009年
7 徐項(xiàng)沛;片上網(wǎng)絡(luò)多核處理器的性能測試與并行編程研究[D];南京大學(xué);2011年
8 張其飛;基于CUDA架構(gòu)的九路圍棋博弈引擎的并行化研究及實(shí)現(xiàn)[D];北京郵電大學(xué);2012年
9 張伊麗;基于CUDA的泛kriging算法的研究與設(shè)計[D];中國地質(zhì)大學(xué)(北京);2012年
10 陳翔;基于CUDA的摳像算法設(shè)計優(yōu)化[D];華南理工大學(xué);2011年
,本文編號:1518670
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1518670.html