一種基于GPU的枚舉排序算法及其并行化
發(fā)布時(shí)間:2023-04-01 17:45
針對(duì)枚舉排序算法在處理大規(guī)模數(shù)據(jù)時(shí)存在運(yùn)算量大、計(jì)算時(shí)間長(zhǎng)、計(jì)算效率低等問(wèn)題,提出一種利用GPU并行運(yùn)算提升大規(guī)模數(shù)據(jù)處理速度的方法。在CUDA下對(duì)枚舉排序算法進(jìn)行串-并行分析,分別從細(xì)粒度與粗粒度角度進(jìn)行優(yōu)化,根據(jù)CPU與GPU的結(jié)構(gòu)特點(diǎn)優(yōu)化排序數(shù)據(jù)的讀取和存儲(chǔ)方式,內(nèi)核采用一個(gè)GPU線程對(duì)應(yīng)一次比較操作的計(jì)算方法,以充分利用GPU計(jì)算能力。實(shí)驗(yàn)結(jié)果表明,當(dāng)排序數(shù)據(jù)規(guī)模大于40 000時(shí),在GPU上的運(yùn)算速度比在CPU上快3倍左右,并且隨著數(shù)據(jù)規(guī)模的不斷增大,加速比越來(lái)越大。研究結(jié)果對(duì)于提升大規(guī)模數(shù)值計(jì)算效率具有重要的意義。
【文章頁(yè)數(shù)】:6 頁(yè)
【文章目錄】:
0 引 言
1 CUDA體系結(jié)構(gòu)
2 枚舉排序算法描述
3 GPU加速的枚舉排序并行算法的 分析與設(shè)計(jì)
3.1 枚舉排序并行算法設(shè)計(jì)
3.2 枚舉排序算法并行化方案
(1)為待排序序列a和有序序列b分配設(shè)備存儲(chǔ)器空間。
(2)把主機(jī)端的數(shù)據(jù)傳遞到設(shè)備端。
(3)定義kernel配置。
(4)發(fā)射kernel進(jìn)行并行計(jì)算。
(5)將已排序數(shù)據(jù)從設(shè)備端傳輸?shù)街鳈C(jī)端進(jìn)行輸出。
4 實(shí)驗(yàn)與分析
4.1 實(shí)驗(yàn)運(yùn)算平臺(tái)
4.2 實(shí)驗(yàn)結(jié)果和性能分析
4.2.1 實(shí)驗(yàn)數(shù)據(jù)
4.2.2 加速性能分析
4.2.3 系統(tǒng)性能瓶頸分析
5 結(jié) 論
本文編號(hào):3777580
【文章頁(yè)數(shù)】:6 頁(yè)
【文章目錄】:
0 引 言
1 CUDA體系結(jié)構(gòu)
2 枚舉排序算法描述
3 GPU加速的枚舉排序并行算法的 分析與設(shè)計(jì)
3.1 枚舉排序并行算法設(shè)計(jì)
3.2 枚舉排序算法并行化方案
(1)為待排序序列a和有序序列b分配設(shè)備存儲(chǔ)器空間。
(2)把主機(jī)端的數(shù)據(jù)傳遞到設(shè)備端。
(3)定義kernel配置。
(4)發(fā)射kernel進(jìn)行并行計(jì)算。
(5)將已排序數(shù)據(jù)從設(shè)備端傳輸?shù)街鳈C(jī)端進(jìn)行輸出。
4 實(shí)驗(yàn)與分析
4.1 實(shí)驗(yàn)運(yùn)算平臺(tái)
4.2 實(shí)驗(yàn)結(jié)果和性能分析
4.2.1 實(shí)驗(yàn)數(shù)據(jù)
4.2.2 加速性能分析
4.2.3 系統(tǒng)性能瓶頸分析
5 結(jié) 論
本文編號(hào):3777580
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3777580.html
最近更新
教材專著