SAR目標識別方法的GPU并行實現(xiàn)與優(yōu)化
本文選題:GPU 切入點:Jacobi 出處:《電子科技大學(xué)》2017年碩士論文
【摘要】:SAR目標識別方法已經(jīng)成為近年來的研究熱點,其研究成果被廣泛應(yīng)用于軍事和民用領(lǐng)域。隨著高分辨SAR成像技術(shù)的發(fā)展,SAR圖像的分辨率和數(shù)據(jù)量均迅速增加,基于CPU串行計算的目標識別算法已經(jīng)不能達到高分辨SAR目標識別軟件實時處理數(shù)據(jù)的要求,且計算代價過高。而近些年出現(xiàn)的GPU(Graphic Process Unit)通用計算可以提供強大的計算能力和存儲帶寬,此外其具有開發(fā)成本低、周期短等優(yōu)點。因此,基于GPU的并行目標識別算法的研究,對實時處理數(shù)據(jù)的目標識別軟件系統(tǒng)的研究和建立具有重要推動作用。本文首先討論了GPU的體系結(jié)構(gòu)以及CUDA編程模型,并將目標識別算法分為特征提取部分和分類器部分,然后詳細描述了如何將各部分的具體計算任務(wù)進行并行分解,以及如何通過CUDA并行編程實現(xiàn)各個計算任務(wù),最終對CUDA程序進行一系列優(yōu)化處理,爭取實現(xiàn)算法的加速最大化。具體的工作安排如下:(1)分析了CUDA的編程模型、存儲模型以及編程語言,然后研究主成分分析、非負矩陣分解和線性判別分析這三種比較成熟的特征提取技術(shù)和支持向量機這種分類方法的基礎(chǔ)原理和實現(xiàn)方法,為后文目標識別算法并行分析提供理論依據(jù)和技術(shù)基礎(chǔ)。(2)研究特征提取方法和分類器的計算任務(wù),將計算過程拆分并做并行改進。分別對三種特征提取方法中的矩陣乘法、Jacobi迭代法求矩陣特征值、歸約法、類間和類內(nèi)散度矩陣構(gòu)造等計算任務(wù)進行并行分析和GPU并行改進。然后分析SMO算法的計算過程和并行性,實現(xiàn)SVM在CUDA上的并行移植。最終,以MSTAR公開數(shù)據(jù)庫為基礎(chǔ),通過實驗得到目標識別算法在CPU端和GPU端的運行時間,并作對比分析,以證明GPU并行計算對目標識別算法的加速效果。(3)結(jié)合CUDA程序的通用評估方式和優(yōu)化策略,深入分析了目標識別算法中影響CUDA程序運行速度的原因,實現(xiàn)了從通信、訪存和指令流三個方面對算法進行優(yōu)化處理。并通過實驗表明基于GPU并行實現(xiàn)的目標識別算法經(jīng)過優(yōu)化獲得了25-30倍的性能提升。
[Abstract]:The method of SAR target recognition has become a hot topic in recent years, and its research results have been widely used in military and civilian fields. With the development of high-resolution SAR imaging technology, the resolution and data volume of SAR images are increasing rapidly. The target recognition algorithm based on CPU serial computation can not meet the requirement of real-time data processing of high-resolution SAR target recognition software. In recent years, GPU(Graphic Process Unit can provide powerful computing power and storage bandwidth, besides, it has the advantages of low development cost, short period and so on. Therefore, parallel target recognition algorithm based on GPU is studied. This paper first discusses the architecture of GPU and the CUDA programming model, and divides the target recognition algorithm into feature extraction part and classifier part. Then it describes in detail how to decompose each part of the specific computing tasks in parallel, and how to realize each computing task by CUDA parallel programming, and finally carries on a series of optimization processing to the CUDA program. This paper analyzes the programming model, storage model and programming language of CUDA, and then studies principal component analysis. Non-negative matrix decomposition and linear discriminant analysis (LDA) are the three mature feature extraction techniques and the basic principles and implementation methods of support vector machine (SVM) classification. It provides theoretical and technical basis for parallel analysis of target recognition algorithm. The computation process is split and improved in parallel. The matrix eigenvalues are obtained by the matrix multiplication Jacobi iteration method, and the matrix eigenvalues are obtained by the reduction method, the matrix multiplication method and the Jacobi iteration method are used to calculate the eigenvalues of the matrix respectively. The parallel analysis and GPU parallel improvement are carried out by constructing inter-class and intra-class divergence matrix, and then the computation process and parallelism of SMO algorithm are analyzed to realize the parallel transplantation of SVM on CUDA. Finally, based on MSTAR open database, the parallel migration of SVM is realized. Through experiments, the running time of target recognition algorithm on CPU and GPU is obtained, and a comparative analysis is made to prove that the acceleration effect of GPU parallel computation to target recognition algorithm...) combined with the general evaluation method and optimization strategy of CUDA program. In this paper, the reasons that affect the speed of CUDA program in target recognition algorithm are analyzed, and the communication is realized. The algorithm is optimized from memory access and instruction stream, and the experiment results show that the target recognition algorithm based on GPU can achieve 25-30 times better performance after optimization.
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TN958
【參考文獻】
相關(guān)期刊論文 前5條
1 米淳;李翔;許星;付為民;;基于CUDA的GPU技術(shù)快速處理海量數(shù)據(jù)應(yīng)用探析[J];河南科技;2013年17期
2 MAA Jerome P.-Y;;Solving generalized lattice Boltzmann model for 3-D cavity flows using CUDA-GPU[J];Science China(Physics,Mechanics & Astronomy);2012年10期
3 崔雪冰;張延紅;王康平;;基于GPU的通用計算模型[J];河南科技大學(xué)學(xué)報(自然科學(xué)版);2009年03期
4 袁禮海;宋建社;薛文通;趙偉舟;;SAR圖像自動目標識別系統(tǒng)研究與設(shè)計[J];計算機應(yīng)用研究;2006年11期
5 吳恩華,柳有權(quán);基于圖形處理器(GPU)的通用計算[J];計算機輔助設(shè)計與圖形學(xué)學(xué)報;2004年05期
相關(guān)會議論文 前1條
1 曹麗娟;王小明;;快速訓(xùn)練支持向量機的并行結(jié)構(gòu)[A];2006年全國開放式分布與并行計算學(xué)術(shù)會議論文集(二)[C];2006年
相關(guān)博士學(xué)位論文 前3條
1 馬安國;高效能GPGPU體系結(jié)構(gòu)關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
2 劉貴;精毛紡織品虛擬加工中的預(yù)報與反演模型研究[D];東華大學(xué);2010年
3 胡利平;合成孔徑雷達圖像目標識別技術(shù)研究[D];西安電子科技大學(xué);2009年
相關(guān)碩士學(xué)位論文 前5條
1 田寧;GPU加速的矩陣計算的研究[D];黑龍江大學(xué);2015年
2 王濤;求矩陣特征值的GPU并行算法的研究[D];黑龍江大學(xué);2012年
3 王世春;基于CUDA的車牌字符識別[D];復(fù)旦大學(xué);2012年
4 莫良永;基于GPU的并行人臉識別算法研究[D];大連理工大學(xué);2008年
5 齊興敏;基于PCA的人臉識別技術(shù)的研究[D];武漢理工大學(xué);2007年
,本文編號:1696752
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/1696752.html