基于SIMD-DSP的LU分解算法的優(yōu)化與實現(xiàn)
發(fā)布時間:2021-05-16 06:04
LU分解運算是密集型運算的經(jīng)典算法,由于具有著廣泛的應(yīng)用范圍和重要的應(yīng)用價值,一直以來都處于核心地位。但是,當(dāng)LU分解算法在SIMDDSP硬件平臺上實現(xiàn)時仍會面臨沒有充分使用硬件運算單元與數(shù)據(jù)傳輸總線,內(nèi)存訪問沖突等問題,這些問題使得算法在硬件平臺上的性能無法達(dá)到理想水平。由此可見,利用軟件優(yōu)化方法在硬件平臺上實現(xiàn)LU分解依然值得研究。本課題基于國產(chǎn)SIMD架構(gòu)的數(shù)字信號處理芯片BWDSP1042,設(shè)計具有高精度、高實時性的LU分解算法庫。本文首先介紹了 BWDSP1042處理器的內(nèi)核結(jié)構(gòu)、流水線、內(nèi)存空間分配與指令系統(tǒng),深入理解硬件特點是優(yōu)化與實現(xiàn)LU分解并行算法的前提。其次,闡述了C語言版LU分解函數(shù)的設(shè)計過程,構(gòu)建了算法的主體框架與運行環(huán)境。最后研究了基于BWDWP1042的匯編版LU分解算法,消除了矩陣乘法運算過程中的非連續(xù)訪存,充分利用硬件運算資源與數(shù)據(jù)傳輸總線,通過軟件優(yōu)化的方式,加快了循環(huán)中任務(wù)間的通信,減少了因通信帶來的訪存延時和訪存沖突,進(jìn)一步提升了LU分解算法的性能。本文給出了 LU分解算法研究的詳細(xì)過程,并與主流高性能DSP芯片TMS320C...
【文章來源】:西安科技大學(xué)陜西省
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 課題研究背景及意義
1.2 研究現(xiàn)狀
1.2.1 現(xiàn)有SIMD_DSP對并行運算的支持
1.2.2 LU分解算法在硬件平臺中研究現(xiàn)狀
1.3 本文主要工作與組織結(jié)構(gòu)
2 關(guān)鍵技術(shù)及理論研究
2.1 BWDSP1042處理器
2.1.1 eC104+內(nèi)核結(jié)構(gòu)
2.1.2 BWDSP1042流水線
2.1.3 BWDSP1042指令系統(tǒng)
2.1.4 BWDSP1042內(nèi)存空間分配
2.2 LU分解算法原理分析
2.3 本章小結(jié)
3 基于C函數(shù)庫的LU分解算法設(shè)計
3.1 庫函數(shù)設(shè)計
3.1.1 庫函數(shù)設(shè)計內(nèi)容
3.1.2 庫函數(shù)設(shè)計指標(biāo)
3.1.3 庫函數(shù)設(shè)計流程
3.1.4 庫函數(shù)編碼規(guī)范
3.2 C語言版LU矩陣分解函數(shù)設(shè)計過程
3.3 LU矩陣分解函數(shù)C程序的仿真與驗證
3.3.1 實驗環(huán)境搭建
3.3.2 仿真結(jié)果與分析
3.4 本章小結(jié)
4 基于BWDSP1042 的匯編版LU分解算法優(yōu)化
4.1 LU分解算法在BWDWP1042 中的優(yōu)化
4.1.1 LU矩陣分解并行算法設(shè)計
4.1.2 LU矩陣分解在BWDSP1042 中的實現(xiàn)
4.2 LU矩陣分解函數(shù)在ECS中的編寫與調(diào)用
4.3 LU矩陣分解算法理論周期與實際周期數(shù)
4.4 本課題LU矩陣分解算法與TMS320C6678內(nèi)LU矩陣分解算法對比
4.4.1 周期與時間
4.4.2 誤差
4.5 本章小結(jié)
5 結(jié)論與展望
5.1 結(jié)論
5.2 展望
致謝
參考文獻(xiàn)
附錄
本文編號:3189124
【文章來源】:西安科技大學(xué)陜西省
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 課題研究背景及意義
1.2 研究現(xiàn)狀
1.2.1 現(xiàn)有SIMD_DSP對并行運算的支持
1.2.2 LU分解算法在硬件平臺中研究現(xiàn)狀
1.3 本文主要工作與組織結(jié)構(gòu)
2 關(guān)鍵技術(shù)及理論研究
2.1 BWDSP1042處理器
2.1.1 eC104+內(nèi)核結(jié)構(gòu)
2.1.2 BWDSP1042流水線
2.1.3 BWDSP1042指令系統(tǒng)
2.1.4 BWDSP1042內(nèi)存空間分配
2.2 LU分解算法原理分析
2.3 本章小結(jié)
3 基于C函數(shù)庫的LU分解算法設(shè)計
3.1 庫函數(shù)設(shè)計
3.1.1 庫函數(shù)設(shè)計內(nèi)容
3.1.2 庫函數(shù)設(shè)計指標(biāo)
3.1.3 庫函數(shù)設(shè)計流程
3.1.4 庫函數(shù)編碼規(guī)范
3.2 C語言版LU矩陣分解函數(shù)設(shè)計過程
3.3 LU矩陣分解函數(shù)C程序的仿真與驗證
3.3.1 實驗環(huán)境搭建
3.3.2 仿真結(jié)果與分析
3.4 本章小結(jié)
4 基于BWDSP1042 的匯編版LU分解算法優(yōu)化
4.1 LU分解算法在BWDWP1042 中的優(yōu)化
4.1.1 LU矩陣分解并行算法設(shè)計
4.1.2 LU矩陣分解在BWDSP1042 中的實現(xiàn)
4.2 LU矩陣分解函數(shù)在ECS中的編寫與調(diào)用
4.3 LU矩陣分解算法理論周期與實際周期數(shù)
4.4 本課題LU矩陣分解算法與TMS320C6678內(nèi)LU矩陣分解算法對比
4.4.1 周期與時間
4.4.2 誤差
4.5 本章小結(jié)
5 結(jié)論與展望
5.1 結(jié)論
5.2 展望
致謝
參考文獻(xiàn)
附錄
本文編號:3189124
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3189124.html
最近更新
教材專著