基于多核VLIW DSP的數(shù)字信號變換函數(shù)并行優(yōu)化
本文關(guān)鍵詞:基于多核VLIW DSP的數(shù)字信號變換函數(shù)并行優(yōu)化,由筆耕文化傳播整理發(fā)布。
【摘要】:伴隨著音視頻娛樂行業(yè)的迅速進步,數(shù)字信號處理器正逐漸成為研究人員重點關(guān)注的對象,如何提高數(shù)字信號處理器平臺上相關(guān)應(yīng)用的性能和效率也受到越來越多的重視。然而,當(dāng)前流行的多核、超標(biāo)量、單指令流多數(shù)據(jù)流(Single Instruction,Multiple Data,SIMD)、亂序執(zhí)行、超長指令字(Very Long Instruction Word, VLIW)技術(shù)使得數(shù)字信號處理器的體系結(jié)構(gòu)越來越復(fù)雜,普通用戶很難編寫出能夠充分發(fā)揮處理器性能的軟件。 針對特定數(shù)字信號處理器平臺進行函數(shù)庫改進是軟件優(yōu)化領(lǐng)域當(dāng)前重點關(guān)注的問題之一,其關(guān)鍵在于提升代碼對處理器、存儲器等硬件的使用效率。本文針對上述問題,基于國產(chǎn)BWDSP100進行深入研究,針對其搭載的基本信號處理函數(shù)庫實施并行優(yōu)化?紤]到該函數(shù)庫結(jié)構(gòu)復(fù)雜、例程數(shù)量較多,本文采用重點研究典型函數(shù)的方式,對其中最為重要的數(shù)字信號變換函數(shù)進行優(yōu)化,使用到的主要優(yōu)化方案有如下三個層次: (1)利用BWDSP100匯編指令集提供的特殊指令改編函數(shù)庫中部分函數(shù)的實現(xiàn),從而達到減少代碼量,提升程序執(zhí)行效率的目的。BWDSP100提供的特殊指令包括累加、累減、復(fù)數(shù)、選大、選小、定點、超算,其中超算指令包括正余弦、倒數(shù)、自然對數(shù)等。 (2)針對數(shù)字信號處理函數(shù)循環(huán)計算多的特點,通過循環(huán)展開技術(shù)對函數(shù)內(nèi)的循環(huán)操作進行重點優(yōu)化。循環(huán)展開能夠成倍的提升每一輪迭代時參與運算的數(shù)據(jù)個數(shù),這樣做的效果是有效的降低了循環(huán)體執(zhí)行的總次數(shù)。該技術(shù)可以提高軟件效率的原因有二:一方面它提高了單次迭代內(nèi)部有效計算(非索引比較)的數(shù)目;另一方面它拉長了程序代碼,基于此可以進一步變換代碼以便進行指令調(diào)度、對變量進行重命名以減少數(shù)據(jù)相關(guān)。 (3)依據(jù)BWDSP100支持指令多發(fā)射的特點,通過指令調(diào)度技術(shù)對指令次序進行調(diào)整,這樣不僅可以減少流水線的空轉(zhuǎn)和等待時間,同時可以提高循環(huán)展開的展開數(shù)。 實驗結(jié)果表明,經(jīng)過優(yōu)化之后,本文中所有函數(shù)的加速均超過9,其中80%的函數(shù)加速比超過10。本文的工作成果對其它軟件的優(yōu)化工作有借鑒意義。
【關(guān)鍵詞】:超長指令字 單指令流多數(shù)據(jù)流 數(shù)字信號處理 循環(huán)展開 并行化 多簇BWDSP100
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP332
【目錄】:
- 摘要5-6
- ABSTRACT6-11
- 第一章 緒論11-17
- 1.1 研究背景及意義11-13
- 1.1.1 VLIW DSP概述11-12
- 1.1.2 本文的研究意義12-13
- 1.2 國內(nèi)外研究現(xiàn)狀13-15
- 1.3 本文研究內(nèi)容15-16
- 1.4 本文組織結(jié)構(gòu)16-17
- 第二章 目標(biāo)平臺介紹17-25
- 2.1 BWDSP100體系結(jié)構(gòu)17-19
- 2.2 BWDSP100功能部件19-21
- 2.2.1 算術(shù)邏輯單元ALU20
- 2.2.2 乘法器MUL20
- 2.2.3 移位器SHF20-21
- 2.2.4 超算器SPU21
- 2.3 BWDSP100匯編規(guī)則21-23
- 2.3.1 BWDSP100編程資源約束21-22
- 2.3.2 BWDSP100寄存器參數(shù)傳遞規(guī)則22-23
- 2.3.3 BWDSP100寄存器文件映射規(guī)則23
- 2.4 函數(shù)正確性測試策略23-24
- 2.5 本章小結(jié)24-25
- 第三章 數(shù)學(xué)函數(shù)模塊介紹與優(yōu)化25-39
- 3.1 數(shù)學(xué)函數(shù)模塊簡介25
- 3.2 SQRT函數(shù)優(yōu)化25-27
- 3.3 CMUL和CDIV函數(shù)優(yōu)化27-28
- 3.4 MIN和MAX函數(shù)優(yōu)化28-29
- 3.5 COS和SIN函數(shù)優(yōu)化29-30
- 3.6 CUMSUM函數(shù)優(yōu)化30-33
- 3.7 LN函數(shù)優(yōu)化33
- 3.8 數(shù)學(xué)函數(shù)模塊正確性測試與優(yōu)化效果評測33-38
- 3.8.1 數(shù)學(xué)函數(shù)模塊正確性測試33-35
- 3.8.2 數(shù)學(xué)函數(shù)模塊優(yōu)化效果評測35-38
- 3.9 本章小結(jié)38-39
- 第四章 數(shù)字信號變換函數(shù)介紹與優(yōu)化39-61
- 4.1 FFT和IFFT函數(shù)39-43
- 4.2 DCT和IDCT函數(shù)43
- 4.3 FWHT和IFWHT函數(shù)43-45
- 4.4 HILBERT函數(shù)45
- 4.5 GOERTZEL函數(shù)45-46
- 4.6 UPSAMPLE和DOWNSAMPLE函數(shù)46-47
- 4.7 CONV函數(shù)47-48
- 4.8 UPFIRDN函數(shù)48
- 4.9 函數(shù)優(yōu)化過程描述48-57
- 4.10 正確性測試與優(yōu)化效果評測57-60
- 4.10.1 正確性測試57-58
- 4.10.2 優(yōu)化效果評測58-60
- 4.11 本章總結(jié)60-61
- 第五章 總結(jié)和展望61-63
- 5.1 本文總結(jié)61-62
- 5.2 下一步工作計劃和展望62-63
- 參考文獻63-67
- 致謝67-69
- 在讀期間發(fā)表的學(xué)術(shù)論文與取得的研究成果69
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李章林;吳岳;盧桂章;;TMS320C54X DSP匯編程序的幾種優(yōu)化方法[J];電子器件;2006年04期
2 林冰,馮艷,李學(xué)明;基于Trimedia DSP的H.264解碼算法優(yōu)化[J];計算機工程與應(yīng)用;2005年31期
3 張二毛;;DSP的硬件結(jié)構(gòu)特點與程序優(yōu)化方法[J];內(nèi)江師范學(xué)院學(xué)報;2006年02期
4 劉小明;朱艷;;BWDSP100數(shù)字信號處理器的指令緩存器設(shè)計[J];中國集成電路;2013年04期
5 趙賢鵬,李增智,宋濤,袁飛,馮元,屈科文;一種基于GCC的VLIW編譯器指令調(diào)度算法[J];微電子學(xué)與計算機;2004年01期
6 李紅;張曉彤;王沁;;G.729A語音編碼算法DSP優(yōu)化與高速實現(xiàn)[J];小型微型計算機系統(tǒng);2006年12期
7 黃德天;陳建華;;DSP圖像處理的程序優(yōu)化[J];中國光學(xué)與應(yīng)用光學(xué);2009年05期
8 李世軍;;JPEG圖像壓縮編碼算法的DSP優(yōu)化實現(xiàn)[J];微計算機信息;2012年09期
9 馮玉謙;鄭啟龍;陳思靈;付和萍;;針對多簇架構(gòu)的軟件流水調(diào)度框架設(shè)計與實現(xiàn)[J];計算機系統(tǒng)應(yīng)用;2013年02期
10 徐華葉;鄭啟龍;丁陳飛;徐東鵬;;面向多簇超長指令字DSP的向量化優(yōu)化算法[J];計算機系統(tǒng)應(yīng)用;2013年12期
本文關(guān)鍵詞:基于多核VLIW DSP的數(shù)字信號變換函數(shù)并行優(yōu)化,由筆耕文化傳播整理發(fā)布。
,本文編號:298518
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/298518.html