龍芯3B處理器上FFT算法向量化研究
本文選題:龍芯B + 優(yōu)化算法; 參考:《小型微型計(jì)算機(jī)系統(tǒng)》2015年07期
【摘要】:龍芯3B處理器是龍芯3號(hào)多核處理器的第二款產(chǎn)品,主要面向高性能計(jì)算、高端嵌入式等應(yīng)用領(lǐng)域.快速傅里葉變換(Fast Fourier Transform,FFT)作為數(shù)字信號(hào)處理、圖像處理等領(lǐng)域的基本研究工具,其在龍芯3B處理器上的高效實(shí)現(xiàn)是必不可少的.然而目前的FFT算法因未能充分挖掘龍芯3B處理器的硬件特性,仍面臨算法性能較低的問題.針對(duì)該問題,對(duì)FFT算法進(jìn)行分析,并結(jié)合龍芯3B處理器的體系結(jié)構(gòu)特征,提出基32迭代的向量化FFT算法.實(shí)驗(yàn)結(jié)果表明,在龍芯3B處理器上基32迭代的向量化FFT算法平均性能達(dá)到765.15M flops,是相同環(huán)境下FFTW軟件包(Fast Fourier Transform in the West)性能的2.12倍,最高性能可以達(dá)到1341.12Mflops,是相同環(huán)境下FFTW軟件包性能的3.51倍.
[Abstract]:Ronson 3B processor is the second product of Ronson 3 multi-core processor, mainly for high performance computing, high-end embedded applications and other fields. As a basic research tool in digital signal processing and image processing, Fast Fourier transform (FFT) is essential for its efficient implementation on Ronson 3B processor. However, the current FFT algorithm is still faced with the problem of low performance due to its failure to fully exploit the hardware characteristics of the Godson 3B processor. Aiming at this problem, the FFT algorithm is analyzed, and the vectorized FFT algorithm based on radix 32 iteration is proposed according to the architecture characteristics of Ronson 3B processor. The experimental results show that the average performance of the vectorized FFT algorithm based on radix 32 iteration on Ronson 3B processor is 765.15m flops, which is 2.12 times higher than that of the FFTW software package (Fast Fourier transform in the West) under the same environment. The highest performance can reach 1341.12Mflops3.51 times the performance of FFTW software package in the same environment.
【作者單位】: 中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院;中國(guó)科學(xué)技術(shù)大學(xué)安徽省計(jì)算與通信軟件重點(diǎn)實(shí)驗(yàn)室;中國(guó)科學(xué)技術(shù)大學(xué)先進(jìn)技術(shù)研究院;
【基金】:國(guó)家“核高基”重大專項(xiàng)項(xiàng)目(2009ZX01028-002-003-005)資助 高等學(xué)校學(xué)科創(chuàng)新引智計(jì)劃項(xiàng)目(B07033)資助
【分類號(hào)】:TP332;TP301.6
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 馬瀟;高立寧;劉騰飛;金燁;;基于Cache優(yōu)化的大點(diǎn)數(shù)FFT在TS201上的實(shí)現(xiàn)[J];電子與信息學(xué)報(bào);2013年07期
2 李成軍;周衛(wèi)峰;朱重光;;基于Intel SIMD指令的二維FFT優(yōu)化算法[J];計(jì)算機(jī)工程與應(yīng)用;2007年05期
3 郭利財(cái);劉燕君;;龍芯3A處理器上FFT的高效實(shí)現(xiàn)[J];小型微型計(jì)算機(jī)系統(tǒng);2012年03期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 邱振戈;岳慶興;張春玲;周強(qiáng);賈永紅;;TDI-CCD在軌成像質(zhì)量MTF數(shù)值模擬[J];國(guó)土資源遙感;2009年01期
2 房愛東;;多核CPU上快速傅里葉變換并行算法的優(yōu)化[J];長(zhǎng)沙大學(xué)學(xué)報(bào);2013年02期
3 樊明迪;林輝;呂帥帥;;一種抑制PMSM-DTC周期性轉(zhuǎn)速脈動(dòng)的方法[J];電機(jī)與控制學(xué)報(bào);2013年09期
4 孫冬;高清維;竺德;盧一相;;離散傅里葉變換的自適應(yīng)循環(huán)電力諧波分析算法[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年06期
5 盛建國(guó);朱鳴君;胡瑞;;一種便攜式消防救援通信箱系統(tǒng)的設(shè)計(jì)[J];電腦知識(shí)與技術(shù);2013年28期
6 曹鵬;楊錦江;梅晨;;基于粗粒度可重構(gòu)架構(gòu)的并行FFT算法實(shí)現(xiàn)[J];東南大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年06期
7 楊雪;李學(xué)友;李家國(guó);馬駿;張力;楊健;杜全葉;;基于GPU和分塊技術(shù)的巨幅影像快速傅里葉變換算法研究(英文)[J];光譜學(xué)與光譜分析;2014年02期
8 何其佳;劉振丙;;基于一階矩的無(wú)乘法DFT算法[J];桂林電子科技大學(xué)學(xué)報(bào);2014年03期
9 陳大銀;;Matlab軟件在頻譜分析中的應(yīng)用[J];貴陽(yáng)學(xué)院學(xué)報(bào)(自然科學(xué)版);2014年02期
10 曾博;唐求;卿柏元;溫和;李剛;滕召勝;;基于Nuttall自卷積窗的改進(jìn)FFT譜分析方法[J];電工技術(shù)學(xué)報(bào);2014年07期
相關(guān)會(huì)議論文 前2條
1 Wenqiang Guo;Qiang Zhou;Yongyan Hou;Zoe Zhu;Jingjing Yang;Baorong Zhang;;Early Classification for Bearing Faults of Rotating Machinery Based on MFES and Bayesian Network[A];第25屆中國(guó)控制與決策會(huì)議論文集[C];2013年
2 Zhu Jin;Luo Jun;Zhang Shuang;;The Design and Implementation of FFT Algorithm Based on The Xilinx FPGA IP Core[A];2012年計(jì)算機(jī)應(yīng)用與系統(tǒng)建模國(guó)際會(huì)議論文集[C];2012年
相關(guān)博士學(xué)位論文 前10條
1 陳緒荃;雷電信號(hào)特征分析及其分選研究[D];華中科技大學(xué);2013年
2 朱霄s,
本文編號(hào):2081806
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2081806.html