高性能DSP中SIMD關(guān)鍵計(jì)算部件的研究
本文選題:SIMD + 子字并行 ; 參考:《國(guó)防科學(xué)技術(shù)大學(xué)》2012年碩士論文
【摘要】:當(dāng)前,嵌入式處理器的應(yīng)用正向大規(guī)模,實(shí)時(shí)性等方向發(fā)展,其中高性能的功能部件是提升處理器性能的一大基礎(chǔ)。本文圍繞子字并行功能部件為中心,以FT-X高性能浮點(diǎn)DSP研究為背景,開(kāi)展了對(duì)功能部件子字并行的深入研究,并提出了高性能的支持子字并行的功能部件的算法。 1)本文針對(duì)功能部件的獨(dú)特特點(diǎn),面向不同應(yīng)用,對(duì)采用子字并行的功能部件的性能進(jìn)行了分析。并對(duì)DSP中存在最多的乘法和加法運(yùn)算部件分別進(jìn)行了加速比分析。 2)通過(guò)對(duì)乘法算法的深入分析,本文提出了一種支持子字并行的乘法算法。采用新型Booth編碼技術(shù)、ES編碼和CS編碼合理分離結(jié)構(gòu),,對(duì)高位寬乘法具有速度優(yōu)勢(shì)。并支持三種位寬工作模式,在文中對(duì)可以同時(shí)執(zhí)行1個(gè)64位乘法,4個(gè)32位乘法或16個(gè)16位乘法,支持有/無(wú)符號(hào)運(yùn)算的乘法結(jié)構(gòu)進(jìn)行了舉例說(shuō)明;為配合乘法矩陣算法在點(diǎn)積指令中的應(yīng)用,本文提出了一種溢出判斷補(bǔ)償技術(shù),解決了在多數(shù)據(jù)通路下點(diǎn)積和矩陣乘法的溢出判斷問(wèn)題。 3)本文對(duì)有限域乘法部件進(jìn)行了算法研究,并對(duì)有限域算法進(jìn)行了子字并行化。提出了一種操作寬度和本原多項(xiàng)式同時(shí)可調(diào)的有限域乘法器。與現(xiàn)有的單功能有限域乘法器相比,在綜合指標(biāo)上具備了一定優(yōu)勢(shì)。 4)本文對(duì)加法算法進(jìn)行了分析。在比較較為先進(jìn)的加法算法的基礎(chǔ)上,提出了一種支持子字并行的加法算法。該算法適用于支持邏輯指令和加/減法的ALU上,可擴(kuò)展性較強(qiáng),且性能較強(qiáng)。 5)上述算法最終實(shí)際應(yīng)用在FT-X高性能浮點(diǎn)處理器的功能部件中。本文對(duì)設(shè)計(jì)的功能部件進(jìn)行了詳細(xì)的設(shè)計(jì)和模擬驗(yàn)證,并給出了最終的的綜合結(jié)果。 本文提出的支持子字并行的乘法部件算法具有關(guān)鍵路徑較短,功能強(qiáng)大,面積較小等特點(diǎn),是一種優(yōu)良的算法。綜合結(jié)果表明,該算法能夠提高64位可支持SIMD乘法速度約4%。本文提出的支持子字并行的加法器可以在較少增加標(biāo)量加法延時(shí)的前提下,支持多種子字并行模式,并將結(jié)果選擇嵌在運(yùn)算體內(nèi),與進(jìn)位消除算法相比,性能提高11%;诒疚某朔ㄋ惴ǖ腗部件能夠滿足應(yīng)用的指令集要求。在DC綜合工具的環(huán)境及TSMC40nm工藝下,F(xiàn)T-X DSP的M部件面積為142275(um2),動(dòng)態(tài)功耗為28.6863(mW),最高頻率可達(dá)1GHz。
[Abstract]:At present, the application of embedded processor is developing in the direction of large scale and real time, among which high performance functional components are the basis of improving processor performance. Based on the research of FT-X high performance floating-point DSP, this paper focuses on the sub-word parallelism, and makes a thorough research on the sub-word parallelism of the functional components, which is based on the FT-X high performance floating-point DSP. A high performance algorithm for supporting subword parallelism is proposed. 1) according to the unique characteristics of functional components and different applications, the performance of functional components using subword parallelism is analyzed in this paper. The speedup ratio analysis of the most existing multiplication and addition components in DSP is given. 2) through the in-depth analysis of the multiplication algorithm, a multiplication algorithm supporting subword parallelism is proposed in this paper. The new Booth coding technique is used in the separation of es coding and CS coding, which has the advantage of high bit width multiplication. It also supports three bit width working modes. In this paper, we illustrate the multiplication structure which can perform one 64-bit multiplication, four 32-bit multiplication or 16 16-bit multiplication at the same time, and support / unsigned operation. In order to match the application of multiplication matrix algorithm in dot product instruction, this paper proposes a compensation technique for overflow judgment. The problem of overflow judgment of point product and matrix multiplication under multi-data path is solved. 3) the algorithm of finite field multiplication is studied and the subword parallelization of finite field algorithm is presented. A finite field multiplier with adjustable operation width and primitive polynomial is proposed. Compared with the existing single function finite field multiplier, it has some advantages in the synthesis index. 4) the addition algorithm is analyzed in this paper. Based on the more advanced addition algorithm, a subword parallel addition algorithm is proposed. The algorithm is suitable for ALU which supports logical instruction and addition / subtraction. It is scalable and has strong performance. 5) the above algorithm is applied in FT-X high performance floating-point processor. In this paper, the functional components are designed and simulated in detail, and the final comprehensive results are given. The multiplication component algorithm, which supports subword parallelism, is an excellent algorithm because of its short critical path, powerful function and small area. The results show that the proposed algorithm can improve the speed of 64 bit SIMD multiplication. The proposed subword parallelism adder can support multi-seed word parallel mode with less scalar addition delay, and the result is embedded in the operation body. Compared with carry elimination algorithm, the performance is improved by 11%. The M part based on the multiplication algorithm in this paper can meet the requirement of instruction set. In the environment of DC synthesis tool and TSMC 40nm process, the M component area of FT-X DSP is 142275 (um2), the dynamic power consumption is 28.6863 (MW), and the highest frequency is 1 GHz.
【學(xué)位授予單位】:國(guó)防科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP332
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 侯永生;趙榮彩;高偉;朱嘉楓;;SIMD擴(kuò)展部件數(shù)據(jù)依賴關(guān)系約束條件研究[J];信息工程大學(xué)學(xué)報(bào);2014年01期
2 吳松,章勇,姚慶棟;嵌入式SIMD控制核的設(shè)計(jì)研究[J];浙江大學(xué)學(xué)報(bào)(工學(xué)版);2001年02期
3 周西漢,劉勃,周荷琴,袁非牛;一種基于奔騰SIMD指令的快速背景提取方法[J];計(jì)算機(jī)工程與應(yīng)用;2004年27期
4 張倩;;二維SIMD結(jié)構(gòu)的低功耗調(diào)度[J];計(jì)算機(jī)工程;2009年10期
5 魏帥;趙榮彩;姚遠(yuǎn);侯永生;;面向SIMD的數(shù)組重組和對(duì)齊優(yōu)化[J];計(jì)算機(jī)科學(xué);2012年02期
6 張武健 ,邱曉海 ,周潤(rùn)德 ,陳弘毅;A New Implementation of the Post-Stage Tasks of Motion Estimation Using SIMD Architecture[J];Tsinghua Science and Technology;2001年04期
7 李俊山,李莉,沈緒榜,焦康;圖象理解SIMD計(jì)算機(jī)的設(shè)計(jì)技術(shù)[J];小型微型計(jì)算機(jī)系統(tǒng);2002年09期
8 王馨梅,張發(fā)存,崔杜武;SIMD計(jì)算機(jī)的面向?qū)ο蠓抡娣椒╗J];計(jì)算機(jī)工程;2005年17期
9 李初輝;王偉;肖瑋;;一種共享主存二維SIMD結(jié)構(gòu)資源分配算法的改進(jìn)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與科學(xué);2008年09期
10 付光遠(yuǎn);;基于SIMD-MPP并行模型的圖像調(diào)度與映射方法研究[J];微電子學(xué)與計(jì)算機(jī);2006年S1期
相關(guān)會(huì)議論文 前8條
1 梅家祥;王永文;邢座程;;SIMD模式下訪存單元的驗(yàn)證[A];第十五屆計(jì)算機(jī)工程與工藝年會(huì)暨第一屆微處理器技術(shù)論壇論文集(A輯)[C];2011年
2 付光遠(yuǎn);;基于SIMD-MPP并行模型的圖像調(diào)度與映射方法研究[A];2006年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(三)[C];2006年
3 高巍;宋妍;;基于SIMD體系結(jié)構(gòu)的數(shù)據(jù)相關(guān)控制語(yǔ)句轉(zhuǎn)化方法[A];2009年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2009年
4 朱明慧;;ADI浮點(diǎn)DSP軟件編程中的指令并行與SIMD應(yīng)用[A];中國(guó)航空學(xué)會(huì)信號(hào)與信息處理專業(yè)全國(guó)第八屆學(xué)術(shù)會(huì)議論文集[C];2004年
5 李彥潔;龐一;孫立峰;;多視點(diǎn)視頻編碼中的SIMD優(yōu)化研究[A];第四屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2008年
6 Liangchun Xu;Hongping Zhang;Wenfei Guo;Di Zhang;;A new SIMD correlatoralgorithm for GNSS software receivers toprocess complex IF data[A];第四屆中國(guó)衛(wèi)星導(dǎo)航學(xué)術(shù)年會(huì)論文集-S7 北斗/GNSS用戶終端技術(shù)[C];2013年
7 吳鐵彬;劉衡竹;楊惠;張劍鋒;侯申;;一種快速SIMD浮點(diǎn)乘加器的設(shè)計(jì)與實(shí)現(xiàn)[A];第十五屆計(jì)算機(jī)工程與工藝年會(huì)暨第一屆微處理器技術(shù)論壇論文集(B輯)[C];2011年
8 張科勛;李勇;郭海勇;;一種半定制與全定制相結(jié)合的SIMD乘法器設(shè)計(jì)[A];第十五屆計(jì)算機(jī)工程與工藝年會(huì)暨第一屆微處理器技術(shù)論壇論文集(A輯)[C];2011年
相關(guān)博士學(xué)位論文 前5條
1 張為華;共享主存多SIMD結(jié)構(gòu)編譯優(yōu)化及結(jié)構(gòu)研究[D];復(fù)旦大學(xué);2006年
2 李玉祥;面向非多媒體程序的SIMD向量化方法及優(yōu)化技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2008年
3 朱嘉華;SIMD編譯優(yōu)化方法研究[D];復(fù)旦大學(xué);2005年
4 姜偉華;針對(duì)實(shí)際多媒體程序和多媒體擴(kuò)展指令集的SIMD編譯優(yōu)化[D];復(fù)旦大學(xué);2005年
5 魏帥;面向SIMD的向量化算法及重組技術(shù)研究[D];解放軍信息工程大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 張倩;二維SIMD結(jié)構(gòu)的低功耗調(diào)度[D];復(fù)旦大學(xué);2008年
2 楊明;基于存儲(chǔ)訪問(wèn)的SIMD優(yōu)化技術(shù)研究[D];解放軍信息工程大學(xué);2011年
3 劉楷;基于SIMD結(jié)構(gòu)的高性能DSP處理器評(píng)測(cè)程序的優(yōu)化與實(shí)現(xiàn)[D];西安電子科技大學(xué);2012年
4 陳向;SIMD數(shù)據(jù)置換指令的自動(dòng)生成與優(yōu)化[D];國(guó)防科學(xué)技術(shù)大學(xué);2010年
5 彭永克;基于SIMD架構(gòu)的二維DCT/IDCT變換電路模塊的設(shè)計(jì)與實(shí)現(xiàn)[D];上海交通大學(xué);2008年
6 肖瑋;二維SIMD結(jié)構(gòu)的編譯優(yōu)化與功耗研究[D];復(fù)旦大學(xué);2008年
7 王迪;SIMD編譯優(yōu)化技術(shù)研究[D];浙江大學(xué);2008年
8 高偉;面向SIMD的自動(dòng)向量化優(yōu)化技術(shù)研究[D];解放軍信息工程大學(xué);2013年
9 劉洋徐瑞;高性能DSP中SIMD關(guān)鍵計(jì)算部件的研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2012年
10 郝云龍;反饋指導(dǎo)的SIMD向量識(shí)別及優(yōu)化技術(shù)研究[D];解放軍信息工程大學(xué);2011年
本文編號(hào):2107693
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2107693.html