面向ARMv8 64位多核處理器的QGEMM設(shè)計(jì)與實(shí)現(xiàn)
本文選題:ARMv + 位多核處理器; 參考:《計(jì)算機(jī)學(xué)報(bào)》2017年09期
【摘要】:該文在ARMv8 64位多核處理器上基于OpenBLAS首次設(shè)計(jì)、實(shí)現(xiàn)并優(yōu)化了四精度矩陣乘法(Quadruple precision General Matrix-Matrix Multiplication,QGEMM).由于浮點(diǎn)計(jì)算中不可避免地引入舍入誤差,雙精度矩陣乘法(DGEMM)在某些情況下不能給出令人滿意的數(shù)值結(jié)果,因此需要高精度或多精度算法來(lái)實(shí)現(xiàn)更精確的計(jì)算.Double-double算術(shù)是一種較為有效和廣泛使用的手段.文中采用double-double數(shù)據(jù)格式構(gòu)建結(jié)構(gòu)體存儲(chǔ)四精度浮點(diǎn)數(shù)據(jù);基于OpenBLAS中的稠密矩陣計(jì)算的分塊算法,增加四精度數(shù)據(jù)格式的相關(guān)的頭文件和源文件,并用匯編代碼撰寫文中所提出的QGEMM的核心內(nèi)核;利用無(wú)誤差變換技術(shù),調(diào)整并優(yōu)化內(nèi)核中的算法流程,避免規(guī)格化操作步驟造成的數(shù)據(jù)強(qiáng)制依賴關(guān)系;通過(guò)分析算法的數(shù)據(jù)依賴關(guān)系,設(shè)計(jì)寄存器的分配和輪轉(zhuǎn)策略,優(yōu)化指令調(diào)度順序,開發(fā)指令級(jí)并行性,提高QGEMM的實(shí)際性能.根據(jù)具體算法使用混合乘加指令(FMA)的程度不同,文中采用了算法理論峰值性能這一概念,其有別于機(jī)器理論峰值的概念,能更好地評(píng)估文中所提出的QGEMM的實(shí)際效率.數(shù)值實(shí)驗(yàn)表明:文中通過(guò)匯編代碼實(shí)現(xiàn)并優(yōu)化的QGEMM性能最高達(dá)到19.7Gflops,效率為在ARMv864位多核處理器平臺(tái)上QGEMM算法理論峰值性能的82.1%,在滿足數(shù)值結(jié)果精度要求的同時(shí),其計(jì)算速度約是由C語(yǔ)言撰寫的未優(yōu)化的QGEMM和MBLAS中QGEMM的5.8倍,是編譯器GCC實(shí)現(xiàn)的long double數(shù)據(jù)格式的QGEMM的24倍.同時(shí)數(shù)值實(shí)驗(yàn)還顯示文中提出的QGEMM針對(duì)不同規(guī)模的矩陣具有較好的線程可擴(kuò)展性.
[Abstract]:In this paper, the first design based on OpenBLAS based on ARMv8 64-bit multi-core processor is presented. The four-precision matrix multiplication is realized and optimized. The Quadruple precision General Matrix-Matrix replication is optimized. Due to the inevitable introduction of rounding error in floating-point calculation, the double-precision matrix multiplication DGEMMM can not give satisfactory numerical results in some cases. Therefore, it is an effective and widely used method to calculate double-double arithmetic with high precision or multi-precision algorithm. In this paper, double-double data format is used to construct the structure to store four-precision floating-point data, and based on the block algorithm of dense matrix calculation in OpenBLAS, the related header files and source files of four-precision data format are added. The kernel of QGEMM is written with assembly code, and the algorithm flow in kernel is adjusted and optimized by using error-free transformation technology to avoid the data mandatory dependency caused by standardized operation steps. By analyzing the data dependence of the algorithm, designing register allocation and rotation strategy, optimizing instruction scheduling order, developing instruction level parallelism, improving the actual performance of QGEMM. According to the degree of using mixed multiplicative plus instruction (FMA), the concept of peak performance of algorithm theory is adopted in this paper, which is different from the concept of peak value of machine theory, which can better evaluate the actual efficiency of QGEMM proposed in this paper. Numerical experiments show that the QGEMM performance achieved and optimized by assembly code is up to 19.7Gflops, and the efficiency is 82.1% of the peak performance of the QGEMM algorithm on the ARMv864 multi-core processor platform. At the same time, the accuracy of the numerical results is satisfied. The speed of calculation is about 5.8 times that of QGEMM in unoptimized QGEMM and MBLAS written by C language, and 24 times that of QGEMM in long double data format implemented by compiler GCC. Numerical experiments also show that the proposed QGEMM has better thread scalability for different size matrices.
【作者單位】: 國(guó)防科學(xué)技術(shù)大學(xué)計(jì)算機(jī)學(xué)院;湖南大學(xué)信息科學(xué)與工程學(xué)院;國(guó)防科學(xué)技術(shù)大學(xué)并行與分布處理重點(diǎn)實(shí)驗(yàn)室;
【基金】:國(guó)家“八六三”高技術(shù)研究發(fā)展計(jì)劃項(xiàng)目基金(2012AA01A301) 國(guó)家自然(61402495,61303189,61602166,61170049,61402496)資助~~
【分類號(hào)】:TP332
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 許珊琳;;多核處理器——計(jì)算領(lǐng)域的又一次革命[J];中國(guó)集成電路;2006年05期
2 張洋;;虞志益:引領(lǐng)多核處理器創(chuàng)新之路[J];中國(guó)發(fā)明與專利;2013年01期
3 羽路;;多核處理器悄然崛起[J];集成電路應(yīng)用;2005年05期
4 ;多核處理器強(qiáng)調(diào)多任務(wù)并行處理[J];每周電腦報(bào);2006年35期
5 馮磊;;多核處理器的數(shù)量裸奔[J];信息系統(tǒng)工程;2006年11期
6 張浩;蘭峰;;多核處理器基本原理及其在汽車領(lǐng)域中應(yīng)用的展望[J];汽車科技;2007年03期
7 何軍;王飆;;多核處理器的結(jié)構(gòu)設(shè)計(jì)研究[J];計(jì)算機(jī)工程;2007年16期
8 肖紅;;基于多核處理器系統(tǒng)開發(fā)中的幾個(gè)問(wèn)題[J];廣東廣播電視大學(xué)學(xué)報(bào);2007年04期
9 張健浪;;三大于二,多核CPU之田忌賽馬[J];新電腦;2008年06期
10 都思丹;;前言:嵌入式多核處理器系統(tǒng)及視頻信號(hào)處理技術(shù)研究進(jìn)展[J];南京大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年01期
相關(guān)會(huì)議論文 前10條
1 郭建軍;戴葵;王志英;;一種多核處理器存儲(chǔ)層次性能評(píng)估模型[A];第八屆全國(guó)信息隱藏與多媒體安全學(xué)術(shù)大會(huì)湖南省計(jì)算機(jī)學(xué)會(huì)第十一屆學(xué)術(shù)年會(huì)論文集[C];2009年
2 彭林;張小強(qiáng);劉德峰;謝倫國(guó);田祖?zhèn)?;一種挖掘多核處理器存儲(chǔ)級(jí)并行的算法[A];第15屆全國(guó)信息存儲(chǔ)技術(shù)學(xué)術(shù)會(huì)議論文集[C];2008年
3 劉杰;馬彥;葉維;高劍剛;;多核處理器存儲(chǔ)體系分析[A];第十五屆計(jì)算機(jī)工程與工藝年會(huì)暨第一屆微處理器技術(shù)論壇論文集(A輯)[C];2011年
4 潘送軍;胡瑜;李曉維;;多核處理器瞬態(tài)故障敏感性分析[A];第五屆中國(guó)測(cè)試學(xué)術(shù)會(huì)議論文集[C];2008年
5 方娟;張紅波;;多核處理器預(yù)取策略的研究[A];2010年全國(guó)開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集[C];2010年
6 何軍;王飆;;通用多核處理器發(fā)展現(xiàn)狀和趨勢(shì)研究[A];第十五屆計(jì)算機(jī)工程與工藝年會(huì)暨第一屆微處理器技術(shù)論壇論文集(A輯)[C];2011年
7 桂亞?wèn)|;;高效能計(jì)算機(jī)技術(shù)展望[A];慶祝中國(guó)力學(xué)學(xué)會(huì)成立50周年暨中國(guó)力學(xué)學(xué)會(huì)學(xué)術(shù)大會(huì)’2007論文摘要集(下)[C];2007年
8 萬(wàn)志濤;;基于多核處理器的面向時(shí)延敏感服務(wù)的云基礎(chǔ)架構(gòu)[A];中國(guó)通信學(xué)會(huì)信息通信網(wǎng)絡(luò)技術(shù)委員會(huì)2011年年會(huì)論文集(上冊(cè))[C];2011年
9 陳遠(yuǎn)知;;多核處理器的里程碑——TILE64[A];全國(guó)第三屆信號(hào)和智能信息處理與應(yīng)用學(xué)術(shù)交流會(huì)專刊[C];2009年
10 陳遠(yuǎn)知;楊帆;;Tilera多核處理器網(wǎng)絡(luò)應(yīng)用研究[A];全國(guó)第五屆信號(hào)和智能信息處理與應(yīng)用學(xué)術(shù)會(huì)議?(第一冊(cè))[C];2011年
相關(guān)重要報(bào)紙文章 前10條
1 記者 曹繼軍 顏維琦;我國(guó)多核處理器研究實(shí)現(xiàn)新突破[N];光明日?qǐng)?bào);2012年
2 李梅 編譯;多核處理器新年井噴[N];計(jì)算機(jī)世界;2007年
3 英特爾產(chǎn)品與平臺(tái)市場(chǎng)部門數(shù)字家庭市場(chǎng)經(jīng)理 莊淳杰;多核將大行其道[N];計(jì)算機(jī)世界;2007年
4 本報(bào)記者 陳斌;多核處理器的未來(lái)路徑[N];計(jì)算機(jī)世界;2008年
5 ;多核:技術(shù)無(wú)懸念應(yīng)用待拓展[N];計(jì)算機(jī)世界;2008年
6 Hillstone首席軟件架構(gòu)師 王鐘;多核是更好的選擇[N];網(wǎng)絡(luò)世界;2009年
7 宋家雨;服務(wù)器銷量會(huì)減半嗎?[N];網(wǎng)絡(luò)世界;2007年
8 蔣楠;美國(guó) 青少年變身“多核處理器”[N];中國(guó)計(jì)算機(jī)報(bào);2006年
9 清華大學(xué)計(jì)算機(jī)系 教授 鄭緯民;“多核”成為關(guān)鍵詞[N];計(jì)算機(jī)世界;2007年
10 中航工業(yè)計(jì)算所 牛文生;計(jì)算機(jī)技術(shù)的一些新進(jìn)展[N];中國(guó)航空?qǐng)?bào);2011年
相關(guān)博士學(xué)位論文 前10條
1 柴松;片上多核處理器的調(diào)度算法研究[D];電子科技大學(xué);2014年
2 付桂濤;面向多核處理器的令牌一致性協(xié)議優(yōu)化技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2014年
3 易娟;面向多核處理器系統(tǒng)的可靠性與能耗優(yōu)化調(diào)度研究[D];重慶大學(xué);2016年
4 王淼;面向多核處理器的并行編譯及優(yōu)化關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2010年
5 魏海濤;面向多核處理器的數(shù)據(jù)流程序編譯關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2010年
6 呂海;多核處理器芯片計(jì)算平臺(tái)中并行程序性能優(yōu)化的研究[D];北京工業(yè)大學(xué);2012年
7 李建華;片上多核處理器緩存子系統(tǒng)優(yōu)化的研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2013年
8 杜建軍;共享高速緩存多核處理器的關(guān)鍵技術(shù)研究[D];重慶大學(xué);2011年
9 陳銳忠;非對(duì)稱多核處理器的若干調(diào)度問(wèn)題研究[D];華南理工大學(xué);2013年
10 鄧林;單芯片多核處理器存儲(chǔ)優(yōu)化技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 張請(qǐng);多核處理器關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2014年
2 陳帥軍;基于國(guó)產(chǎn)多核處理器核級(jí)冗余靜態(tài)綁定和動(dòng)態(tài)綁定機(jī)制的研究[D];哈爾濱工業(yè)大學(xué);2015年
3 楊杭軍;基于多核處理器的視頻編解碼并行算法研究[D];南京大學(xué);2013年
4 王宗炎;基于OVP的多核處理器系統(tǒng)級(jí)建模與評(píng)估[D];復(fù)旦大學(xué);2014年
5 范少華;多核處理器映射關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2014年
6 裘凱;多核處理器映射關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2014年
7 馮勇;基于Tilera多核處理器的并行模型研究[D];西安電子科技大學(xué);2014年
8 龐守雷;面向特定應(yīng)用的多核處理器體系結(jié)構(gòu)關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2014年
9 歐麗軍;面向未來(lái)通信算法的多核處理器存儲(chǔ)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2014年
10 龍戀;多核處理器存儲(chǔ)資源管理建模與訪存帶寬管理優(yōu)化[D];國(guó)防科學(xué)技術(shù)大學(xué);2014年
,本文編號(hào):1780846
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1780846.html