面向ARMv8 64位多核處理器的QGEMM設(shè)計與實現(xiàn)
本文選題:ARMv + 位多核處理器 ; 參考:《計算機學(xué)報》2017年09期
【摘要】:該文在ARMv8 64位多核處理器上基于OpenBLAS首次設(shè)計、實現(xiàn)并優(yōu)化了四精度矩陣乘法(Quadruple precision General Matrix-Matrix Multiplication,QGEMM).由于浮點計算中不可避免地引入舍入誤差,雙精度矩陣乘法(DGEMM)在某些情況下不能給出令人滿意的數(shù)值結(jié)果,因此需要高精度或多精度算法來實現(xiàn)更精確的計算.Double-double算術(shù)是一種較為有效和廣泛使用的手段.文中采用double-double數(shù)據(jù)格式構(gòu)建結(jié)構(gòu)體存儲四精度浮點數(shù)據(jù);基于OpenBLAS中的稠密矩陣計算的分塊算法,增加四精度數(shù)據(jù)格式的相關(guān)的頭文件和源文件,并用匯編代碼撰寫文中所提出的QGEMM的核心內(nèi)核;利用無誤差變換技術(shù),調(diào)整并優(yōu)化內(nèi)核中的算法流程,避免規(guī)格化操作步驟造成的數(shù)據(jù)強制依賴關(guān)系;通過分析算法的數(shù)據(jù)依賴關(guān)系,設(shè)計寄存器的分配和輪轉(zhuǎn)策略,優(yōu)化指令調(diào)度順序,開發(fā)指令級并行性,提高QGEMM的實際性能.根據(jù)具體算法使用混合乘加指令(FMA)的程度不同,文中采用了算法理論峰值性能這一概念,其有別于機器理論峰值的概念,能更好地評估文中所提出的QGEMM的實際效率.數(shù)值實驗表明:文中通過匯編代碼實現(xiàn)并優(yōu)化的QGEMM性能最高達(dá)到19.7Gflops,效率為在ARMv864位多核處理器平臺上QGEMM算法理論峰值性能的82.1%,在滿足數(shù)值結(jié)果精度要求的同時,其計算速度約是由C語言撰寫的未優(yōu)化的QGEMM和MBLAS中QGEMM的5.8倍,是編譯器GCC實現(xiàn)的long double數(shù)據(jù)格式的QGEMM的24倍.同時數(shù)值實驗還顯示文中提出的QGEMM針對不同規(guī)模的矩陣具有較好的線程可擴展性.
[Abstract]:In this paper, the first design based on OpenBLAS based on ARMv8 64-bit multi-core processor is presented. The four-precision matrix multiplication is realized and optimized. The Quadruple precision General Matrix-Matrix replication is optimized. Due to the inevitable introduction of rounding error in floating-point calculation, the double-precision matrix multiplication DGEMMM can not give satisfactory numerical results in some cases. Therefore, it is an effective and widely used method to calculate double-double arithmetic with high precision or multi-precision algorithm. In this paper, double-double data format is used to construct the structure to store four-precision floating-point data, and based on the block algorithm of dense matrix calculation in OpenBLAS, the related header files and source files of four-precision data format are added. The kernel of QGEMM is written with assembly code, and the algorithm flow in kernel is adjusted and optimized by using error-free transformation technology to avoid the data mandatory dependency caused by standardized operation steps. By analyzing the data dependence of the algorithm, designing register allocation and rotation strategy, optimizing instruction scheduling order, developing instruction level parallelism, improving the actual performance of QGEMM. According to the degree of using mixed multiplicative plus instruction (FMA), the concept of peak performance of algorithm theory is adopted in this paper, which is different from the concept of peak value of machine theory, which can better evaluate the actual efficiency of QGEMM proposed in this paper. Numerical experiments show that the QGEMM performance achieved and optimized by assembly code is up to 19.7Gflops, and the efficiency is 82.1% of the peak performance of the QGEMM algorithm on the ARMv864 multi-core processor platform. At the same time, the accuracy of the numerical results is satisfied. The speed of calculation is about 5.8 times that of QGEMM in unoptimized QGEMM and MBLAS written by C language, and 24 times that of QGEMM in long double data format implemented by compiler GCC. Numerical experiments also show that the proposed QGEMM has better thread scalability for different size matrices.
【作者單位】: 國防科學(xué)技術(shù)大學(xué)計算機學(xué)院;湖南大學(xué)信息科學(xué)與工程學(xué)院;國防科學(xué)技術(shù)大學(xué)并行與分布處理重點實驗室;
【基金】:國家“八六三”高技術(shù)研究發(fā)展計劃項目基金(2012AA01A301) 國家自然(61402495,61303189,61602166,61170049,61402496)資助~~
【分類號】:TP332
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 許珊琳;;多核處理器——計算領(lǐng)域的又一次革命[J];中國集成電路;2006年05期
2 張洋;;虞志益:引領(lǐng)多核處理器創(chuàng)新之路[J];中國發(fā)明與專利;2013年01期
3 羽路;;多核處理器悄然崛起[J];集成電路應(yīng)用;2005年05期
4 ;多核處理器強調(diào)多任務(wù)并行處理[J];每周電腦報;2006年35期
5 馮磊;;多核處理器的數(shù)量裸奔[J];信息系統(tǒng)工程;2006年11期
6 張浩;蘭峰;;多核處理器基本原理及其在汽車領(lǐng)域中應(yīng)用的展望[J];汽車科技;2007年03期
7 何軍;王飆;;多核處理器的結(jié)構(gòu)設(shè)計研究[J];計算機工程;2007年16期
8 肖紅;;基于多核處理器系統(tǒng)開發(fā)中的幾個問題[J];廣東廣播電視大學(xué)學(xué)報;2007年04期
9 張健浪;;三大于二,多核CPU之田忌賽馬[J];新電腦;2008年06期
10 都思丹;;前言:嵌入式多核處理器系統(tǒng)及視頻信號處理技術(shù)研究進(jìn)展[J];南京大學(xué)學(xué)報(自然科學(xué)版);2009年01期
相關(guān)會議論文 前10條
1 郭建軍;戴葵;王志英;;一種多核處理器存儲層次性能評估模型[A];第八屆全國信息隱藏與多媒體安全學(xué)術(shù)大會湖南省計算機學(xué)會第十一屆學(xué)術(shù)年會論文集[C];2009年
2 彭林;張小強;劉德峰;謝倫國;田祖?zhèn)?;一種挖掘多核處理器存儲級并行的算法[A];第15屆全國信息存儲技術(shù)學(xué)術(shù)會議論文集[C];2008年
3 劉杰;馬彥;葉維;高劍剛;;多核處理器存儲體系分析[A];第十五屆計算機工程與工藝年會暨第一屆微處理器技術(shù)論壇論文集(A輯)[C];2011年
4 潘送軍;胡瑜;李曉維;;多核處理器瞬態(tài)故障敏感性分析[A];第五屆中國測試學(xué)術(shù)會議論文集[C];2008年
5 方娟;張紅波;;多核處理器預(yù)取策略的研究[A];2010年全國開放式分布與并行計算機學(xué)術(shù)會議論文集[C];2010年
6 何軍;王飆;;通用多核處理器發(fā)展現(xiàn)狀和趨勢研究[A];第十五屆計算機工程與工藝年會暨第一屆微處理器技術(shù)論壇論文集(A輯)[C];2011年
7 桂亞東;;高效能計算機技術(shù)展望[A];慶祝中國力學(xué)學(xué)會成立50周年暨中國力學(xué)學(xué)會學(xué)術(shù)大會’2007論文摘要集(下)[C];2007年
8 萬志濤;;基于多核處理器的面向時延敏感服務(wù)的云基礎(chǔ)架構(gòu)[A];中國通信學(xué)會信息通信網(wǎng)絡(luò)技術(shù)委員會2011年年會論文集(上冊)[C];2011年
9 陳遠(yuǎn)知;;多核處理器的里程碑——TILE64[A];全國第三屆信號和智能信息處理與應(yīng)用學(xué)術(shù)交流會專刊[C];2009年
10 陳遠(yuǎn)知;楊帆;;Tilera多核處理器網(wǎng)絡(luò)應(yīng)用研究[A];全國第五屆信號和智能信息處理與應(yīng)用學(xué)術(shù)會議專刊(第一冊)[C];2011年
相關(guān)重要報紙文章 前10條
1 記者 曹繼軍 顏維琦;我國多核處理器研究實現(xiàn)新突破[N];光明日報;2012年
2 李梅 編譯;多核處理器新年井噴[N];計算機世界;2007年
3 英特爾產(chǎn)品與平臺市場部門數(shù)字家庭市場經(jīng)理 莊淳杰;多核將大行其道[N];計算機世界;2007年
4 本報記者 陳斌;多核處理器的未來路徑[N];計算機世界;2008年
5 ;多核:技術(shù)無懸念應(yīng)用待拓展[N];計算機世界;2008年
6 Hillstone首席軟件架構(gòu)師 王鐘;多核是更好的選擇[N];網(wǎng)絡(luò)世界;2009年
7 宋家雨;服務(wù)器銷量會減半嗎?[N];網(wǎng)絡(luò)世界;2007年
8 蔣楠;美國 青少年變身“多核處理器”[N];中國計算機報;2006年
9 清華大學(xué)計算機系 教授 鄭緯民;“多核”成為關(guān)鍵詞[N];計算機世界;2007年
10 中航工業(yè)計算所 牛文生;計算機技術(shù)的一些新進(jìn)展[N];中國航空報;2011年
相關(guān)博士學(xué)位論文 前10條
1 柴松;片上多核處理器的調(diào)度算法研究[D];電子科技大學(xué);2014年
2 付桂濤;面向多核處理器的令牌一致性協(xié)議優(yōu)化技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2014年
3 易娟;面向多核處理器系統(tǒng)的可靠性與能耗優(yōu)化調(diào)度研究[D];重慶大學(xué);2016年
4 王淼;面向多核處理器的并行編譯及優(yōu)化關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2010年
5 魏海濤;面向多核處理器的數(shù)據(jù)流程序編譯關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2010年
6 呂海;多核處理器芯片計算平臺中并行程序性能優(yōu)化的研究[D];北京工業(yè)大學(xué);2012年
7 李建華;片上多核處理器緩存子系統(tǒng)優(yōu)化的研究[D];中國科學(xué)技術(shù)大學(xué);2013年
8 杜建軍;共享高速緩存多核處理器的關(guān)鍵技術(shù)研究[D];重慶大學(xué);2011年
9 陳銳忠;非對稱多核處理器的若干調(diào)度問題研究[D];華南理工大學(xué);2013年
10 鄧林;單芯片多核處理器存儲優(yōu)化技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 張請;多核處理器關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2014年
2 陳帥軍;基于國產(chǎn)多核處理器核級冗余靜態(tài)綁定和動態(tài)綁定機制的研究[D];哈爾濱工業(yè)大學(xué);2015年
3 楊杭軍;基于多核處理器的視頻編解碼并行算法研究[D];南京大學(xué);2013年
4 王宗炎;基于OVP的多核處理器系統(tǒng)級建模與評估[D];復(fù)旦大學(xué);2014年
5 范少華;多核處理器映射關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2014年
6 裘凱;多核處理器映射關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2014年
7 馮勇;基于Tilera多核處理器的并行模型研究[D];西安電子科技大學(xué);2014年
8 龐守雷;面向特定應(yīng)用的多核處理器體系結(jié)構(gòu)關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2014年
9 歐麗軍;面向未來通信算法的多核處理器存儲系統(tǒng)設(shè)計與實現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2014年
10 龍戀;多核處理器存儲資源管理建模與訪存帶寬管理優(yōu)化[D];國防科學(xué)技術(shù)大學(xué);2014年
,本文編號:1780846
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1780846.html