支持原位計(jì)算的高效三角矩陣乘法向量化方法
本文選題:三角矩陣乘法 + 原位計(jì)算; 參考:《國防科技大學(xué)學(xué)報(bào)》2014年06期
【摘要】:向量化算法映射是向量處理器的難點(diǎn)問題。提出一種高效的支持原位計(jì)算的三角矩陣乘法向量化方法:將L1D配置為SRAM模式,用雙緩沖的乒乓方式平滑多級存儲結(jié)構(gòu)的數(shù)據(jù)傳輸,使得內(nèi)核的計(jì)算與DMA數(shù)據(jù)搬移完全重疊,讓內(nèi)核始終以峰值速度運(yùn)行,從而取得最佳的計(jì)算效率;將不規(guī)則的三角矩陣乘法計(jì)算均衡分布到各個(gè)向量處理單元,充分開發(fā)向量處理器的多級并行性;將結(jié)果矩陣保存在乘數(shù)矩陣中,實(shí)現(xiàn)原位計(jì)算,節(jié)省了存儲空間。實(shí)驗(yàn)結(jié)果表明,提出的向量化方法使三角矩陣乘法性能達(dá)到1053.7GFLOPS,效率為91.47%。
[Abstract]:Vectorization algorithm mapping is a difficult problem in vector processors. An efficient triangulation matrix multiplication vectorization method supporting in situ computation is proposed: L1D is configured into SRAM mode, and the data transfer of multilevel storage structure is smoothed by double buffering ping-pong mode, which makes the computation of the kernel overlap with the DMA data transfer completely. The kernel can always run at the peak speed, so as to obtain the best computing efficiency, and distribute the irregular triangular matrix multiplication to every vector processing unit to fully develop the multilevel parallelism of the vector processor. The result matrix is saved in the multiplier matrix, and the in-situ calculation is realized, and the storage space is saved. The experimental results show that the performance of triangular matrix multiplication is 1053.7 GFLOPS and the efficiency is 91.47.
【作者單位】: 國防科技大學(xué)計(jì)算機(jī)學(xué)院;
【基金】:國家自然科學(xué)基金資助項(xiàng)目(61133007)
【分類號】:O183.1;TP332
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 魏瑩;;矩陣乘法在交通與通訊網(wǎng)絡(luò)中的應(yīng)用[J];廣東交通職業(yè)技術(shù)學(xué)院學(xué)報(bào);2013年01期
2 龍騰芳;矩陣乘法的兩個(gè)算法分析[J];韶關(guān)學(xué)院學(xué)報(bào)(自然科學(xué)版);2001年09期
3 馬磊,趙萍;矩陣乘法教學(xué)中的幾點(diǎn)思考[J];云南財(cái)貿(mào)學(xué)院學(xué)報(bào);2001年S1期
4 胡輝;矩陣乘法和高斯-約當(dāng)消元法并行實(shí)現(xiàn)的研究[J];上海航天;2002年06期
5 趙冠華,劉潔;矩陣乘法的一個(gè)應(yīng)用[J];邯鄲師專學(xué)報(bào);2002年03期
6 蔣昌俊,,吳哲輝;“矩陣乘法的一個(gè)最佳算法”一文的進(jìn)一步研究[J];計(jì)算物理;1994年02期
7 宋國際;;一類實(shí)際問題與矩陣乘法的意義[J];數(shù)學(xué)學(xué)習(xí)與研究;2010年21期
8 沐定夷;;矩陣在Strassen乘法下的最佳嵌入[J];上海交通大學(xué)學(xué)報(bào);1986年04期
9 蔣昌俊,吳哲輝;矩陣乘法的一個(gè)最佳算法[J];科學(xué)通報(bào);1989年04期
10 周德俊,趙玉鳳,林彥芬;矩陣乘法的一個(gè)新快速算法[J];河北地質(zhì)學(xué)院學(xué)報(bào);1995年05期
相關(guān)會(huì)議論文 前1條
1 焦海澎;錢立敏;;利用進(jìn)程環(huán)模擬矩陣的并行算法[A];天津市土木工程學(xué)會(huì)第七屆年會(huì)優(yōu)秀論文集[C];2005年
本文編號:1934163
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1934163.html