天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 計算機論文 >

ATLAS在龍芯2F上的訪存優(yōu)化

發(fā)布時間:2020-09-19 14:42
   BLAS是很重要的標準數(shù)學庫,它主要是一系列矩陣與向量基本操作的集合,其運算性能的測試也是高性能計算機的重要評測手段。為發(fā)揮國產(chǎn)龍芯2F微處理器的計算性能,本文在基于龍芯2F處理器的高性能計算機系統(tǒng)KD-50-I上進行BLAS通用優(yōu)化版本ATLAS的針對龍芯體系結構的優(yōu)化。 本文首先介紹了BLAS的函數(shù)功能,并著重分析了ATLAS實現(xiàn)時采用的矩陣和向量的存儲數(shù)據(jù)結構。不同的函數(shù)具有不同類型數(shù)據(jù)結構的參數(shù),直接影響到ATLAS對各函數(shù)的優(yōu)化和實現(xiàn)。隨后介紹了龍芯2F體系結構,特別是對程序性能影響最大的流水線結構和存儲器結構特點。 基于龍芯2F體系結構特點和ATLAS各級函數(shù)的運算特征,提出一系列方法來優(yōu)化ATLAS各函數(shù)的性能。主要的優(yōu)化目標在于函數(shù)的訪存方式,通過調度指令,盡可能地將計算時間隱藏于訪存之中,同時有效利用內(nèi)存以及cache特性,減少內(nèi)存訪問時間,以達到加快程序運行的目的。 然后,根據(jù)BLAS二級函數(shù)的特點,將對BLAS2的優(yōu)化目標確定在對內(nèi)存的訪問方式上,通過循環(huán)展開減少內(nèi)存訪問次數(shù),并利用龍芯2F的非阻塞cache機制形成內(nèi)存訪問流水線,加快內(nèi)存訪問速度,消除ATLAS函數(shù)運行時的性能波動,最終將BLAS二級函數(shù)性能提升30%以上。 最后,通過對cache的有效利用,采用數(shù)據(jù)預取、矩陣分塊以及部分拷貝等手段來減弱大規(guī)模參數(shù)下函數(shù)產(chǎn)生的cache失效問題,并使用循環(huán)展開方法減少對內(nèi)存和cache的訪問次數(shù),優(yōu)化后的BLAS3單精度函數(shù)性能較ATLAS提高近80%,而雙精度函數(shù)性能提升50%以上。 本文提出的各種方法對即將推出的龍芯3號處理器上的高性能BLAS實現(xiàn)有重要的參考意義。
【學位單位】:中國科學技術大學
【學位級別】:碩士
【學位年份】:2009
【中圖分類】:TP332
【部分圖文】:

函數(shù)性,隨機替換,策略,數(shù)據(jù)


的 cache 中,內(nèi)存中的許多塊都可能映射到 cache 的同一組得當程序需要使用某一曾在 cache 中,但現(xiàn)在已被替換出的沖突失效。龍芯 2F 的 cache 便是四路組相連,并且采用隨機問方式上來說,沖突失效出現(xiàn)是否頻繁跟訪問是否連續(xù)有路 cache 的分塊,如果連續(xù)存儲,則必然不會存在映射于同也就不可能出現(xiàn) cache 沖突失效。但是如果是間隔存儲,,其中就很可能存在大量數(shù)據(jù)塊映射于同一組 cache,出現(xiàn)據(jù)的地址分布密切相關。3 是雙精度矩陣向量乘函數(shù)(dgemv)經(jīng)過部分優(yōu)化前后的emv 在矩陣規(guī)模為 512 的倍數(shù)時會發(fā)生明顯的下降,而且越為嚴重。

參數(shù)矩陣,參數(shù)數(shù),方陣,運算速度


emv 函數(shù)的優(yōu)化主要體現(xiàn)在循環(huán)展開方式、指令的調度和矩陣分塊的作用是減少大規(guī)模矩陣運算中的 cache 容量失算過程中只訪問一遍矩陣數(shù)據(jù),而需要重復訪問的只是兩經(jīng)過拷貝連續(xù)存儲后所占用的空間已經(jīng)很小,多次讀取向不大,因此矩陣分塊與否對整體性能影響很小,在多次的塊方式對函數(shù)的性能影響并不明顯,因此在優(yōu)化后的函數(shù)

運算速度,參數(shù)矩陣,轉置,倍數(shù)


= *x;+= A0[ aij ] * x0; y1 += A1[ aij ] * x0;+= A2[ aij ] * x0; y3 += A3[ aij ] * x0;+= A4[ aij ] * x0; y5 += A5[ aij ] * x0;+= A6[ aij ] * x0; y7 += A7[ aij ] * x0;…= x[7]; x += 8;+= A0[aij+7] * x7; y1 += A1[aij+7] * x7;+= A2[aij+7] * x7; y3 += A3[aij+7] * x7;+= A4[aij+7] * x7; y5 += A5[aij+7] * x7;+= A6[aij+7] * x7; y7 += A7[aij+7] * x7; y0; Y[1] = y1; Y[2] = y2; Y[3] = y3; = y4; Y[5] = y5; Y[6] = y6; Y[7] = y7; Y += 8;展開循環(huán)后 sgemvt 運算速度提升到了 240Mflops 左右(圖 30%,但非 8 倍數(shù)規(guī)模下的性能很低。

【引證文獻】

相關碩士學位論文 前1條

1 馬萌;面向程序訪存特征的存儲優(yōu)化技術研究[D];國防科學技術大學;2011年



本文編號:2822638

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2822638.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶792a5***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
人体偷拍一区二区三区| 人妻熟女中文字幕在线| 国产一区二区三区午夜精品| 国产传媒精品视频一区| 久草热视频这里只有精品| 国产免费一区二区不卡| 国产色第一区不卡高清| 亚洲高清欧美中文字幕| 亚洲欧美日韩国产自拍| 欧美一区二区口爆吞精| 亚洲精品av少妇在线观看| 91香蕉视频精品在线看| 欧美国产亚洲一区二区三区| 不卡视频免费一区二区三区| 亚洲男人的天堂就去爱| 久热青青草视频在线观看| 欧美国产日产在线观看| 欧美日韩国产免费看黄片| 亚洲欧美国产网爆精品| 亚洲欧美视频欧美视频| 视频在线免费观看你懂的| 麻豆视频传媒入口在线看| 成人你懂的在线免费视频| 国产香蕉国产精品偷在线观看 | 国产麻豆一区二区三区在| 少妇人妻精品一区二区三区| 中文字幕中文字幕在线十八区| 中文文精品字幕一区二区 | 欧洲日韩精品一区二区三区| 老司机精品视频在线免费| 亚洲av又爽又色又色| 在线精品首页中文字幕亚洲| 在线免费国产一区二区三区| 国产一区二区在线免费| 91久久精品在这里色伊人| 日韩一区二区三区在线欧洲| 国内精品一区二区欧美| 国产日本欧美韩国在线| 国产一区欧美一区日本道| 国产欧美日产中文一区| 久久夜色精品国产高清不卡|