數(shù)據(jù)局部性及其編譯優(yōu)化技術(shù)研究
發(fā)布時間:2021-02-02 15:08
隨著工藝水平的進(jìn)步和處理器體系結(jié)構(gòu)的發(fā)展,處理器的速度已遠(yuǎn)遠(yuǎn)超過了存儲器的速度,從而導(dǎo)致了“存儲墻”的出現(xiàn)。為了解決“存儲墻”問題,減少存儲訪問延遲,當(dāng)前的計算機(jī)大都采用層次存儲系統(tǒng)。層次存儲系統(tǒng)中各級存儲器的有效利用依賴于程序存儲訪問的局部性特性,因此針對層次存儲系統(tǒng)的局部性優(yōu)化技術(shù)成為了充分發(fā)揮計算機(jī)系統(tǒng)性能,解決“存儲墻”問題的關(guān)鍵技術(shù)之一。 本文著重研究了如何通過編譯優(yōu)化來改善程序存儲訪問的局部性問題。cache局部性優(yōu)化和內(nèi)存局部性優(yōu)化是局部性優(yōu)化中的關(guān)鍵問題。改善cache局部性可以有效減少cache失效,而改善內(nèi)存局部性可以有效減少處理器間的數(shù)據(jù)通信。除了局部性之外,偽共享也對程序的執(zhí)行性能有著重要的影響。因此,本文主要針對cache局部性優(yōu)化、內(nèi)存局部性優(yōu)化和提高局部性并同時消除偽共享的問題進(jìn)行了深入的研究。本文所做的創(chuàng)新工作主要體現(xiàn)在以下幾點: (1) 在利用數(shù)據(jù)變換技術(shù)來優(yōu)化cache局部性方面,當(dāng)前的方法大都僅考慮了對仿射下標(biāo)的優(yōu)化,并且優(yōu)化方法相對來說比較復(fù)雜,有的還限制了數(shù)據(jù)變換的種類,存在著一定的不足之處。針對這些不足之處,本文深入探討了用數(shù)據(jù)變...
【文章來源】:國防科技大學(xué)湖南省 211工程院校 985工程院校
【文章頁數(shù)】:207 頁
【學(xué)位級別】:博士
【部分圖文】:
不同數(shù)據(jù)存儲方式的執(zhí)行時間比較
(e)mytest圖7.4原程序和優(yōu)化后的程序的執(zhí)行時間比較【圖7.4中橫坐標(biāo)為處理器數(shù)目,縱坐標(biāo)為執(zhí)行時間,且執(zhí)行時間的單位是秒。測試程序的問題規(guī)模如下:matmult使用1o24x1024的數(shù)組;s”Zk使用lo24xlo24的數(shù)組;adi使用200ox2000x3的數(shù)組;卿nta使用92ox92ox3的三維數(shù)組以及92ox92o的二維數(shù)組;mytest的L,=256,LZ=256,L3=225。上述數(shù)組中每個數(shù)組元素的大小都是8個字節(jié)]。第169頁
本文編號:3014902
【文章來源】:國防科技大學(xué)湖南省 211工程院校 985工程院校
【文章頁數(shù)】:207 頁
【學(xué)位級別】:博士
【部分圖文】:
不同數(shù)據(jù)存儲方式的執(zhí)行時間比較
(e)mytest圖7.4原程序和優(yōu)化后的程序的執(zhí)行時間比較【圖7.4中橫坐標(biāo)為處理器數(shù)目,縱坐標(biāo)為執(zhí)行時間,且執(zhí)行時間的單位是秒。測試程序的問題規(guī)模如下:matmult使用1o24x1024的數(shù)組;s”Zk使用lo24xlo24的數(shù)組;adi使用200ox2000x3的數(shù)組;卿nta使用92ox92ox3的三維數(shù)組以及92ox92o的二維數(shù)組;mytest的L,=256,LZ=256,L3=225。上述數(shù)組中每個數(shù)組元素的大小都是8個字節(jié)]。第169頁
本文編號:3014902
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3014902.html
最近更新
教材專著