基于數(shù)據(jù)放大單元延遲方法的低功耗Cache研究
發(fā)布時(shí)間:2020-10-14 18:43
在當(dāng)代計(jì)算機(jī)系統(tǒng)中,處理器速度遠(yuǎn)遠(yuǎn)高于存儲(chǔ)器的速度。Cache技術(shù)是提高數(shù)據(jù)訪問性能的經(jīng)典技術(shù),做為它們二者之間的重要的橋梁,已經(jīng)在計(jì)算技術(shù)的多個(gè)方面得到了成功的應(yīng)用,在計(jì)算機(jī)系統(tǒng)中的性能優(yōu)化中發(fā)揮了重要的作用。但是Cache同時(shí)也占據(jù)了處理器的大部分功耗。而研究Cache的低功耗和高性能,對(duì)于計(jì)算機(jī)系統(tǒng),特別是嵌入式系統(tǒng)的優(yōu)化,都有著重要的意義。 Simplescalar模擬器和Wattch模擬器是基于計(jì)算機(jī)體系結(jié)構(gòu)一級(jí)的模擬器,Simplescalar模擬器實(shí)現(xiàn)了流水和亂序的功能,而Wattch模擬器在Simplescalar的基礎(chǔ)上實(shí)現(xiàn)了功耗計(jì)算和Cache的延遲計(jì)算。本文從高性能低功耗Cache研究的角度對(duì)這兩個(gè)模擬器的內(nèi)核代碼進(jìn)行了深入地分析。 傳統(tǒng)的組相聯(lián)Cache在訪問一個(gè)數(shù)據(jù)塊時(shí),要同時(shí)訪問一個(gè)組下面的所有路,這樣極大地增加了訪問的功耗。對(duì)于一個(gè)n路組相聯(lián)的Cache,就有n—1路的訪問是無謂的。本文基于已有的數(shù)據(jù)放大單元延遲Cache的模型,對(duì)其進(jìn)行了修改,加入了有效位的預(yù)判,提出了一種新的帶有效位預(yù)判的部分位比較數(shù)據(jù)放大單元延遲Cache(PTC-V Cache)。它能夠有效地減少無效位數(shù)據(jù)塊讀取的功耗。從而減少Cache的功耗,繼而降低整個(gè)計(jì)算機(jī)系統(tǒng)的功耗。 在Wattch模擬器上運(yùn)行了SPEC95測(cè)試程序進(jìn)行實(shí)驗(yàn),模擬實(shí)驗(yàn)結(jié)果表明當(dāng)制造工藝為0.13μm時(shí),PTC-V Cache相比與部分位比較Cache能夠平均減少12%的功耗,最多時(shí)能夠減少40%。對(duì)于傳統(tǒng)的組相聯(lián)Cache,PTC-V Cache能夠平均降低55%的功耗。而當(dāng)制造工藝為0.35μm時(shí),PTC-V Cache相比與部分位比較Cache能夠平均減少10%的功耗,最多時(shí)能夠減少32%。對(duì)于傳統(tǒng)的組相聯(lián)Cache,PTC-V Cache能夠平均降低28%的功耗。
【學(xué)位單位】:湖南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2007
【中圖分類】:TP332
【部分圖文】:
他的實(shí)驗(yàn)結(jié)果是功耗下降了58%,但性能也損失了21%。只能是一個(gè)勉強(qiáng)接受的結(jié)果。因此在Johnson.Kin的基礎(chǔ)上,很多人提出了改經(jīng)的方法。 WeiyuTang提出了基于預(yù)測(cè)的nlte:eaehe改進(jìn)方法[,2]。(如圖2.1所示)當(dāng)CPU要讀取一個(gè)指令時(shí),首先預(yù)測(cè)該指令是否會(huì)存在于 filterCache中。若預(yù)測(cè)結(jié)果為存在,那么CPU訪問 filterCache,若預(yù)測(cè)結(jié)果為不存在,CPU將繞過filterCache直接訪問 filterCache。如果預(yù)測(cè)的結(jié)果是正確的,就可以避免兩次訪問。 FilterCache的預(yù)測(cè)主要是基于程序中的循環(huán)語句,當(dāng)CPU執(zhí)行一個(gè)循環(huán)體時(shí),循環(huán)體內(nèi)的語句將會(huì)被多次調(diào)用。而它的具體實(shí)現(xiàn),在原有的Cache結(jié)構(gòu)上增加了三個(gè)硬件,一個(gè)Np表(next一 addresspredietiontable)
3.2.3.15im一outorder模擬器的結(jié)構(gòu)Sim一outorder模擬器是simplesealar中最為復(fù)雜的模擬器,我們以后的實(shí)驗(yàn)都是以它為平臺(tái)。它的硬件結(jié)構(gòu)如圖3.3。它包括一個(gè)流水化的CPU,兩級(jí)分離Cache結(jié)構(gòu),分離快表和主存。其中CPU帶有六個(gè)主要功能部件,也就是指令的執(zhí)行需要經(jīng)過六步,分別是Feteh(取指令),Dispateh(發(fā)配指令),seheduler& MemorySeheduler(存儲(chǔ)調(diào)度),Exe。&Mem(執(zhí)行和內(nèi)存)
總?cè)萘看笮?16KB,塊大小為 16Byte,替代算法為L(zhǎng)Ru算法,得到下面的實(shí)驗(yàn)結(jié)果,圖3.8為傳統(tǒng)組相聯(lián)C朗he與路預(yù)測(cè)Cache在運(yùn)行SPEC95測(cè)試程序時(shí)的功耗計(jì)算結(jié)果,圖3.9為二者平均延遲的結(jié)果。從實(shí)驗(yàn)結(jié)果可以看出,路預(yù)測(cè)Cache能夠有效的減少Cache的功耗,但是會(huì)一定程度地帶來性能的降低,這取決與預(yù)測(cè)的命中率。與文中【51所敘述的與傳統(tǒng)的組相聯(lián)Cache相比,路預(yù)測(cè)Cache的ED積(每次訪問的平均能量x每次訪問的平均延時(shí))可以減少60%一70%相吻合。.路預(yù)測(cè)Cache.傳統(tǒng)組相聯(lián)Cache圖3.9運(yùn)行SPEC95時(shí)Cache的功耗.路預(yù)測(cè)Cache.傳統(tǒng)組相聯(lián)Cache圖3.10運(yùn)行SPEC95時(shí)Caehe的平均延時(shí)3.6小結(jié)本章討論的simPlescalar和wattch模擬器是基于體系結(jié)構(gòu)一級(jí)的開源模擬器,它們的模擬精度很高,wattch模擬器特別適用于高性能低功耗體系結(jié)構(gòu),特別是高速緩存(Cache)的研究。本章首先介紹了simplescalar模擬器的架構(gòu),重點(diǎn)
【參考文獻(xiàn)】
本文編號(hào):2841039
【學(xué)位單位】:湖南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2007
【中圖分類】:TP332
【部分圖文】:
他的實(shí)驗(yàn)結(jié)果是功耗下降了58%,但性能也損失了21%。只能是一個(gè)勉強(qiáng)接受的結(jié)果。因此在Johnson.Kin的基礎(chǔ)上,很多人提出了改經(jīng)的方法。 WeiyuTang提出了基于預(yù)測(cè)的nlte:eaehe改進(jìn)方法[,2]。(如圖2.1所示)當(dāng)CPU要讀取一個(gè)指令時(shí),首先預(yù)測(cè)該指令是否會(huì)存在于 filterCache中。若預(yù)測(cè)結(jié)果為存在,那么CPU訪問 filterCache,若預(yù)測(cè)結(jié)果為不存在,CPU將繞過filterCache直接訪問 filterCache。如果預(yù)測(cè)的結(jié)果是正確的,就可以避免兩次訪問。 FilterCache的預(yù)測(cè)主要是基于程序中的循環(huán)語句,當(dāng)CPU執(zhí)行一個(gè)循環(huán)體時(shí),循環(huán)體內(nèi)的語句將會(huì)被多次調(diào)用。而它的具體實(shí)現(xiàn),在原有的Cache結(jié)構(gòu)上增加了三個(gè)硬件,一個(gè)Np表(next一 addresspredietiontable)
3.2.3.15im一outorder模擬器的結(jié)構(gòu)Sim一outorder模擬器是simplesealar中最為復(fù)雜的模擬器,我們以后的實(shí)驗(yàn)都是以它為平臺(tái)。它的硬件結(jié)構(gòu)如圖3.3。它包括一個(gè)流水化的CPU,兩級(jí)分離Cache結(jié)構(gòu),分離快表和主存。其中CPU帶有六個(gè)主要功能部件,也就是指令的執(zhí)行需要經(jīng)過六步,分別是Feteh(取指令),Dispateh(發(fā)配指令),seheduler& MemorySeheduler(存儲(chǔ)調(diào)度),Exe。&Mem(執(zhí)行和內(nèi)存)
總?cè)萘看笮?16KB,塊大小為 16Byte,替代算法為L(zhǎng)Ru算法,得到下面的實(shí)驗(yàn)結(jié)果,圖3.8為傳統(tǒng)組相聯(lián)C朗he與路預(yù)測(cè)Cache在運(yùn)行SPEC95測(cè)試程序時(shí)的功耗計(jì)算結(jié)果,圖3.9為二者平均延遲的結(jié)果。從實(shí)驗(yàn)結(jié)果可以看出,路預(yù)測(cè)Cache能夠有效的減少Cache的功耗,但是會(huì)一定程度地帶來性能的降低,這取決與預(yù)測(cè)的命中率。與文中【51所敘述的與傳統(tǒng)的組相聯(lián)Cache相比,路預(yù)測(cè)Cache的ED積(每次訪問的平均能量x每次訪問的平均延時(shí))可以減少60%一70%相吻合。.路預(yù)測(cè)Cache.傳統(tǒng)組相聯(lián)Cache圖3.9運(yùn)行SPEC95時(shí)Cache的功耗.路預(yù)測(cè)Cache.傳統(tǒng)組相聯(lián)Cache圖3.10運(yùn)行SPEC95時(shí)Caehe的平均延時(shí)3.6小結(jié)本章討論的simPlescalar和wattch模擬器是基于體系結(jié)構(gòu)一級(jí)的開源模擬器,它們的模擬精度很高,wattch模擬器特別適用于高性能低功耗體系結(jié)構(gòu),特別是高速緩存(Cache)的研究。本章首先介紹了simplescalar模擬器的架構(gòu),重點(diǎn)
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 鄭偉,姚慶棟,張明,劉鵬,張子男,周莉,李東曉;一種低功耗Cache設(shè)計(jì)技術(shù)的研究[J];電路與系統(tǒng)學(xué)報(bào);2004年05期
2 趙學(xué)梅,葉以正,李曉明,時(shí)銳;一種低功耗高性能的滑動(dòng)Cache方案[J];計(jì)算機(jī)研究與發(fā)展;2004年11期
3 張毅,汪東升;一種嵌入式處理器的動(dòng)態(tài)可重構(gòu)Cache設(shè)計(jì)[J];計(jì)算機(jī)工程與應(yīng)用;2004年08期
4 陳章龍;嵌入式處理器的Cache結(jié)構(gòu)研究[J];小型微型計(jì)算機(jī)系統(tǒng);2004年07期
本文編號(hào):2841039
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2841039.html
最近更新
教材專著