多核處理器中最后一級(jí)共享高速緩存管理策略研究
發(fā)布時(shí)間:2021-01-28 08:17
隨著高性能處理器技術(shù)的發(fā)展,存儲(chǔ)墻問(wèn)題為影響處理器系統(tǒng)性能的主要因素之一。處理器速度通常會(huì)比存儲(chǔ)器的訪問(wèn)速度快兩個(gè)數(shù)量級(jí),當(dāng)代多核處理器廣泛采用基于大容量最后一級(jí)共享高速緩存的結(jié)構(gòu)來(lái)縮小這一差距。但是適用于小容量私有高速緩存的傳統(tǒng)管理策略并不適用于管理大容量最后一級(jí)共享高速緩存,它可能引起高速緩存缺失數(shù)的增加,觸發(fā)大量代價(jià)昂貴的片外存儲(chǔ)器訪問(wèn)。其原因主要有以下兩點(diǎn):首先,小容量私有高速緩存主要強(qiáng)調(diào)訪問(wèn)速度,而最后一級(jí)高速緩存則強(qiáng)調(diào)盡可能多地將數(shù)據(jù)保留在片內(nèi),它更多地受制于片內(nèi)可用晶體管數(shù)量而對(duì)訪問(wèn)速度的要求不高。其次,這兩種不同類型的高速緩存可見(jiàn)的數(shù)據(jù)訪問(wèn)流局部性差別非常大。因此,一種能夠有效管理大容量最后一級(jí)共享高速緩存的管理策略對(duì)于當(dāng)今高性能微處理器而言,顯得非常重要。本文重點(diǎn)分析了多核平臺(tái)下大容量共享最后一級(jí)高速緩存管理過(guò)程中存在的一些熱點(diǎn)研究問(wèn)題,并提出相應(yīng)代價(jià)較小但是收效較大的解決方案以提高系統(tǒng)性能。本文的主要研究?jī)?nèi)容與貢獻(xiàn)包括:1.消除低重用塊和預(yù)測(cè)訪問(wèn)間隔策略研究。傳統(tǒng)的LRU策略嚴(yán)重制約了大容量共享最后一級(jí)高速緩存的性能,解決這一問(wèn)題的方法之一就是優(yōu)先淘汰低重用數(shù)據(jù)塊以...
【文章來(lái)源】:中國(guó)科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:66 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
算法演示
用負(fù)載介于這兩種負(fù)載之間,它所能達(dá)到的性能和分給它的資源成同比增長(zhǎng)的趨勢(shì)。圖4.1給出了SPEC2000和SPEC2006中某些測(cè)試用例在不同Cache分配方案下所達(dá)到的共享最后一級(jí)的缺失率。其中,缺失率是在一個(gè)具有 1MB 16-路組相聯(lián)二級(jí) Cache 4 核仿真平臺(tái)上獲取的。圖 4.1 高速緩存缺失率隨負(fù)載所分得的 Cache 組數(shù)的變化從圖 4.1 中,我們可以看到高效用負(fù)載、低效用負(fù)載和飽和效用負(fù)載的不同的方寸行為。從途中可以看出 applu 是一個(gè)低效用負(fù)載,從將 Cache 資源分
的周期精確多核仿真器 Multi2sim 來(lái)一個(gè) 4 核的多核處理器,具有 1MB、器核是 4 發(fā)射、亂序執(zhí)行的,采用 x8數(shù)據(jù) Cache。實(shí)驗(yàn)中模擬器的相關(guān)配表 4.1 模擬器基本配置信息指 標(biāo)4 發(fā)射, 亂序執(zhí)行, 混合分支預(yù)測(cè)器,1024 項(xiàng)重排序隊(duì)列. 一級(jí)指令緩存和一級(jí)數(shù)據(jù)緩存: 32訪問(wèn)延遲,為每個(gè)核所私有.1MB, 64B 數(shù)據(jù)塊, 16 路, 15 節(jié)拍訪問(wèn)延遲. 400 拍訪問(wèn)延遲
本文編號(hào):3004653
【文章來(lái)源】:中國(guó)科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:66 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
算法演示
用負(fù)載介于這兩種負(fù)載之間,它所能達(dá)到的性能和分給它的資源成同比增長(zhǎng)的趨勢(shì)。圖4.1給出了SPEC2000和SPEC2006中某些測(cè)試用例在不同Cache分配方案下所達(dá)到的共享最后一級(jí)的缺失率。其中,缺失率是在一個(gè)具有 1MB 16-路組相聯(lián)二級(jí) Cache 4 核仿真平臺(tái)上獲取的。圖 4.1 高速緩存缺失率隨負(fù)載所分得的 Cache 組數(shù)的變化從圖 4.1 中,我們可以看到高效用負(fù)載、低效用負(fù)載和飽和效用負(fù)載的不同的方寸行為。從途中可以看出 applu 是一個(gè)低效用負(fù)載,從將 Cache 資源分
的周期精確多核仿真器 Multi2sim 來(lái)一個(gè) 4 核的多核處理器,具有 1MB、器核是 4 發(fā)射、亂序執(zhí)行的,采用 x8數(shù)據(jù) Cache。實(shí)驗(yàn)中模擬器的相關(guān)配表 4.1 模擬器基本配置信息指 標(biāo)4 發(fā)射, 亂序執(zhí)行, 混合分支預(yù)測(cè)器,1024 項(xiàng)重排序隊(duì)列. 一級(jí)指令緩存和一級(jí)數(shù)據(jù)緩存: 32訪問(wèn)延遲,為每個(gè)核所私有.1MB, 64B 數(shù)據(jù)塊, 16 路, 15 節(jié)拍訪問(wèn)延遲. 400 拍訪問(wèn)延遲
本文編號(hào):3004653
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3004653.html
最近更新
教材專著