面向GPGPUs的非易失混合存儲架構(gòu)關(guān)鍵技術(shù)研究
發(fā)布時間:2020-10-12 21:37
隨著物聯(lián)網(wǎng)技術(shù)和云計算技術(shù)的迅猛發(fā)展,信息時代正向大數(shù)據(jù)時代飛速轉(zhuǎn)變,由于高性能計算和大數(shù)據(jù)分析對數(shù)據(jù)的存儲與處理的要求越來越高,許多研究開始應(yīng)用圖形處理器(Graphics Processing Unit,GPU)進行加速,而大多數(shù)的高能效超級計算主要依賴于通用圖形處理器(General Purpose Graphics Processing Units,GPGPUs)來擴展并行度和浮點吞吐量。雖然傳統(tǒng)GPU的并行執(zhí)行模型可以有效地隱藏訪問片外存儲的延遲,但是許多GPGPUs應(yīng)用中的訪存經(jīng)常具有數(shù)據(jù)依賴性,與傳統(tǒng)的圖形應(yīng)用相比,它們具有更少的空間局部性,因此,線程級并行不能總是完全的隱藏內(nèi)存訪問延遲。此外,訪存密集型的應(yīng)用在GPGPUs中變得越來越流行,給GPGPUs的存儲系統(tǒng)帶來了巨大的挑戰(zhàn)。在過去幾十年中,雖然在降低處理器能耗方面取得了很大的成就,但是隨著大數(shù)據(jù)的不斷發(fā)展,數(shù)據(jù)量的持續(xù)增長,存儲能耗所占的比重不斷增加,整個存儲系統(tǒng)能耗已經(jīng)達到總能耗的40%,而在數(shù)據(jù)密集型應(yīng)用中,存儲系統(tǒng)的能耗可以占到系統(tǒng)總能耗的55%。這是因為靜態(tài)隨機存儲器(Static Random Access Memory,SRAM)具有較高的工作功耗,而動態(tài)隨機存儲器(Dynamic Random Access Memory,DRAM)有著不可回避的刷新功耗。與此同時,傳統(tǒng)存儲系統(tǒng)存在著集成工藝的瓶頸,空間擴展性也受到了一定的限制。近年來出現(xiàn)的新型非易失存儲器(Non-volatile Memory,NVM),為傳統(tǒng)存儲系統(tǒng)的變革和發(fā)展提供了機遇。非易失存儲器因其具有非易失、高集成度、低功耗以及良好的可擴展性等優(yōu)勢,在提升系統(tǒng)性能以及節(jié)約存儲能耗方面表現(xiàn)突出。由于非易失存儲材料的差異,各種不同的非易失存儲器可以分別用在傳統(tǒng)存儲體系架構(gòu)的各層次中,以此來推動不同存儲層級的優(yōu)化和變革。然而,與傳統(tǒng)易失性存儲器相比,非易失存儲器具有寫延遲較長、讀寫性能不均衡以及寫壽命有限等缺陷。因此,由傳統(tǒng)易失性存儲器和非易失存儲器共同構(gòu)建的混合存儲架構(gòu)成為解決該問題的有效途徑。通過設(shè)計相應(yīng)的優(yōu)化策略,這種混合架構(gòu)可以充分利用非易失存儲器和易失性存儲器的優(yōu)勢,弱化和回避二者的劣勢。本文的研究就是圍繞基于非易失存儲器的混合存儲架構(gòu)在GPGPUs中的設(shè)計與優(yōu)化策略展開,目的是提高系統(tǒng)性能,降低存儲系統(tǒng)能耗,延長存儲系統(tǒng)的壽命。第2章提出了一種面向GPGPUs并且由DRAM和NVM組成的統(tǒng)一編址的混合內(nèi)存架構(gòu)。這種混合架構(gòu)具有以下特點:DRAM部分的讀寫延遲低、讀寫速度快,但是靜態(tài)功耗較高和具有不可避免的刷新功耗;NVM部分的靜態(tài)功耗極低、空間擴展性較好以及讀操作延遲近似于DRAM,但是寫操作延遲及功耗較高和具有不可回避的寫耐久性問題。為了減少NVM較高的寫入延遲對系統(tǒng)性能的影響,本文在GPU架構(gòu)的緩存層提出了一種混合內(nèi)存感知的共享末級緩存(Last-level Cache,LLC)管理策略。通過利用混合內(nèi)存不同介質(zhì)的非對稱讀寫延遲特性,以及GPGPUs的合并內(nèi)存訪問(memory coalescing)特點,將cache行劃分成不同的類型;然后結(jié)合寫回NVM的操作對系統(tǒng)性能影響較大的發(fā)現(xiàn),以及利用被具有不同有效地址的訪存請求訪問的cache行會有不同的概率被再次訪問的現(xiàn)象,一個固定的優(yōu)先級分配給每種緩存行,包括緩存缺失時的插入優(yōu)先級和緩存命中時的提升優(yōu)先級,提出了一種混合內(nèi)存感知的靜態(tài)cache管理策略。然而,一個應(yīng)用程序在不同的執(zhí)行狀態(tài)可能有截然不同的訪存行為(例如進入一個不同的循環(huán)),以及混合內(nèi)存系統(tǒng)中LLC的不同緩存行具有不同的缺失代價,為了適應(yīng)這種變化,需要動態(tài)地改變每種cache行的優(yōu)先級,因此設(shè)計了動態(tài)優(yōu)先級計數(shù)器和有效地址標記位,提出了一種混合內(nèi)存感知的動態(tài)cache管理策略,包括基于memory coalescing和緩存旁路(cache bypassing)技術(shù)的動態(tài)cache插入策略,以及基于cache行類型的動態(tài)cache提升策略。實驗結(jié)果顯示,在混合內(nèi)存系統(tǒng)的情況下,與傳統(tǒng)的LRU(Least Recently Used)替換策略相比,混合內(nèi)存感知的共享LLC管理策略平均提高12.78%的系統(tǒng)性能,最多可以達到27.76%。為了減少NVM高寫入功耗對存儲能耗的影響,本文在GPU架構(gòu)內(nèi)存層的內(nèi)存控制器中,設(shè)計了一種基于混合內(nèi)存的訪存延遲分歧(memory latency divergence)感知的內(nèi)存調(diào)度策略,F(xiàn)代GPU的內(nèi)存控制器為了獲得較高的帶寬利用率會重新排序不同線程組(32個線程組成一個warp)的訪存請求,這種亂序的服務(wù)請求調(diào)度經(jīng)常導(dǎo)致一個warp的請求被另一個warp的訪存請求搶占,從而導(dǎo)致memory latency divergence的發(fā)生,降低了系統(tǒng)性能;而混合內(nèi)存架構(gòu)給GPU的內(nèi)存調(diào)度策略帶來了一定的影響,例如具有更多NVM請求的warp可能會導(dǎo)致更長時間的warp阻塞。因此,通過根據(jù)不同的warp請求,將訪問請求分成不同的warp組,然后根據(jù)請求訪問的內(nèi)存類型,分配warp組不同的調(diào)度優(yōu)先級;并重新設(shè)計了 GPU內(nèi)存控制器,包括對不同warp組感知的調(diào)度隊列及事務(wù)調(diào)度器的調(diào)度策略。為了減少同時執(zhí)行的線程組中memory latency divergence行為對系統(tǒng)性能的影響,以及混合內(nèi)存對于GPU內(nèi)存調(diào)度的影響,設(shè)計一種針對GPGPUs的混合內(nèi)存以及warp感知的內(nèi)存調(diào)度策略是必要的。該策略基于訪存的cache行為重新安排訪存請求在內(nèi)存控制器中的訪問順序,以盡可能快地響應(yīng)同一個warp的所有訪存請求。實驗表明,對于訪存密集型的應(yīng)用,基于混合內(nèi)存的訪存延遲分歧感知的內(nèi)存調(diào)度機制提高了 15.69%的系統(tǒng)性能,同時降低了 21.27%的內(nèi)存系統(tǒng)能耗。以上針對混合內(nèi)存設(shè)計的緩存管理策略和內(nèi)存調(diào)度策略,提高了系統(tǒng)的性能并降低了系統(tǒng)的能耗,然而,非易失存儲器的寫耐受問題限制了其應(yīng)用。為了延長NVM的使用壽命,本文在內(nèi)存控制器中設(shè)計了一種基于相變存儲器(Phase.Change Memory,PCM)的內(nèi)存損耗均衡策略。重新設(shè)計了針對PCM的內(nèi)存控制器,通過分析應(yīng)用程序的訪問模式來獲取數(shù)據(jù)的寫次數(shù),從而將PCM的空間劃分成熱區(qū)和冷區(qū),在熱區(qū)內(nèi)部劃分出一定的子區(qū)域,設(shè)計了觸發(fā)熱區(qū)移動的閾值以及子區(qū)域劃分的方法;在PCM整個地址空間中周期性的移動熱區(qū),當一個熱區(qū)移動時,其中劃分的幾個小的區(qū)域同時循環(huán)移動。通過實驗對比顯示,與Start-Gap策略相比,基于相變存儲器的損耗均衡算法降低了 57.81%的最大位翻轉(zhuǎn)次數(shù),同時將寫操作均勻的分布到整個PCM的地址空間上,平均能延長PCM的壽命達到4-5倍。
【學(xué)位單位】:山東大學(xué)
【學(xué)位級別】:博士
【學(xué)位年份】:2018
【中圖分類】:TP332
【部分圖文】:
能導(dǎo)致系統(tǒng)性能及可靠性方面的下降。因此,采用混合存儲架構(gòu)是未來高能效計??算機系統(tǒng)設(shè)計的發(fā)展趨勢。??如圖1-1所示,在多級存儲體系中結(jié)合NVM與現(xiàn)有的SRAM/DRAM的混合??緩存及內(nèi)存架構(gòu)成為現(xiàn)階段研究的熱點問題。上述混合存儲架構(gòu)大多利用存儲控??制器以及系統(tǒng)軟件(操作系統(tǒng)及編譯器)的管理策略來減少應(yīng)用程序?qū)Γ危郑偷??寫操作,從而避免了NVM較高的寫操作延遲對系統(tǒng)性能的影響,并延長了其使??用壽命;同時,充分利用NVM高集成度及低靜態(tài)功耗的優(yōu)勢,提升了整個系統(tǒng)??的能效比。研宄表明,基于DRAM的內(nèi)存約占整個系統(tǒng)能耗的30%-40%左右,??而采用PCM與DRAM混合的內(nèi)存架構(gòu)在犧牲2%-18%系統(tǒng)性能的情況下,可以??減少高達53%的內(nèi)存能耗[51],而在采用STT-RAM與SRAM的混合片上高速緩存??架構(gòu)下,則可以減少37.1%的片上存儲能耗[43]。目前基于非易失性存儲器的混合??存儲架構(gòu)方面的研宄主要可以分為兩大類:針對通用系統(tǒng)的研究和針對嵌入式系??統(tǒng)的研究。??1.3.1通用系統(tǒng)的混合存儲架構(gòu)????CPU?f?CPU?:?(?CPU??l—.?I?i_??.■,??Cache?Cache?Cache??卷'?.為'..:?1---?''T-?I?匕.朵::令??_?_^?—??? ̄—?1?一個一????\/?_.????y
?(Code?XIP)??圖1-3基于PCM的嵌入式存儲架構(gòu)[67]??在嵌入式系統(tǒng)中,一些國內(nèi)外研究引入NVM構(gòu)建新型存儲架構(gòu)〖66]。如圖1-3??(a)所示,這是一種典型的基于NOR?(或非)器件的嵌入式系統(tǒng)架構(gòu),用NOR??flash來存儲片上可執(zhí)行代碼(Code?XIP),?DRAM作為主存,NAND?flash作為外??存用來存儲用戶數(shù)據(jù)。由于PCM與NOR?flash相比具有更好的讀寫性能,同樣是??位翻轉(zhuǎn)的,它可以被用來作為NOR?flash的替代品。如圖1-3?(b)所示,文獻[67]??提出PCM取代NOR?flash用來存儲代碼和數(shù)據(jù)。文獻[68]提出了?PCM轉(zhuǎn)換層(PTL)??來有效的管理PCM單元和一種有效的損耗均衡算法;趫D1-3?(b)的架構(gòu),??一些研宄己經(jīng)提出利用額外的PCM空間來管理NAND?flash。文獻[69]提出一種??基于PCM嵌入式系統(tǒng)中寫感知的NAND?flash管理策略(PCM-FTL)。阻止存儲??在PCM中的地址映射表頻繁的發(fā)生位反轉(zhuǎn),當發(fā)生地址映射表更新時,最小化??PCM單元的位反轉(zhuǎn)數(shù)量。然而,大部分的研究只關(guān)注NAND?flash的管理或者減??少NAND?flash中存儲映射表區(qū)域的寫操作
儲器本身的寫耐受問題,充分利用了不同存儲介質(zhì)的優(yōu)勢以及GPU的特征(如??memory?coalescing?和?memory?latency?divergence),使混合存儲架構(gòu)在?GPGPUs?中??獲得更高的系統(tǒng)性能、更低的存儲能耗以及更長的使用壽命。圖1-4展示了研究??結(jié)構(gòu)和主要研究內(nèi)容。??,「―......—測―—?技術(shù)創(chuàng)新點???i??I^??f?^?^liiteitonnectionNetwork??^t-leve,?Cache?"?^?EM??二二二二,?S8BB0HB'?1?^1??內(nèi)存層峰[涵藤涵願纖-ws^??圖1-4研究框架圖??如圖1-4所示,研究框架是面向GPGPUs的非易失存儲架構(gòu),以提高系統(tǒng)性??能、降低存儲能耗以及延長NVM壽命為目標,分別從GPU架構(gòu)的緩存層和內(nèi)存??層兩方面對混合內(nèi)存架構(gòu)存在的性能和能耗等問題進行了研究和優(yōu)化,具體的研??究內(nèi)容以及研究路線如圖1-5所示。??12??
【參考文獻】
本文編號:2838308
【學(xué)位單位】:山東大學(xué)
【學(xué)位級別】:博士
【學(xué)位年份】:2018
【中圖分類】:TP332
【部分圖文】:
能導(dǎo)致系統(tǒng)性能及可靠性方面的下降。因此,采用混合存儲架構(gòu)是未來高能效計??算機系統(tǒng)設(shè)計的發(fā)展趨勢。??如圖1-1所示,在多級存儲體系中結(jié)合NVM與現(xiàn)有的SRAM/DRAM的混合??緩存及內(nèi)存架構(gòu)成為現(xiàn)階段研究的熱點問題。上述混合存儲架構(gòu)大多利用存儲控??制器以及系統(tǒng)軟件(操作系統(tǒng)及編譯器)的管理策略來減少應(yīng)用程序?qū)Γ危郑偷??寫操作,從而避免了NVM較高的寫操作延遲對系統(tǒng)性能的影響,并延長了其使??用壽命;同時,充分利用NVM高集成度及低靜態(tài)功耗的優(yōu)勢,提升了整個系統(tǒng)??的能效比。研宄表明,基于DRAM的內(nèi)存約占整個系統(tǒng)能耗的30%-40%左右,??而采用PCM與DRAM混合的內(nèi)存架構(gòu)在犧牲2%-18%系統(tǒng)性能的情況下,可以??減少高達53%的內(nèi)存能耗[51],而在采用STT-RAM與SRAM的混合片上高速緩存??架構(gòu)下,則可以減少37.1%的片上存儲能耗[43]。目前基于非易失性存儲器的混合??存儲架構(gòu)方面的研宄主要可以分為兩大類:針對通用系統(tǒng)的研究和針對嵌入式系??統(tǒng)的研究。??1.3.1通用系統(tǒng)的混合存儲架構(gòu)????CPU?f?CPU?:?(?CPU??l—.?I?i_??.■,??Cache?Cache?Cache??卷'?.為'..:?1---?''T-?I?匕.朵::令??_?_^?—??? ̄—?1?一個一????\/?_.????y
?(Code?XIP)??圖1-3基于PCM的嵌入式存儲架構(gòu)[67]??在嵌入式系統(tǒng)中,一些國內(nèi)外研究引入NVM構(gòu)建新型存儲架構(gòu)〖66]。如圖1-3??(a)所示,這是一種典型的基于NOR?(或非)器件的嵌入式系統(tǒng)架構(gòu),用NOR??flash來存儲片上可執(zhí)行代碼(Code?XIP),?DRAM作為主存,NAND?flash作為外??存用來存儲用戶數(shù)據(jù)。由于PCM與NOR?flash相比具有更好的讀寫性能,同樣是??位翻轉(zhuǎn)的,它可以被用來作為NOR?flash的替代品。如圖1-3?(b)所示,文獻[67]??提出PCM取代NOR?flash用來存儲代碼和數(shù)據(jù)。文獻[68]提出了?PCM轉(zhuǎn)換層(PTL)??來有效的管理PCM單元和一種有效的損耗均衡算法;趫D1-3?(b)的架構(gòu),??一些研宄己經(jīng)提出利用額外的PCM空間來管理NAND?flash。文獻[69]提出一種??基于PCM嵌入式系統(tǒng)中寫感知的NAND?flash管理策略(PCM-FTL)。阻止存儲??在PCM中的地址映射表頻繁的發(fā)生位反轉(zhuǎn),當發(fā)生地址映射表更新時,最小化??PCM單元的位反轉(zhuǎn)數(shù)量。然而,大部分的研究只關(guān)注NAND?flash的管理或者減??少NAND?flash中存儲映射表區(qū)域的寫操作
儲器本身的寫耐受問題,充分利用了不同存儲介質(zhì)的優(yōu)勢以及GPU的特征(如??memory?coalescing?和?memory?latency?divergence),使混合存儲架構(gòu)在?GPGPUs?中??獲得更高的系統(tǒng)性能、更低的存儲能耗以及更長的使用壽命。圖1-4展示了研究??結(jié)構(gòu)和主要研究內(nèi)容。??,「―......—測―—?技術(shù)創(chuàng)新點???i??I^??f?^?^liiteitonnectionNetwork??^t-leve,?Cache?"?^?EM??二二二二,?S8BB0HB'?1?^1??內(nèi)存層峰[涵藤涵願纖-ws^??圖1-4研究框架圖??如圖1-4所示,研究框架是面向GPGPUs的非易失存儲架構(gòu),以提高系統(tǒng)性??能、降低存儲能耗以及延長NVM壽命為目標,分別從GPU架構(gòu)的緩存層和內(nèi)存??層兩方面對混合內(nèi)存架構(gòu)存在的性能和能耗等問題進行了研究和優(yōu)化,具體的研??究內(nèi)容以及研究路線如圖1-5所示。??12??
【參考文獻】
相關(guān)期刊論文 前3條
1 張鴻斌;范捷;舒繼武;胡慶達;;基于相變存儲器的存儲系統(tǒng)與技術(shù)綜述[J];計算機研究與發(fā)展;2014年08期
2 沈志榮;薛巍;舒繼武;;新型非易失存儲研究[J];計算機研究與發(fā)展;2014年02期
3 陸游游;舒繼武;;閃存存儲系統(tǒng)綜述[J];計算機研究與發(fā)展;2013年01期
本文編號:2838308
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2838308.html
最近更新
教材專著