面向GPGPUs的非易失混合存儲架構(gòu)關(guān)鍵技術(shù)研究

發(fā)布時間：2020-10-12 21:37

　　隨著物聯(lián)網(wǎng)技術(shù)和云計算技術(shù)的迅猛發(fā)展,信息時代正向大數(shù)據(jù)時代飛速轉(zhuǎn)變,由于高性能計算和大數(shù)據(jù)分析對數(shù)據(jù)的存儲與處理的要求越來越高,許多研究開始應(yīng)用圖形處理器(Graphics Processing Unit,GPU)進行加速,而大多數(shù)的高能效超級計算主要依賴于通用圖形處理器(General Purpose Graphics Processing Units,GPGPUs)來擴展并行度和浮點吞吐量。雖然傳統(tǒng)GPU的并行執(zhí)行模型可以有效地隱藏訪問片外存儲的延遲,但是許多GPGPUs應(yīng)用中的訪存經(jīng)常具有數(shù)據(jù)依賴性,與傳統(tǒng)的圖形應(yīng)用相比,它們具有更少的空間局部性,因此,線程級并行不能總是完全的隱藏內(nèi)存訪問延遲。此外,訪存密集型的應(yīng)用在GPGPUs中變得越來越流行,給GPGPUs的存儲系統(tǒng)帶來了巨大的挑戰(zhàn)。在過去幾十年中,雖然在降低處理器能耗方面取得了很大的成就,但是隨著大數(shù)據(jù)的不斷發(fā)展,數(shù)據(jù)量的持續(xù)增長,存儲能耗所占的比重不斷增加,整個存儲系統(tǒng)能耗已經(jīng)達到總能耗的40%,而在數(shù)據(jù)密集型應(yīng)用中,存儲系統(tǒng)的能耗可以占到系統(tǒng)總能耗的55%。這是因為靜態(tài)隨機存儲器(Static Random Access Memory,SRAM)具有較高的工作功耗,而動態(tài)隨機存儲器(Dynamic Random Access Memory,DRAM)有著不可回避的刷新功耗。與此同時,傳統(tǒng)存儲系統(tǒng)存在著集成工藝的瓶頸,空間擴展性也受到了一定的限制。近年來出現(xiàn)的新型非易失存儲器(Non-volatile Memory,NVM),為傳統(tǒng)存儲系統(tǒng)的變革和發(fā)展提供了機遇。非易失存儲器因其具有非易失、高集成度、低功耗以及良好的可擴展性等優(yōu)勢,在提升系統(tǒng)性能以及節(jié)約存儲能耗方面表現(xiàn)突出。由于非易失存儲材料的差異,各種不同的非易失存儲器可以分別用在傳統(tǒng)存儲體系架構(gòu)的各層次中,以此來推動不同存儲層級的優(yōu)化和變革。然而,與傳統(tǒng)易失性存儲器相比,非易失存儲器具有寫延遲較長、讀寫性能不均衡以及寫壽命有限等缺陷。因此,由傳統(tǒng)易失性存儲器和非易失存儲器共同構(gòu)建的混合存儲架構(gòu)成為解決該問題的有效途徑。通過設(shè)計相應(yīng)的優(yōu)化策略,這種混合架構(gòu)可以充分利用非易失存儲器和易失性存儲器的優(yōu)勢,弱化和回避二者的劣勢。本文的研究就是圍繞基于非易失存儲器的混合存儲架構(gòu)在GPGPUs中的設(shè)計與優(yōu)化策略展開,目的是提高系統(tǒng)性能,降低存儲系統(tǒng)能耗,延長存儲系統(tǒng)的壽命。第2章提出了一種面向GPGPUs并且由DRAM和NVM組成的統(tǒng)一編址的混合內(nèi)存架構(gòu)。這種混合架構(gòu)具有以下特點:DRAM部分的讀寫延遲低、讀寫速度快,但是靜態(tài)功耗較高和具有不可避免的刷新功耗;NVM部分的靜態(tài)功耗極低、空間擴展性較好以及讀操作延遲近似于DRAM,但是寫操作延遲及功耗較高和具有不可回避的寫耐久性問題。為了減少NVM較高的寫入延遲對系統(tǒng)性能的影響,本文在GPU架構(gòu)的緩存層提出了一種混合內(nèi)存感知的共享末級緩存(Last-level Cache,LLC)管理策略。通過利用混合內(nèi)存不同介質(zhì)的非對稱讀寫延遲特性,以及GPGPUs的合并內(nèi)存訪問(memory coalescing)特點,將cache行劃分成不同的類型;然后結(jié)合寫回NVM的操作對系統(tǒng)性能影響較大的發(fā)現(xiàn),以及利用被具有不同有效地址的訪存請求訪問的cache行會有不同的概率被再次訪問的現(xiàn)象,一個固定的優(yōu)先級分配給每種緩存行,包括緩存缺失時的插入優(yōu)先級和緩存命中時的提升優(yōu)先級,提出了一種混合內(nèi)存感知的靜態(tài)cache管理策略。然而,一個應(yīng)用程序在不同的執(zhí)行狀態(tài)可能有截然不同的訪存行為(例如進入一個不同的循環(huán)),以及混合內(nèi)存系統(tǒng)中LLC的不同緩存行具有不同的缺失代價,為了適應(yīng)這種變化,需要動態(tài)地改變每種cache行的優(yōu)先級,因此設(shè)計了動態(tài)優(yōu)先級計數(shù)器和有效地址標記位,提出了一種混合內(nèi)存感知的動態(tài)cache管理策略,包括基于memory coalescing和緩存旁路(cache bypassing)技術(shù)的動態(tài)cache插入策略,以及基于cache行類型的動態(tài)cache提升策略。實驗結(jié)果顯示,在混合內(nèi)存系統(tǒng)的情況下,與傳統(tǒng)的LRU(Least Recently Used)替換策略相比,混合內(nèi)存感知的共享LLC管理策略平均提高12.78%的系統(tǒng)性能,最多可以達到27.76%。為了減少NVM高寫入功耗對存儲能耗的影響,本文在GPU架構(gòu)內(nèi)存層的內(nèi)存控制器中,設(shè)計了一種基于混合內(nèi)存的訪存延遲分歧(memory latency divergence)感知的內(nèi)存調(diào)度策略�，F(xiàn)代GPU的內(nèi)存控制器為了獲得較高的帶寬利用率會重新排序不同線程組(32個線程組成一個warp)的訪存請求,這種亂序的服務(wù)請求調(diào)度經(jīng)常導(dǎo)致一個warp的請求被另一個warp的訪存請求搶占,從而導(dǎo)致memory latency divergence的發(fā)生,降低了系統(tǒng)性能;而混合內(nèi)存架構(gòu)給GPU的內(nèi)存調(diào)度策略帶來了一定的影響,例如具有更多NVM請求的warp可能會導(dǎo)致更長時間的warp阻塞。因此,通過根據(jù)不同的warp請求,將訪問請求分成不同的warp組,然后根據(jù)請求訪問的內(nèi)存類型,分配warp組不同的調(diào)度優(yōu)先級;并重新設(shè)計了 GPU內(nèi)存控制器,包括對不同warp組感知的調(diào)度隊列及事務(wù)調(diào)度器的調(diào)度策略。為了減少同時執(zhí)行的線程組中memory latency divergence行為對系統(tǒng)性能的影響,以及混合內(nèi)存對于GPU內(nèi)存調(diào)度的影響,設(shè)計一種針對GPGPUs的混合內(nèi)存以及warp感知的內(nèi)存調(diào)度策略是必要的。該策略基于訪存的cache行為重新安排訪存請求在內(nèi)存控制器中的訪問順序,以盡可能快地響應(yīng)同一個warp的所有訪存請求。實驗表明,對于訪存密集型的應(yīng)用,基于混合內(nèi)存的訪存延遲分歧感知的內(nèi)存調(diào)度機制提高了 15.69%的系統(tǒng)性能,同時降低了 21.27%的內(nèi)存系統(tǒng)能耗。以上針對混合內(nèi)存設(shè)計的緩存管理策略和內(nèi)存調(diào)度策略,提高了系統(tǒng)的性能并降低了系統(tǒng)的能耗,然而,非易失存儲器的寫耐受問題限制了其應(yīng)用。為了延長NVM的使用壽命,本文在內(nèi)存控制器中設(shè)計了一種基于相變存儲器(Phase.Change Memory,PCM)的內(nèi)存損耗均衡策略。重新設(shè)計了針對PCM的內(nèi)存控制器,通過分析應(yīng)用程序的訪問模式來獲取數(shù)據(jù)的寫次數(shù),從而將PCM的空間劃分成熱區(qū)和冷區(qū),在熱區(qū)內(nèi)部劃分出一定的子區(qū)域,設(shè)計了觸發(fā)熱區(qū)移動的閾值以及子區(qū)域劃分的方法;在PCM整個地址空間中周期性的移動熱區(qū),當一個熱區(qū)移動時,其中劃分的幾個小的區(qū)域同時循環(huán)移動。通過實驗對比顯示,與Start-Gap策略相比,基于相變存儲器的損耗均衡算法降低了 57.81%的最大位翻轉(zhuǎn)次數(shù),同時將寫操作均勻的分布到整個PCM的地址空間上,平均能延長PCM的壽命達到4-5倍。
【學(xué)位單位】：山東大學(xué)
【學(xué)位級別】：博士
【學(xué)位年份】：2018
【中圖分類】：TP332
【部分圖文】：

通用系統(tǒng),架構(gòu),種內(nèi),內(nèi)存

能導(dǎo)致系統(tǒng)性能及可靠性方面的下降。因此，采用混合存儲架構(gòu)是未來高能效計??算機系統(tǒng)設(shè)計的發(fā)展趨勢。??如圖１－１所示，在多級存儲體系中結(jié)合ＮＶＭ與現(xiàn)有的ＳＲＡＭ／ＤＲＡＭ的混合??緩存及內(nèi)存架構(gòu)成為現(xiàn)階段研究的熱點問題。上述混合存儲架構(gòu)大多利用存儲控??制器以及系統(tǒng)軟件（操作系統(tǒng)及編譯器）的管理策略來減少應(yīng)用程序?qū)Γ危郑偷??寫操作，從而避免了ＮＶＭ較高的寫操作延遲對系統(tǒng)性能的影響，并延長了其使??用壽命；同時，充分利用ＮＶＭ高集成度及低靜態(tài)功耗的優(yōu)勢，提升了整個系統(tǒng)??的能效比。研宄表明，基于ＤＲＡＭ的內(nèi)存約占整個系統(tǒng)能耗的３０％－４０％左右，??而采用ＰＣＭ與ＤＲＡＭ混合的內(nèi)存架構(gòu)在犧牲２％－１８％系統(tǒng)性能的情況下，可以??減少高達５３％的內(nèi)存能耗［５１］，而在采用ＳＴＴ－ＲＡＭ與ＳＲＡＭ的混合片上高速緩存??架構(gòu)下，則可以減少３７．１％的片上存儲能耗［４３］。目前基于非易失性存儲器的混合??存儲架構(gòu)方面的研宄主要可以分為兩大類：針對通用系統(tǒng)的研究和針對嵌入式系??統(tǒng)的研究。??１．３．１通用系統(tǒng)的混合存儲架構(gòu)??？?ＣＰＵ?ｆ?ＣＰＵ?：?（?ＣＰＵ??ｌ—．?Ｉ?ｉ＿??．■，??Ｃａｃｈｅ?Ｃａｃｈｅ?Ｃａｃｈｅ??卷＇？．為＇．．：?１－－－?＇＇Ｔ－?Ｉ?匕．朵：：令??＿?＿＾?—???￣—?１?一個一????＼／?＿．????ｙ

架構(gòu)圖,嵌入式,架構(gòu)

?（Ｃｏｄｅ?ＸＩＰ）??圖１－３基于ＰＣＭ的嵌入式存儲架構(gòu)［６７］??在嵌入式系統(tǒng)中，一些國內(nèi)外研究引入ＮＶＭ構(gòu)建新型存儲架構(gòu)〖６６］。如圖１－３??（ａ）所示，這是一種典型的基于ＮＯＲ?（或非）器件的嵌入式系統(tǒng)架構(gòu)，用ＮＯＲ??ｆｌａｓｈ來存儲片上可執(zhí)行代碼（Ｃｏｄｅ?ＸＩＰ），?ＤＲＡＭ作為主存，ＮＡＮＤ?ｆｌａｓｈ作為外??存用來存儲用戶數(shù)據(jù)。由于ＰＣＭ與ＮＯＲ?ｆｌａｓｈ相比具有更好的讀寫性能，同樣是??位翻轉(zhuǎn)的，它可以被用來作為ＮＯＲ?ｆｌａｓｈ的替代品。如圖１－３?（ｂ）所示，文獻［６７］??提出ＰＣＭ取代ＮＯＲ?ｆｌａｓｈ用來存儲代碼和數(shù)據(jù)。文獻［６８］提出了?ＰＣＭ轉(zhuǎn)換層（ＰＴＬ）??來有效的管理ＰＣＭ單元和一種有效的損耗均衡算法�；趫D１－３?（ｂ）的架構(gòu)，??一些研宄己經(jīng)提出利用額外的ＰＣＭ空間來管理ＮＡＮＤ?ｆｌａｓｈ。文獻［６９］提出一種??基于ＰＣＭ嵌入式系統(tǒng)中寫感知的ＮＡＮＤ?ｆｌａｓｈ管理策略（ＰＣＭ－ＦＴＬ）。阻止存儲??在ＰＣＭ中的地址映射表頻繁的發(fā)生位反轉(zhuǎn)，當發(fā)生地址映射表更新時，最小化??ＰＣＭ單元的位反轉(zhuǎn)數(shù)量。然而，大部分的研究只關(guān)注ＮＡＮＤ?ｆｌａｓｈ的管理或者減??少ＮＡＮＤ?ｆｌａｓｈ中存儲映射表區(qū)域的寫操作

架構(gòu),存儲能,內(nèi)存,技術(shù)創(chuàng)新點

儲器本身的寫耐受問題，充分利用了不同存儲介質(zhì)的優(yōu)勢以及ＧＰＵ的特征（如??ｍｅｍｏｒｙ?ｃｏａｌｅｓｃｉｎｇ?和?ｍｅｍｏｒｙ?ｌａｔｅｎｃｙ?ｄｉｖｅｒｇｅｎｃｅ），使混合存儲架構(gòu)在?ＧＰＧＰＵｓ?中??獲得更高的系統(tǒng)性能、更低的存儲能耗以及更長的使用壽命。圖１－４展示了研究??結(jié)構(gòu)和主要研究內(nèi)容。??，「―．．．．．．—測―—?技術(shù)創(chuàng)新點???ｉ??Ｉ＾??ｆ?＾?＾ｌｉｉｔｅｉｔｏｎｎｅｃｔｉｏｎＮｅｔｗｏｒｋ??＾ｔ－ｌｅｖｅ，?Ｃａｃｈｅ?＂?＾?ＥＭ??二二二二，?Ｓ８ＢＢ０ＨＢ＇?１?＾１??內(nèi)存層峰［涵藤涵願纖－ｗｓ＾??圖１－４研究框架圖??如圖１－４所示，研究框架是面向ＧＰＧＰＵｓ的非易失存儲架構(gòu)，以提高系統(tǒng)性??能、降低存儲能耗以及延長ＮＶＭ壽命為目標，分別從ＧＰＵ架構(gòu)的緩存層和內(nèi)存??層兩方面對混合內(nèi)存架構(gòu)存在的性能和能耗等問題進行了研究和優(yōu)化，具體的研??究內(nèi)容以及研究路線如圖１－５所示。??１２??
【參考文獻】

相關(guān)期刊論文前3條

1 張鴻斌;范捷;舒繼武;胡慶達;;基于相變存儲器的存儲系統(tǒng)與技術(shù)綜述[J];計算機研究與發(fā)展;2014年08期

2 沈志榮;薛巍;舒繼武;;新型非易失存儲研究[J];計算機研究與發(fā)展;2014年02期

3 陸游游;舒繼武;;閃存存儲系統(tǒng)綜述[J];計算機研究與發(fā)展;2013年01期

本文編號：2838308

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2838308.html

上一篇：海量存儲系統(tǒng)中高可用服務(wù)管理的設(shè)計與實現(xiàn)
下一篇：基于GPU的高性能并行優(yōu)化算法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向GPGPUs的非易失混合存儲架構(gòu)關(guān)鍵技術(shù)研究