基于非易失內(nèi)存的高性能計(jì)算容錯(cuò)技術(shù)研究
本文關(guān)鍵詞: 高性能計(jì)算 系統(tǒng)可靠性 容錯(cuò) NVRAM 進(jìn)程模型 算法容錯(cuò) 檢查點(diǎn)技術(shù) 出處:《國防科學(xué)技術(shù)大學(xué)》2013年博士論文 論文類型:學(xué)位論文
【摘要】:近年來,高性能計(jì)算系統(tǒng)的性能迅猛增長,系統(tǒng)規(guī)模不斷擴(kuò)大,預(yù)計(jì)在2020年前后,高性能計(jì)算將跨入E級(jí)(1018Flops)計(jì)算時(shí)代。然而,隨著系統(tǒng)規(guī)模的增大,高性能計(jì)算機(jī)的可靠性問題也日益突出,迫使高性能計(jì)算系統(tǒng)必須借助容錯(cuò)技術(shù)才能保證用戶應(yīng)用能夠正確完成。然而,系統(tǒng)規(guī)模的增大在導(dǎo)致系統(tǒng)可靠性不斷下降的同時(shí),又會(huì)引起容錯(cuò)的開銷又不斷增長。基于現(xiàn)有的容錯(cuò)技術(shù),研究表明當(dāng)高性能計(jì)算跨入E級(jí)時(shí),容錯(cuò)開銷將會(huì)占用系統(tǒng)的全部運(yùn)行時(shí)間,從而導(dǎo)致系統(tǒng)的有效利用率為“零”。因此,現(xiàn)有的容錯(cuò)技術(shù)將無法應(yīng)對(duì)未來高性能計(jì)算面臨的可靠性挑戰(zhàn),需要研究新的容錯(cuò)技術(shù)。 新興的非易失內(nèi)存(Non-Volatile Random-Access Memory,NVRAM)設(shè)備既具有DRAM的隨機(jī)快速訪問的特性,又具備磁盤的非易失性,而且功耗也非常低。近年來,NVRAM技術(shù)發(fā)展非常迅速,并有望到2015年后投入實(shí)用。屆時(shí),NVRAM或代替DRAM作為內(nèi)存,或成為結(jié)合內(nèi)存和磁盤特點(diǎn)的新的存儲(chǔ)層次,或代替磁盤作為新的快速存儲(chǔ)介質(zhì),這都將為容錯(cuò)技術(shù)提供新的機(jī)遇。因此,本文的研究重點(diǎn)就是如何利用NVRAM技術(shù)來設(shè)計(jì)高效的容錯(cuò)技術(shù)。針對(duì)NVRAM可能應(yīng)用的存儲(chǔ)層次,本文進(jìn)行了以下幾個(gè)方面的研究: 1.基于算法的容錯(cuò)技術(shù) 當(dāng)NVRAM設(shè)備成為結(jié)合內(nèi)存和磁盤特點(diǎn)的新的存儲(chǔ)層次時(shí),我們研究了基于算法的容錯(cuò)技術(shù)。基于算法的容錯(cuò)思想是通過對(duì)應(yīng)用數(shù)據(jù)和恢復(fù)數(shù)據(jù)統(tǒng)一編碼的方式來進(jìn)行容錯(cuò)。但是,現(xiàn)有的算法容錯(cuò)都是針對(duì)和矩陣運(yùn)算相關(guān)的算法設(shè)計(jì)的,無法應(yīng)用于其它類型的算法。本文利用NVRAM的特性,提出了新型的算法容錯(cuò)思想,使算法容錯(cuò)能夠應(yīng)用于更多的算法類型。我們的方法通過保證算法循環(huán)的原子性執(zhí)行,使應(yīng)用能夠在發(fā)生錯(cuò)誤后從未完成的循環(huán)繼續(xù)執(zhí)行。為了驗(yàn)證我們方法的有效性,我們?cè)O(shè)計(jì)實(shí)現(xiàn)了容錯(cuò)Barnes-Hut算法和容錯(cuò)K-means算法,實(shí)驗(yàn)表明,相對(duì)原算法來說,我們的容錯(cuò)算法能夠以低于10%的開銷達(dá)到容錯(cuò)的目標(biāo)。 2.容錯(cuò)進(jìn)程模型 當(dāng)NVRAM設(shè)備代替DRAM作為主存時(shí),我們進(jìn)行了容錯(cuò)進(jìn)程模型的研究。在傳統(tǒng)進(jìn)程模型中,由于進(jìn)程和操作系統(tǒng)緊耦合,即使進(jìn)程運(yùn)行在NVRAM中,系統(tǒng)重啟也會(huì)破壞進(jìn)程的數(shù)據(jù),使進(jìn)程也無法容錯(cuò)。針對(duì)這個(gè)問題,我們?cè)O(shè)計(jì)并實(shí)現(xiàn)了名為NV-process的容錯(cuò)進(jìn)程模型,使進(jìn)程能夠在發(fā)生錯(cuò)誤后,繼續(xù)之前的狀態(tài)執(zhí)行,從而使進(jìn)程天然具備容錯(cuò)的能力。NV-process通過獨(dú)立的物理空間機(jī)制和自包含的進(jìn)程管理機(jī)制,實(shí)現(xiàn)了進(jìn)程和操作系統(tǒng)的松耦合,使進(jìn)程能夠獨(dú)立于操作系統(tǒng)存在。而且,NV-process為進(jìn)程提供了事務(wù)化的執(zhí)行方式,使進(jìn)程在執(zhí)行過程中能夠維護(hù)自身狀態(tài)的一致性。最后,NV-process為進(jìn)程提供了原地的啟動(dòng)方式,使進(jìn)程能夠快速恢復(fù)。測(cè)試結(jié)果表明,和傳統(tǒng)進(jìn)程模型相比,NV-process能夠以很小的執(zhí)行開銷實(shí)現(xiàn)容錯(cuò)的功能。 3.任意粒度增量式檢查點(diǎn)技術(shù) 當(dāng)NVRAM作為快速存儲(chǔ)介質(zhì)時(shí),我們研究了支持任意粒度的增量式檢查點(diǎn)技術(shù)。增量式檢查點(diǎn)技術(shù)的開銷主要來源于臟數(shù)據(jù)的檢測(cè)和保存。由于磁盤的帶寬以及塊訪問特性的限制,增量式檢查點(diǎn)大都以內(nèi)存頁(通常,1頁包含4096字節(jié))為粒度來檢測(cè)臟數(shù)據(jù)。這樣雖然減小了檢測(cè)開銷,但是會(huì)增加保存開銷。本文通過測(cè)試發(fā)現(xiàn)每個(gè)應(yīng)用程序內(nèi)存頁的數(shù)據(jù)在兩次連續(xù)的檢查點(diǎn)間隔中有很大一部分?jǐn)?shù)據(jù)不會(huì)發(fā)生變化,這說明傳統(tǒng)的以頁為單位的增量式檢查點(diǎn)每次都保存了很多重復(fù)數(shù)據(jù)。為了減小檢查點(diǎn)技術(shù)的開銷,我們利用NVRAM支持字節(jié)訪問的特性,設(shè)計(jì)并實(shí)現(xiàn)了支持任意粒度的增量式檢查點(diǎn)框架。在統(tǒng)計(jì)了應(yīng)用程序訪存行為的基礎(chǔ)上,我們建立了有關(guān)檢查點(diǎn)粒度和代價(jià)的模型。通過分析,,我們得出了最優(yōu)的檢查點(diǎn)粒度。測(cè)試結(jié)果表明,同樣使用最優(yōu)粒度的情況下,我們的方法可以顯著減小增量式檢查點(diǎn)的開銷,加速比最高可以達(dá)到1.3倍。
[Abstract]:In recent years , the performance of high - performance computing systems has increased rapidly , and the scale of the system is expanding . It is expected that high - performance computing will cross into the E - class ( 1018Flops ) computing era before and after 2020 . However , with the increase of system scale , the reliability problem of high - performance computer is also increasing . Based on the existing fault - tolerant technology , the research shows that the fault - tolerant overhead will occupy the whole running time of the system , thus leading the system to have a valid utilization rate of " zero " . Therefore , the existing fault - tolerant technology will not be able to meet the reliability challenge facing the future high - performance computing , and the new fault - tolerant technique needs to be studied . The new non - volatile random - access memory ( NVRAM ) device has not only the characteristics of random fast access of DRAM , but also the non - volatile memory of the magnetic disk , and the power consumption is very low . In recent years , NVRAM technology has developed very quickly and is expected to be put into practical use after 2015 . In this paper , the research focus of this paper is how to use NVRAM technology to design efficient fault - tolerant technology . 1 . Algorithm - based Fault - tolerant Technology In order to verify the validity of our method , we design a novel fault - tolerant algorithm and a fault - tolerant K - means algorithm . The experimental results show that the fault - tolerant algorithm can achieve the goal of fault tolerance at less than 10 % . 2 . Fault - tolerant process model In the traditional process model , because the process and the operating system are tightly coupled , even if the process runs in NVRAM , the process can not fault tolerance even if the process runs in NVRAM . 3 . Incremental checkpointing technology with arbitrary granularity An incremental checkpoint technology that supports arbitrary granularity is studied when NVRAM is used as a fast storage medium . The overhead of incremental checkpointing technology is mainly derived from the detection and preservation of dirty data . In order to reduce the overhead of checkpointing technology , incremental checkpoints have been designed and implemented to support arbitrary granularity incremental checkpoints every time a memory page ( usually , 1 page contains 4096 bytes ) .
【學(xué)位授予單位】:國防科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP302.8
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李傳佑;汪蕓;;拜占庭環(huán)境下新成員加入容錯(cuò)組狀態(tài)同步[J];東南大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年01期
2 張薇;馬建峰;王良民;郭淵博;;門限Byzantine quorum系統(tǒng)及其在分布式存儲(chǔ)中的應(yīng)用[J];電子學(xué)報(bào);2008年02期
3 張曉霞;張鳳登;陳愨;張大慶;;分布式WSN系統(tǒng)中的拜占庭故障算法研究[J];工業(yè)控制計(jì)算機(jī);2014年01期
4 劉鋼;周敬利;秦磊華;陳小平;;糾錯(cuò)碼拜占庭容錯(cuò)Quorum中錯(cuò)誤檢測(cè)機(jī)制[J];計(jì)算機(jī)科學(xué);2007年05期
5 鮑洋;盧正鼎;黃保華;李瑞軒;胡和平;路松峰;;適合P2P環(huán)境的動(dòng)態(tài)多秘密共享方案[J];計(jì)算機(jī)科學(xué);2010年09期
6 甕佳佳;張敏情;董斌;;一種基于特權(quán)分級(jí)的quorum系統(tǒng)構(gòu)造方案[J];計(jì)算機(jī)應(yīng)用研究;2010年09期
7 穆帥;單書暢;鄧仰東;王志華;;基于PCM的GPU存儲(chǔ)系統(tǒng)設(shè)計(jì)與優(yōu)化[J];計(jì)算機(jī)科學(xué);2013年10期
8 陳柳;周偉;;拜占庭容錯(cuò)中的視圖變更算法[J];計(jì)算機(jī)與現(xiàn)代化;2013年10期
9 陳柳;周偉;;基于拜占庭容錯(cuò)的前攝恢復(fù)算法[J];計(jì)算機(jī)與現(xiàn)代化;2013年12期
10 葉培順;;非結(jié)構(gòu)化P2P網(wǎng)絡(luò)的一種改進(jìn)搜索算法[J];計(jì)算機(jī)與現(xiàn)代化;2013年12期
相關(guān)會(huì)議論文 前1條
1 董斌;張敏情;張薇;楊曉元;;分層門限Byzantine Quorum系統(tǒng)構(gòu)造方案[A];中國電子學(xué)會(huì)第十六屆信息論學(xué)術(shù)年會(huì)論文集[C];2009年
相關(guān)博士學(xué)位論文 前10條
1 富弘毅;OpenMP并行程序容錯(cuò)技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2010年
2 賈佳;異構(gòu)并行計(jì)算機(jī)容錯(cuò)技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
3 宋偉;面向事務(wù)存儲(chǔ)系統(tǒng)的容錯(cuò)技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
4 郭淵博;容忍入侵的理論與方法及其應(yīng)用研究[D];西安電子科技大學(xué);2005年
5 王超;可生存網(wǎng)絡(luò)系統(tǒng)的理論與關(guān)鍵技術(shù)研究[D];西安電子科技大學(xué);2006年
6 張偉超;移動(dòng)自組網(wǎng)若干安全問題的研究[D];中國科學(xué)技術(shù)大學(xué);2007年
7 王秀群;可實(shí)用的拜占庭容錯(cuò)系統(tǒng)理論研究[D];浙江大學(xué);2007年
8 吳晶晶;PKI關(guān)鍵理論與應(yīng)用技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2008年
9 張薇;信息存儲(chǔ)系統(tǒng)可生存性理論與關(guān)鍵技術(shù)研究[D];西安電子科技大學(xué);2008年
10 劉鋼;分布式存儲(chǔ)系統(tǒng)中基于糾錯(cuò)碼的容錯(cuò)機(jī)制研究[D];華中科技大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 申小飛;基于CPK的網(wǎng)上銀行安全交易認(rèn)證系統(tǒng)的研究[D];華中科技大學(xué);2011年
2 曹則新;云存儲(chǔ)中開放網(wǎng)絡(luò)資源穩(wěn)定存儲(chǔ)機(jī)制的研究與實(shí)現(xiàn)[D];華中科技大學(xué);2011年
3 楊坤;基于Hadoop的云存儲(chǔ)系統(tǒng)客戶端的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2011年
4 楊帆;基于P2P的分布式容錯(cuò)數(shù)字簽名系統(tǒng)研究及應(yīng)用[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2006年
5 秦海波;容侵機(jī)制的應(yīng)用與定量分析[D];吉林大學(xué);2008年
6 王稼香;拜占庭容錯(cuò)算法在Web Services服務(wù)提供上的研究與應(yīng)用[D];山東大學(xué);2009年
7 秦榕;應(yīng)用于金融服務(wù)系統(tǒng)的智能卡密碼驗(yàn)證算法研究[D];蘇州大學(xué);2009年
8 琚巍巍;分布式存儲(chǔ)系統(tǒng)容錯(cuò)技術(shù)的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年
9 徐蘭鈺;路基路面質(zhì)量評(píng)定系統(tǒng)的開發(fā)與應(yīng)用研究[D];東北林業(yè)大學(xué);2010年
10 胡玲龍;無線傳感器網(wǎng)絡(luò)中基于節(jié)點(diǎn)行為分類的惡意節(jié)點(diǎn)檢測(cè)[D];中國計(jì)量學(xué)院;2013年
本文編號(hào):1496231
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1496231.html