異構(gòu)并行計算機容錯技術(shù)研究
發(fā)布時間:2020-05-10 21:41
【摘要】:并行計算是實現(xiàn)超高性能計算的主要技術(shù)手段。當(dāng)前,隨著GPGPU性能的不斷提高,利用CPU和GPU構(gòu)建的異構(gòu)并行系統(tǒng)已經(jīng)成為高性能計算機領(lǐng)域的研究熱點。然而隨著并行計算系統(tǒng)規(guī)模的不斷增長,高性能計算機面臨嚴(yán)峻的挑戰(zhàn)。由于異構(gòu)并行系統(tǒng)更為復(fù)雜的體系結(jié)構(gòu)以及其特有的性質(zhì),且商用GPGPU容錯能力較弱,所以由CPU和GPU構(gòu)建的大規(guī)模異構(gòu)并行系統(tǒng)的可靠性問題更為尖銳,尚缺乏實用的容錯手段。 本文針對異構(gòu)并行計算機的容錯技術(shù)展開研究,以異構(gòu)并行系統(tǒng)硬件故障在軟件中的傳播行為為理論基礎(chǔ),對應(yīng)用級checkpointing技術(shù)的保存數(shù)據(jù)量優(yōu)化問題進行研究;分析了異構(gòu)并行系統(tǒng)多checkpoint的全局開銷最優(yōu)化問題,并提出了設(shè)置方案;同時,針對異構(gòu)并行系統(tǒng)提出了一種新的面向GPU的多副本容錯技術(shù)RB-TMR,并對其所具備的關(guān)鍵機制進行了詳細(xì)的研究與設(shè)計實現(xiàn)。本文的主要貢獻如下: 1、提出了一種面向一般計算系統(tǒng)的計算可接受模型。建立程序的執(zhí)行結(jié)果可接受以及可接受度的定義,并進一步定義程序多次執(zhí)行的可接受和多次執(zhí)行的可接受度,以此為基礎(chǔ)得到可接受度的相關(guān)定理和推論。針對異構(gòu)并行系統(tǒng)將可接受度的相關(guān)定理和推論進行了擴展,并建立異構(gòu)并行系統(tǒng)的可接受模型,同時進一步案例分析兩種常見的容錯技術(shù)checkpoint/restart和TMR應(yīng)用到異構(gòu)并行系統(tǒng)上時,對可接受模型的影響,從而給出容錯機制的指導(dǎo)意見和優(yōu)化方法。 2、基于過程間相關(guān)性理論,提出了由CPU和GPU構(gòu)成的異構(gòu)并行系統(tǒng)中硬件故障在軟件中傳播行為描述方法,我們稱其為故障傳播模型。同時,根據(jù)故障傳播模型,設(shè)計了針對該系統(tǒng)的checkpointing機制,并針對影響checkpoint/restart開銷的主要問題之一——checkpoint保存數(shù)據(jù)量進行了優(yōu)化。實驗證明該優(yōu)化方法可以有效的減小開銷,提高容錯性能。 3、深入研究了面向異構(gòu)并行系統(tǒng)的多個checkpoint的全局開銷最小化問題,提出了面向異構(gòu)并行系統(tǒng)的同步及異步兩種機制的多checkpoint全局開銷最小化的優(yōu)化設(shè)置方法。首先提出了兩個針對優(yōu)化設(shè)置多個checkpoint位置的基本問題。然后通過對異構(gòu)并行系統(tǒng)體系結(jié)構(gòu)和程序特性的分析,提出了基于兩種機制的異構(gòu)并行系統(tǒng)的多checkpoint設(shè)置方法:同步及異步機制的checkpoint設(shè)置方法。同時,根據(jù)checkpoint優(yōu)化設(shè)置的兩個具體問題分別對這兩種機制進行優(yōu)化設(shè)置分析和數(shù)學(xué)建模,并給出了相應(yīng)的求解算法。 4、提出了一種回滾機制與TMR技術(shù)相結(jié)合的容錯技術(shù)RB-TMR。這一技術(shù)可以有效應(yīng)對fail-stop故障與瞬時故障兩種類型的故障進行容錯,我們給出了這一技術(shù)的實現(xiàn)方法,并針對異構(gòu)并行系統(tǒng)體系結(jié)構(gòu)及程序模型的特征對其中關(guān)鍵機制的設(shè)計進行了具體分析和討論。同時,設(shè)計并實現(xiàn)了一個面向RB-TMR機制的源到源編譯輔助工具,可以輔助用戶面向CUDA程序完成RB-TMR機制的實現(xiàn),減輕了用戶實現(xiàn)RB-TMR機制的負(fù)擔(dān)。實驗結(jié)果表明RB-TMR技術(shù)能夠?qū)崿F(xiàn)較高的錯誤檢出和糾正率,有效減小可能需要回滾恢復(fù)的概率,根據(jù)綜合評定,其相對于傳統(tǒng)checkpointing及TMR技術(shù)有更好的容錯性能。
【圖文】:
高計算能力的不斷追求。圖 1.1 顯示了近 6 年來 Top500[4]中機器的處情況,由此可見高性能計算機包含的處理器數(shù)在不斷增加。但同時COTS 器件的廣泛使用降低了高性能計算機各結(jié)點的可靠性,也降低可靠性;而系統(tǒng)規(guī)模的大幅增長則會顯著降低系統(tǒng)的平均故障間an Time Between Failures,MTBF)。
高性能計算機的性能發(fā)展趨勢
【學(xué)位授予單位】:國防科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2011
【分類號】:TP338.6
本文編號:2657942
【圖文】:
高計算能力的不斷追求。圖 1.1 顯示了近 6 年來 Top500[4]中機器的處情況,由此可見高性能計算機包含的處理器數(shù)在不斷增加。但同時COTS 器件的廣泛使用降低了高性能計算機各結(jié)點的可靠性,也降低可靠性;而系統(tǒng)規(guī)模的大幅增長則會顯著降低系統(tǒng)的平均故障間an Time Between Failures,MTBF)。
高性能計算機的性能發(fā)展趨勢
【學(xué)位授予單位】:國防科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2011
【分類號】:TP338.6
【引證文獻】
相關(guān)博士學(xué)位論文 前1條
1 文武;基于C/G架構(gòu)的大規(guī)模地學(xué)三維場景渲染方法研究[D];成都理工大學(xué);2013年
,本文編號:2657942
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2657942.html
最近更新
教材專著