天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 計算機論文 >

異構并行計算機容錯技術研究

發(fā)布時間:2020-05-10 21:41
【摘要】:并行計算是實現(xiàn)超高性能計算的主要技術手段。當前,隨著GPGPU性能的不斷提高,利用CPU和GPU構建的異構并行系統(tǒng)已經(jīng)成為高性能計算機領域的研究熱點。然而隨著并行計算系統(tǒng)規(guī)模的不斷增長,高性能計算機面臨嚴峻的挑戰(zhàn)。由于異構并行系統(tǒng)更為復雜的體系結構以及其特有的性質,且商用GPGPU容錯能力較弱,所以由CPU和GPU構建的大規(guī)模異構并行系統(tǒng)的可靠性問題更為尖銳,尚缺乏實用的容錯手段。 本文針對異構并行計算機的容錯技術展開研究,以異構并行系統(tǒng)硬件故障在軟件中的傳播行為為理論基礎,對應用級checkpointing技術的保存數(shù)據(jù)量優(yōu)化問題進行研究;分析了異構并行系統(tǒng)多checkpoint的全局開銷最優(yōu)化問題,并提出了設置方案;同時,針對異構并行系統(tǒng)提出了一種新的面向GPU的多副本容錯技術RB-TMR,并對其所具備的關鍵機制進行了詳細的研究與設計實現(xiàn)。本文的主要貢獻如下: 1、提出了一種面向一般計算系統(tǒng)的計算可接受模型。建立程序的執(zhí)行結果可接受以及可接受度的定義,并進一步定義程序多次執(zhí)行的可接受和多次執(zhí)行的可接受度,以此為基礎得到可接受度的相關定理和推論。針對異構并行系統(tǒng)將可接受度的相關定理和推論進行了擴展,并建立異構并行系統(tǒng)的可接受模型,同時進一步案例分析兩種常見的容錯技術checkpoint/restart和TMR應用到異構并行系統(tǒng)上時,對可接受模型的影響,從而給出容錯機制的指導意見和優(yōu)化方法。 2、基于過程間相關性理論,提出了由CPU和GPU構成的異構并行系統(tǒng)中硬件故障在軟件中傳播行為描述方法,我們稱其為故障傳播模型。同時,根據(jù)故障傳播模型,設計了針對該系統(tǒng)的checkpointing機制,并針對影響checkpoint/restart開銷的主要問題之一——checkpoint保存數(shù)據(jù)量進行了優(yōu)化。實驗證明該優(yōu)化方法可以有效的減小開銷,提高容錯性能。 3、深入研究了面向異構并行系統(tǒng)的多個checkpoint的全局開銷最小化問題,提出了面向異構并行系統(tǒng)的同步及異步兩種機制的多checkpoint全局開銷最小化的優(yōu)化設置方法。首先提出了兩個針對優(yōu)化設置多個checkpoint位置的基本問題。然后通過對異構并行系統(tǒng)體系結構和程序特性的分析,提出了基于兩種機制的異構并行系統(tǒng)的多checkpoint設置方法:同步及異步機制的checkpoint設置方法。同時,根據(jù)checkpoint優(yōu)化設置的兩個具體問題分別對這兩種機制進行優(yōu)化設置分析和數(shù)學建模,并給出了相應的求解算法。 4、提出了一種回滾機制與TMR技術相結合的容錯技術RB-TMR。這一技術可以有效應對fail-stop故障與瞬時故障兩種類型的故障進行容錯,我們給出了這一技術的實現(xiàn)方法,并針對異構并行系統(tǒng)體系結構及程序模型的特征對其中關鍵機制的設計進行了具體分析和討論。同時,設計并實現(xiàn)了一個面向RB-TMR機制的源到源編譯輔助工具,可以輔助用戶面向CUDA程序完成RB-TMR機制的實現(xiàn),減輕了用戶實現(xiàn)RB-TMR機制的負擔。實驗結果表明RB-TMR技術能夠實現(xiàn)較高的錯誤檢出和糾正率,有效減小可能需要回滾恢復的概率,根據(jù)綜合評定,其相對于傳統(tǒng)checkpointing及TMR技術有更好的容錯性能。
【圖文】:

統(tǒng)計圖,處理器,數(shù)目,高性能計算機


高計算能力的不斷追求。圖 1.1 顯示了近 6 年來 Top500[4]中機器的處情況,由此可見高性能計算機包含的處理器數(shù)在不斷增加。但同時COTS 器件的廣泛使用降低了高性能計算機各結點的可靠性,也降低可靠性;而系統(tǒng)規(guī)模的大幅增長則會顯著降低系統(tǒng)的平均故障間an Time Between Failures,MTBF)。

統(tǒng)計圖,高性能計算機,發(fā)展趨勢,統(tǒng)計圖


高性能計算機的性能發(fā)展趨勢
【學位授予單位】:國防科學技術大學
【學位級別】:博士
【學位授予年份】:2011
【分類號】:TP338.6

【引證文獻】

相關博士學位論文 前1條

1 文武;基于C/G架構的大規(guī)模地學三維場景渲染方法研究[D];成都理工大學;2013年



本文編號:2657942

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2657942.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶5e38c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com