硬件故障在程序中的傳播行為分析及容錯技術(shù)研究
本文選題:硬件故障 + 故障傳播; 參考:《國防科學(xué)技術(shù)大學(xué)》2012年博士論文
【摘要】:器件工藝技術(shù)的發(fā)展、系統(tǒng)規(guī)模的擴大以及異構(gòu)系統(tǒng)的興起在不斷提高高性能計算機性能的同時,也帶來了越發(fā)嚴(yán)重的可靠性問題。可靠性問題已經(jīng)成為制約高性能計算發(fā)展的重要因素之一。雖然通過提高器件的可靠性或者使用冗余的部件可以在一定程度上提高高性能計算機的可靠性,但是,這種基于硬件的容錯方法容錯代價較大。面向硬件故障的軟件容錯方法可以在不對硬件做任何修改的前提下,通過修改程序?qū)崿F(xiàn)對硬件故障的容錯。 硬件故障及其所導(dǎo)致的錯誤隨程序的執(zhí)行而傳播,對硬件故障在程序中的傳播行為進行分析有助于更好地通過軟件方法容忍硬件故障。因此,本文的研究分為基礎(chǔ)篇和應(yīng)用篇:基礎(chǔ)篇對硬件故障在程序中傳播行為展開分析;應(yīng)用篇利用基礎(chǔ)篇的分析結(jié)果設(shè)計相應(yīng)的容錯優(yōu)化方法。 在基礎(chǔ)篇,本文著重選取了三類具有代表性的程序:串行程序、同構(gòu)并行程序,以及異構(gòu)并行程序,分別作為研究對象,對其上硬件故障的傳播行為進行研究,主要工作和創(chuàng)新點體現(xiàn)在: 1.建立了硬件故障在串行程序中的傳播模型(第二章)串行程序是一種最基本的程序類型,針對串行程序中故障傳播行為的分析是對故障在程序中傳播行為展開研究的基礎(chǔ)。本文對硬件故障在程序中傳播所產(chǎn)生的錯誤進行了分類,得到原生錯誤、數(shù)據(jù)流生錯誤和控制流生錯誤三類錯誤。使用前向數(shù)據(jù)流分析方法,在程序詳細(xì)控制流圖的基礎(chǔ)上給出了串行程序中數(shù)據(jù)流生錯誤和控制流生錯誤的錯誤傳播方程和相關(guān)求解算法,建立了硬件故障在串行程序中的傳播模型。研究者可以基于該模型,在給定原生錯誤的情況下,計算得到串行程序中各個程序點的錯誤信息。 2.以MPI程序為例建立了硬件故障在同構(gòu)并行程序中的傳播模型(第三章)MPI程序是并行與分布式計算領(lǐng)域的事實標(biāo)準(zhǔn),是一種具有代表性的同構(gòu)并行程序。本文根據(jù)MPI程序的特點,對MPI程序中的數(shù)據(jù)流生錯誤進一步細(xì)分,得到了進程內(nèi)錯誤和進程間錯誤。以變量整體和變量副本分別為錯誤載體,重點分析了MPI程序中進程間錯誤傳播的行為,得到了計算MPI程序中數(shù)據(jù)流生錯誤的錯誤傳播方程和相關(guān)求解算法,建立了硬件故障在MPI程序中的傳播模型。基于該模型,在給定原生錯誤的情況下,,以變量整體或變量副本作為錯誤載體,研究者可以使用相應(yīng)方程和算法,計算得到MPI程序中各個程序點的錯誤信息。 3.以GPGPU程序為例建立了硬件故障在異構(gòu)并行程序中的傳播模型(第四章) CPU-GPU異構(gòu)系統(tǒng)已經(jīng)在高性能計算領(lǐng)域得到廣泛使用,GPGPU程序已經(jīng)成為一種具有代表性的異構(gòu)并行程序。本文根據(jù)GPGPU程序的特點,對硬件故障引起的錯誤進行了分析,將錯誤進一步劃分為CPU錯誤和GPU錯誤。針對GPGPU程序中語句可能異步執(zhí)行的特點,分析了GPGPU程序中給定程序點錯誤的不確定性,設(shè)計了兼容這種不確定錯誤的保守計算方程和求解算法。提出了利用GPU執(zhí)行錯誤分析Kernel,對靜態(tài)分析Kernel內(nèi)錯誤傳播行為進行加速的方法,建立了硬件故障在GPGPU程序中的傳播模型。研究者可以基于該模型,在給定原生錯誤的情況下,利用GPU部件加速計算得到GPGPU程序中各個程序點的錯誤信息。 在應(yīng)用篇,本文基于基礎(chǔ)篇中關(guān)于硬件故障在程序中傳播行為分析的結(jié)果,分別針對MPI程序和GPGPU程序設(shè)計并實現(xiàn)了相應(yīng)的容錯優(yōu)化方法,主要工作和創(chuàng)新點體現(xiàn)在: 1.提出了面向MPI程序的弱阻塞協(xié)同式應(yīng)用級檢查點方法——WBC-ALC(第五章)本文分析了MPI程序中實現(xiàn)應(yīng)用級檢查點的難點,并針對這些難點提出了一種面向MPI程序的弱阻塞協(xié)同式應(yīng)用級檢查點方法——WBC-ALC。具體介紹了WBC-ALC的基本思想和協(xié)同機制,設(shè)計了用于實現(xiàn)WBC-ALC的編程方法和容錯框架,并給出了基于這種編程方法和容錯框架的實現(xiàn)方法。實驗結(jié)果表明,程序員可以較容易的使用WBC-ALC方法對MPI程序進行容錯,且WBC-ALC可以有效降低檢查點的容錯代價。 2.提出了面向GPGPU程序的懶惰錯誤檢測方法——LazyFT(第六章)本文分析了GPU計算部件瞬時故障所產(chǎn)生的錯誤在CPU-GPU異構(gòu)平臺上的傳播規(guī)律,基于該傳播規(guī)律提出了Lazy的錯誤檢測方法。并基于該檢測方法設(shè)計了一種面向CPU-GPU異構(gòu)系統(tǒng)的容錯方法LazyFT,給出了LazyFT的容錯框架。建立了容錯GPGPU程序的執(zhí)行時間模型,并基于該時間模型給出了科學(xué)計算程序中兩類典型程序段在使用LazyFT容錯方法時的最優(yōu)容錯粒度選擇方法。通過實驗驗證了LazyFT容錯方法的有效性,與現(xiàn)有的Eager容錯方法相比,使用LazyFT對GPGPU程序進行容錯處理,在有無故障發(fā)生的情況下,都可以顯著降低容錯開銷。 3.提出了面向GPGPU程序的部分復(fù)算方法——PartialRC(第七章)本文分析了GPU硬件發(fā)生瞬時故障后,GPGPU程序真正需要復(fù)算的計算情況,首次提出了面向GPGPU程序的部分復(fù)算思想,以及基于部分復(fù)算的故障恢復(fù)方法PartialRC。設(shè)計了基于該故障恢復(fù)方法對GPGPU程序進行容錯處理的編程模型以及容錯框架。給出了該容錯框架中各個關(guān)鍵技術(shù)的基本原理、實現(xiàn)技術(shù)以及優(yōu)化方法。實驗結(jié)果表明,與現(xiàn)有基于完全復(fù)算的故障恢復(fù)相比,PartialRC可以有效降低GPGPU程序在發(fā)生GPU硬件瞬時故障之后的故障恢復(fù)代價。
[Abstract]:The development of the device technology , the expansion of the system scale and the rise of the heterogeneous system , while continuously improving the performance of the high - performance computer , also bring serious reliability problems . The reliability problem has become one of the important factors that restrict the development of high - performance computing .
The failure of hardware and its error are propagated with the execution of the program . The analysis of the propagation behavior of the hardware fault in the program helps to tolerate the hardware fault better through the software method . Therefore , the research of this paper is divided into the basic and application part : the basic text analyzes the propagation behavior of the hardware fault in the program ;
The corresponding fault - tolerant optimization method is designed by using the analysis results of the basic text .
On the base of this paper , three types of representative programs are selected : serial program , homogenous parallel program , and heterogeneous parallel program , which are used as the research object to study the propagation behavior of hardware failure . The main work and innovation points are :
1 . The propagation model of the hardware fault in the serial program is established ( chapter 2 ) . The serial program is one of the most basic program types . The fault propagation behavior in the serial program is classified according to the fault propagation behavior in the serial program . The propagation model of the hardware fault in the serial program is obtained . Based on the model , the error information of each program point in the serial program can be calculated under the condition of a given native error .
2 . Based on MPI program , the propagation model of the hardware fault in the parallel program is established ( chapter 3 ) . The MPI program is the de facto standard in parallel and distributed computing .
3 . The propagation model of hardware fault in heterogeneous parallel program is established with GPGPU program as an example ( chapter 4 ) .
The CPU - GPU heterogeneous system has been widely used in the field of high performance computing , and the GPGPU program has become a representative heterogeneous parallel program . According to the characteristics of the GPGPU program , the error caused by hardware failure is analyzed , and the error is further divided into CPU error and GPU error .
In this paper , based on the results of the analysis of the propagation behavior of the hardware faults in the program , the paper designs the MPI program and the GPGPU respectively , and realizes the corresponding fault tolerance optimization method . The main work and innovation points are as follows :
1 . A weak blocking cooperative application level checkpointing method _ WBC - ALC ( chapter V ) for MPI program is put forward . A weak blocking cooperative application level checkpointing method _ WBC - ALC for MPI program is presented in this paper . The basic idea and cooperative mechanism of WBC - ALC are introduced . The program method and fault - tolerant framework are designed for realizing WBC - ALC . The experimental results show that the programmer can use WBC - ALC method to fault tolerance for MPI program , and WBC - ALC can effectively reduce the fault - tolerant cost of the checkpoint .
2 . In this paper , LazyFT ( chapter 6 ) is introduced to detect the error generated by the instantaneous fault of GPU computing components . Lazy ' s error detection method is proposed based on the propagation rule . The fault - tolerant framework of Lazyft is designed based on this method .
3 . A partial re - calculation method _ PartialRC ( chapter 7 ) for GPGPU program is proposed in this paper . After the transient fault of GPU hardware is analyzed , a part of the complex calculation thought for GPGPU program and the fault - tolerant framework for GPGPU program are put forward . The basic principle , realization technology and optimization method of GPGPU program are presented . The experimental results show that the PartialRC can effectively reduce the recovery cost of GPGPU program after the transient fault of GPU hardware .
【學(xué)位授予單位】:國防科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2012
【分類號】:TP302.8
【共引文獻】
相關(guān)期刊論文 前10條
1 黃翌虹,張源,段東;計算機聯(lián)鎖系統(tǒng)的通信可靠性研究[J];北方交通大學(xué)學(xué)報;2004年02期
2 燕永田,張俊;計算機聯(lián)鎖控制系統(tǒng)數(shù)學(xué)模型的研究[J];北方交通大學(xué)學(xué)報;1998年05期
3 單冬,燕永田;計算機聯(lián)鎖控制系統(tǒng)安全性保障體系的一種模型[J];北方交通大學(xué)學(xué)報;1998年05期
4 楊威;計算機聯(lián)鎖控制系統(tǒng)檢驗方法的研究[J];北方交通大學(xué)學(xué)報;1998年05期
5 沈潔,單冬;三模冗余計算機聯(lián)鎖系統(tǒng)可靠性安全性分析[J];北方交通大學(xué)學(xué)報;1998年05期
6 沈顯照;;利用BIT技術(shù)提高雷達可靠性[J];四川兵工學(xué)報;2012年04期
7 黃平;容錯計算技術(shù)[J];電腦;1998年04期
8 王宇舟,金聲震;基于FPGA的高速圖像預(yù)處理系統(tǒng)設(shè)計[J];電子科技大學(xué)學(xué)報;2005年01期
9 朱 勇;提高微機在控制應(yīng)用中程序運行的可靠性[J];大連水產(chǎn)學(xué)院學(xué)報;2002年02期
10 江建慧,閔應(yīng)驊,施鴻寶;一種擴展故障安全系統(tǒng)理論[J];電路與系統(tǒng)學(xué)報;1999年04期
相關(guān)會議論文 前3條
1 王鴻欣;崔光照;楊揚;;用三模冗余結(jié)構(gòu)提高列車運行監(jiān)控記錄裝置的可靠性[A];第十九屆電工理論學(xué)術(shù)年會論文集[C];2007年
2 王勝;;空間用長壽命高可靠度GPS接收機研制方案探討[A];中國空間科學(xué)學(xué)會空間探測專業(yè)委員會第十一次學(xué)術(shù)會議論文集[C];1998年
3 何佳洲;周志華;陳兆乾;;基于IHMCAP算法的一個故障診斷模型[A];1998年中國智能自動化學(xué)術(shù)會議論文集(下冊)[C];1998年
相關(guān)博士學(xué)位論文 前10條
1 唐滔;面向CPU-GPU異構(gòu)并行系統(tǒng)的編程模型與編譯優(yōu)化關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2012年
2 賈佳;異構(gòu)并行計算機容錯技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
3 林一松;面向GPU的低功耗軟件優(yōu)化關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2012年
4 宋偉;面向事務(wù)存儲系統(tǒng)的容錯技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
5 唐本峰;脈沖電暈法煙氣脫硫自動測控系統(tǒng)的研究[D];大連理工大學(xué);2000年
6 湯健彬;基于FF現(xiàn)場總線的FCS系統(tǒng)研究[D];浙江大學(xué);2001年
7 李璇君;航空發(fā)動機數(shù)字控制器與航空電子綜合系統(tǒng)BIT技術(shù)研究[D];南京航空航天大學(xué);2001年
8 宋平;支持不停機網(wǎng)絡(luò)的Circle Quorum系統(tǒng)研究與實現(xiàn)[D];浙江大學(xué);2004年
9 陳慧;實時寬帶現(xiàn)場網(wǎng)絡(luò)技術(shù)研究[D];電子科技大學(xué);2004年
10 王湛;智能化細(xì)粒度軟件抗衰策略及相關(guān)技術(shù)研究[D];南京理工大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 朱春雷;兵員管理系統(tǒng)安全機制研究[D];哈爾濱工程大學(xué);2010年
2 司繼淵;一種基于FPGA的可演化CPU的設(shè)計與實現(xiàn)[D];北京交通大學(xué);2010年
3 張洋;鐵路信號系統(tǒng)安全關(guān)鍵軟件故障注入技術(shù)研究[D];北京交通大學(xué);2011年
4 申彥波;基于改進的被動復(fù)制容錯Web服務(wù)的設(shè)計與實現(xiàn)[D];解放軍信息工程大學(xué);2009年
5 虎忠;基于CAN總線的商用車EPS控制器的研發(fā)[D];長安大學(xué);2011年
6 柳陽;基于HA集群的Linux多機互備份系統(tǒng)的研究與應(yīng)用[D];華南理工大學(xué);2011年
7 盧希;基于Eclipse的任務(wù)級調(diào)試技術(shù)研究和實現(xiàn)[D];電子科技大學(xué);2011年
8 趙磊;基于PON結(jié)構(gòu)的命令響應(yīng)傳輸協(xié)議研究[D];電子科技大學(xué);2011年
9 潘彬彬;考慮版本升級的軟件可靠性預(yù)計模型[D];南京郵電大學(xué);2011年
10 邱振財;基于Linux的數(shù)據(jù)備份與恢復(fù)系統(tǒng)的設(shè)計和實現(xiàn)[D];電子科技大學(xué);2011年
本文編號:1886649
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1886649.html