并行計(jì)算中主機(jī)故障容錯(cuò)機(jī)制研究
發(fā)布時(shí)間:2020-08-10 17:37
【摘要】:隨著高性能并行計(jì)算系統(tǒng)規(guī)模越來(lái)越大,軟件和硬件發(fā)生故障的概率隨之增大,并且由于網(wǎng)格系統(tǒng)本身及網(wǎng)格資源的高度動(dòng)態(tài)異構(gòu)性,網(wǎng)格計(jì)算平臺(tái)較傳統(tǒng)的計(jì)算平臺(tái)有著更大的出錯(cuò)機(jī)率,系統(tǒng)的容錯(cuò)性和可靠性已成為應(yīng)用可擴(kuò)展性的主要限制因素。高性能并行計(jì)算領(lǐng)域的容錯(cuò)技術(shù)越來(lái)越受到人們的重視。如何針對(duì)網(wǎng)格系統(tǒng)的特點(diǎn),加入恰當(dāng)?shù)娜蒎e(cuò)機(jī)制,切實(shí)提高網(wǎng)格計(jì)算的可靠性和穩(wěn)定性,是高性能計(jì)算領(lǐng)域的研究熱點(diǎn)和難點(diǎn)。 本文在深入研究網(wǎng)格計(jì)算平臺(tái)的基礎(chǔ)上,主要進(jìn)行了包含以下三個(gè)方面的工作: 首先:在P2P-MPI的實(shí)驗(yàn)平臺(tái)上驗(yàn)證錯(cuò)誤檢測(cè)器的各種錯(cuò)誤檢測(cè)方法,對(duì)每種方法進(jìn)行實(shí)驗(yàn)分析,討論其適用性; 其次:討論錯(cuò)誤恢復(fù)機(jī)制中副本一致性,副本個(gè)數(shù),網(wǎng)絡(luò)參數(shù)等各種參數(shù)對(duì)備份進(jìn)程組的影響,尋求最佳備份的個(gè)數(shù)。本文在主機(jī)分配策略中,充分考了慮帶寬、CPU能力的影響,盡管此模型僅僅是初步估算,但在以后的實(shí)際應(yīng)用中,是一個(gè)應(yīng)該考慮的因素; 再次:在尋求最佳備份過(guò)程中,提出能夠容忍的失效概率,在這個(gè)概率的條件下得到一個(gè)最佳備份區(qū)間,不必備份個(gè)數(shù)減小的情況下,立即啟動(dòng)恢復(fù)機(jī)制,節(jié)約了網(wǎng)絡(luò)帶寬。
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2011
【分類號(hào)】:TP302.8
【圖文】:
圖 1-1 并行計(jì)算系統(tǒng)理劃分來(lái)看,分布式內(nèi)存和共享內(nèi)存是兩種基本的并行計(jì)算機(jī)存儲(chǔ)布式共享內(nèi)存同時(shí)也是一種越來(lái)越重要的并行計(jì)算機(jī)存儲(chǔ)方式。問(wèn)題在計(jì)算機(jī)中的地位越來(lái)越重要,現(xiàn)在計(jì)算機(jī)的性能在很大程度儲(chǔ)器,而且新型的計(jì)算機(jī)有可能采用以存儲(chǔ)器為中心而不是傳統(tǒng)的以心。共享內(nèi)存的并行計(jì)算機(jī)在編程上相對(duì)簡(jiǎn)單,容易使用,但是它有缺點(diǎn)就是擴(kuò)展性較差,不可能有太多的處理器共用相同的存儲(chǔ)器,這性訪問(wèn)和讀寫沖突等問(wèn)題會(huì)引起計(jì)算效率的降低。對(duì)于分布式內(nèi)存的其擴(kuò)展性較好,增加更多的處理器引起的問(wèn)題不會(huì)象共享內(nèi)存一樣樣的計(jì)算機(jī)上編寫并行程序相對(duì)較難。享內(nèi)存的并行計(jì)算機(jī);共享內(nèi)存的并行計(jì)算機(jī),通過(guò)對(duì)共享內(nèi)存的編程,實(shí)現(xiàn)起來(lái)相對(duì)簡(jiǎn)理單元通過(guò)對(duì)共享內(nèi)存的訪問(wèn)來(lái)交換信息、協(xié)調(diào)各處理器對(duì)并行任務(wù)享內(nèi)存往往成為性能,特別是擴(kuò)展性的重要瓶頸。
圖 2-1 悲觀日志協(xié)議模型志事件日志信息以易失性日志的形式臨時(shí)保存,然后周期地觀日志樂(lè)觀地假設(shè)在發(fā)生故障之前能記錄完日志。因此,應(yīng)塞等待日志保存到穩(wěn)定存儲(chǔ)。志和悲觀日志相比,樂(lè)觀日志必須記錄多個(gè)檢查點(diǎn)導(dǎo)致垃圾外可能產(chǎn)生孤立進(jìn)程。說(shuō)明了樂(lè)觀日志協(xié)議。假設(shè) m5 相關(guān)的事件日志記錄到穩(wěn)定。此時(shí),P1 變成了孤立進(jìn)程,必須回滾取消接收 m6 的操作P0 取消接收到 m7 的操作。要正確執(zhí)行取消操作,必須記關(guān)系,以保證恢復(fù)到最近的全局一致?tīng)顟B(tài)。 樂(lè)觀日志必須圾回收算法相對(duì)復(fù)雜。如 P2 故障導(dǎo)致 P1 從檢查點(diǎn) B 恢 D 恢復(fù)。另外,輸出提交需要多個(gè)進(jìn)程協(xié)調(diào)而延遲輸出提
圖 2-1 悲觀日志協(xié)議模型志事件日志信息以易失性日志的形式臨時(shí)保存,然后周期地存觀日志樂(lè)觀地假設(shè)在發(fā)生故障之前能記錄完日志。因此,應(yīng)用阻塞等待日志保存到穩(wěn)定存儲(chǔ)。志和悲觀日志相比,樂(lè)觀日志必須記錄多個(gè)檢查點(diǎn)導(dǎo)致垃圾回另外可能產(chǎn)生孤立進(jìn)程。:說(shuō)明了樂(lè)觀日志協(xié)議。假設(shè) m5 相關(guān)的事件日志記錄到穩(wěn)定存障。此時(shí),P1 變成了孤立進(jìn)程,必須回滾取消接收 m6 的操作, P0 取消接收到 m7 的操作。要正確執(zhí)行取消操作,必須記錄賴關(guān)系,以保證恢復(fù)到最近的全局一致?tīng)顟B(tài)。 樂(lè)觀日志必須記垃圾回收算法相對(duì)復(fù)雜。如 P2 故障導(dǎo)致 P1 從檢查點(diǎn) B 恢復(fù)點(diǎn) D 恢復(fù)。另外,輸出提交需要多個(gè)進(jìn)程協(xié)調(diào)而延遲輸出提交
本文編號(hào):2788408
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2011
【分類號(hào)】:TP302.8
【圖文】:
圖 1-1 并行計(jì)算系統(tǒng)理劃分來(lái)看,分布式內(nèi)存和共享內(nèi)存是兩種基本的并行計(jì)算機(jī)存儲(chǔ)布式共享內(nèi)存同時(shí)也是一種越來(lái)越重要的并行計(jì)算機(jī)存儲(chǔ)方式。問(wèn)題在計(jì)算機(jī)中的地位越來(lái)越重要,現(xiàn)在計(jì)算機(jī)的性能在很大程度儲(chǔ)器,而且新型的計(jì)算機(jī)有可能采用以存儲(chǔ)器為中心而不是傳統(tǒng)的以心。共享內(nèi)存的并行計(jì)算機(jī)在編程上相對(duì)簡(jiǎn)單,容易使用,但是它有缺點(diǎn)就是擴(kuò)展性較差,不可能有太多的處理器共用相同的存儲(chǔ)器,這性訪問(wèn)和讀寫沖突等問(wèn)題會(huì)引起計(jì)算效率的降低。對(duì)于分布式內(nèi)存的其擴(kuò)展性較好,增加更多的處理器引起的問(wèn)題不會(huì)象共享內(nèi)存一樣樣的計(jì)算機(jī)上編寫并行程序相對(duì)較難。享內(nèi)存的并行計(jì)算機(jī);共享內(nèi)存的并行計(jì)算機(jī),通過(guò)對(duì)共享內(nèi)存的編程,實(shí)現(xiàn)起來(lái)相對(duì)簡(jiǎn)理單元通過(guò)對(duì)共享內(nèi)存的訪問(wèn)來(lái)交換信息、協(xié)調(diào)各處理器對(duì)并行任務(wù)享內(nèi)存往往成為性能,特別是擴(kuò)展性的重要瓶頸。
圖 2-1 悲觀日志協(xié)議模型志事件日志信息以易失性日志的形式臨時(shí)保存,然后周期地觀日志樂(lè)觀地假設(shè)在發(fā)生故障之前能記錄完日志。因此,應(yīng)塞等待日志保存到穩(wěn)定存儲(chǔ)。志和悲觀日志相比,樂(lè)觀日志必須記錄多個(gè)檢查點(diǎn)導(dǎo)致垃圾外可能產(chǎn)生孤立進(jìn)程。說(shuō)明了樂(lè)觀日志協(xié)議。假設(shè) m5 相關(guān)的事件日志記錄到穩(wěn)定。此時(shí),P1 變成了孤立進(jìn)程,必須回滾取消接收 m6 的操作P0 取消接收到 m7 的操作。要正確執(zhí)行取消操作,必須記關(guān)系,以保證恢復(fù)到最近的全局一致?tīng)顟B(tài)。 樂(lè)觀日志必須圾回收算法相對(duì)復(fù)雜。如 P2 故障導(dǎo)致 P1 從檢查點(diǎn) B 恢 D 恢復(fù)。另外,輸出提交需要多個(gè)進(jìn)程協(xié)調(diào)而延遲輸出提
圖 2-1 悲觀日志協(xié)議模型志事件日志信息以易失性日志的形式臨時(shí)保存,然后周期地存觀日志樂(lè)觀地假設(shè)在發(fā)生故障之前能記錄完日志。因此,應(yīng)用阻塞等待日志保存到穩(wěn)定存儲(chǔ)。志和悲觀日志相比,樂(lè)觀日志必須記錄多個(gè)檢查點(diǎn)導(dǎo)致垃圾回另外可能產(chǎn)生孤立進(jìn)程。:說(shuō)明了樂(lè)觀日志協(xié)議。假設(shè) m5 相關(guān)的事件日志記錄到穩(wěn)定存障。此時(shí),P1 變成了孤立進(jìn)程,必須回滾取消接收 m6 的操作, P0 取消接收到 m7 的操作。要正確執(zhí)行取消操作,必須記錄賴關(guān)系,以保證恢復(fù)到最近的全局一致?tīng)顟B(tài)。 樂(lè)觀日志必須記垃圾回收算法相對(duì)復(fù)雜。如 P2 故障導(dǎo)致 P1 從檢查點(diǎn) B 恢復(fù)點(diǎn) D 恢復(fù)。另外,輸出提交需要多個(gè)進(jìn)程協(xié)調(diào)而延遲輸出提交
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 石宣化;金海;羌衛(wèi)中;;通用網(wǎng)格容錯(cuò)框架研究[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年07期
2 董劍;左德承;劉宏偉;楊孝宗;;一種基于QoS的自適應(yīng)網(wǎng)格失效檢測(cè)器[J];軟件學(xué)報(bào);2006年11期
3 邱敏,桂小林;實(shí)現(xiàn)可靠計(jì)算的容錯(cuò)網(wǎng)格結(jié)構(gòu)[J];微電子學(xué)與計(jì)算機(jī);2005年07期
4 朱子玉,都志輝,李三立;機(jī)群系統(tǒng)LogP通信模型的測(cè)試與分析[J];小型微型計(jì)算機(jī)系統(tǒng);2002年08期
相關(guān)博士學(xué)位論文 前3條
1 田敬;對(duì)等存儲(chǔ)系統(tǒng)中的數(shù)據(jù)可用性與安全性研究[D];北京大學(xué);2007年
2 陳益峰;若干典型網(wǎng)格應(yīng)用的容錯(cuò)及性能研究[D];武漢大學(xué);2004年
3 田東;面向網(wǎng)格計(jì)算的動(dòng)態(tài)容錯(cuò)服務(wù)策略及相關(guān)算法研究[D];重慶大學(xué);2007年
本文編號(hào):2788408
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2788408.html
最近更新
教材專著