消息傳遞系統(tǒng)容錯技術(shù)研究
發(fā)布時間:2020-09-25 07:05
集群系統(tǒng)具有結(jié)構(gòu)可擴展性好、性價比高等特性,己經(jīng)成為并行處理發(fā)展的一個重要分支。但是隨著集群應(yīng)用領(lǐng)域的拓展、集群規(guī)模的不斷擴大,以及網(wǎng)格的出現(xiàn),人們對其可靠性也有了更高的要求。在集群系統(tǒng)上運行的通常都是大規(guī)模、長時間、以消息傳遞技術(shù)實現(xiàn)的并行科學(xué)計算程序,缺乏必要的容錯措施時,某種異常或故障的發(fā)生會導(dǎo)致一次計算的徹底失敗,大量的工作付諸東流,F(xiàn)有的消息傳遞系統(tǒng)如MPI本身都未提供從失敗中自動恢復(fù)過來的機制,研究其容錯技術(shù)就成為當(dāng)前集群系統(tǒng)發(fā)展的急需。 檢查點設(shè)置及卷回恢復(fù)是一種典型的軟件容錯技術(shù),也是避免失敗時大量地浪費機時的有效手段。然而,為并行程序設(shè)置檢查點要比為單個進程設(shè)置檢查點復(fù)雜得多,因為在消息傳遞系統(tǒng)中,消息的傳遞使得進程之間存在依賴性。如何獲取全局一致的可恢復(fù)狀態(tài)是并行檢查點機制在消息傳遞系統(tǒng)中應(yīng)用的難題。此外,節(jié)點失效或進程出錯會引起并行程序失敗退出,必須手動重新從檢查點啟動程序;有時進程出錯會導(dǎo)致懸空程序。因此,對節(jié)點和進程進行錯誤探測并在出錯時實現(xiàn)自動恢復(fù)也是并行計算容錯技術(shù)的一個重要部分。 本文首先對卷回恢復(fù)協(xié)議進行較為全面的研究,并對目前已有的協(xié)同式檢查點協(xié)議進行分析和對比。我們認為,阻塞和控制消息的數(shù)量是影響協(xié)同式檢查點協(xié)議開銷的兩個主要因素。針對協(xié)同式檢查點協(xié)議的現(xiàn)狀問題,本文提出了一個可重建的全局檢查點的概念和基于可重建檢查點的非阻塞協(xié)同式檢查點協(xié)議。該協(xié)議將進程在運行過程中的狀態(tài)分為三種,并使用捎帶消息技術(shù)和非阻塞的方法,減少了用于協(xié)同的控制消息的數(shù)量。該協(xié)議利用并行程序運行過程中卷回恢復(fù)的概率遠小于設(shè)置檢查點的概率的特性,將檢查點設(shè)置所引入的大部分開銷轉(zhuǎn)至卷回恢復(fù)階段,在很大程度上減少了并行程序使用檢查點機制所引入的開銷。 其次,本文通過對一個進程管理組件MPD的分析和研究,在MPD中加入了錯誤探測和自動恢復(fù)的功能,克服了因發(fā)生錯誤而手動重啟和懸空程序的問題。加入錯誤探測和自動恢復(fù)后的MPD系統(tǒng)稱為MPD/FT。MPD/FT通過對節(jié)點和進程的監(jiān)控,能夠及時探測到節(jié)點失效和進程錯誤的發(fā)生,快速進行自動恢復(fù)。 最后,本文討論了在MPICH2中實現(xiàn)的基于可重建檢查點的非阻塞協(xié)同式檢查點協(xié)議、基于消息驅(qū)趕的SS協(xié)議和基于消息計數(shù)的SS協(xié)議的開銷對比。實驗結(jié)果表明,基于可重建檢查點的非阻塞協(xié)同式檢查點協(xié)議的開銷明顯低于其它兩個協(xié)議。
【學(xué)位單位】:國防科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2006
【中圖分類】:TP302.8
【部分圖文】:
國防科學(xué)技術(shù)大學(xué)研究生院學(xué)位論文程環(huán)傳遞信號,manager 進程再將信號發(fā)送給 client 進程。一個機器上的單進程一樣,可以使用 Ctrl-Z 命令掛起、繼-C 殺死。定向 IO。Mananger 進程捕捉它們的 client 進程的標準輸(stderr),并通過 Manager 二叉樹(如圖 3.5)傳送到 0傳送給 console 進程顯示出來,每條顯示都會有 client 進程層 Manager 進程將輸出傳送給連接的上層 Manager 進程, 號 Manager 進程發(fā)送給 console 進程顯示出來。
本文編號:2826395
【學(xué)位單位】:國防科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2006
【中圖分類】:TP302.8
【部分圖文】:
國防科學(xué)技術(shù)大學(xué)研究生院學(xué)位論文程環(huán)傳遞信號,manager 進程再將信號發(fā)送給 client 進程。一個機器上的單進程一樣,可以使用 Ctrl-Z 命令掛起、繼-C 殺死。定向 IO。Mananger 進程捕捉它們的 client 進程的標準輸(stderr),并通過 Manager 二叉樹(如圖 3.5)傳送到 0傳送給 console 進程顯示出來,每條顯示都會有 client 進程層 Manager 進程將輸出傳送給連接的上層 Manager 進程, 號 Manager 進程發(fā)送給 console 進程顯示出來。
【引證文獻】
相關(guān)期刊論文 前1條
1 李飛飛;;基于MPI并行程序的容錯系統(tǒng)設(shè)計[J];電腦知識與技術(shù);2011年04期
相關(guān)碩士學(xué)位論文 前1條
1 孟祥坤;基于Linux用戶級進程檢查點系統(tǒng)的設(shè)計與實現(xiàn)[D];山東大學(xué);2012年
本文編號:2826395
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2826395.html
最近更新
教材專著