面向OpenFOAM的消息日志容錯技術(shù)研究
發(fā)布時間:2020-03-03 14:08
【摘要】:計算流體力學的飛速發(fā)展需要高性能的并行計算系統(tǒng),然而高性能計算機的發(fā)展面臨著嚴重的可靠性問題。為使得大型CFD計算程序在故障頻發(fā)的運算平臺上繼續(xù)保持可用性與擴展性,我們需要為其設計高效易用的容錯機制。OpenFOAM是CFD領(lǐng)域編程框架的典型代表,用戶可以通過書寫近似自然語言的方式對CFD應用進行描述,從而在OpenFOAM平臺上開發(fā)出可運行的CFD并行模擬程序,實現(xiàn)對底層并行細節(jié)的屏蔽。從可編程的角度看,這類開發(fā)方式是目前CFD并行編程的一個很有吸引力的發(fā)展趨勢。但OpenFOAM現(xiàn)有的自容錯機制開銷大,且需要用戶值守。因此本文著眼于為OpenFOAM引入異步在線恢復容錯思想,并為此設計配套的容錯框架。本文的主要工作與創(chuàng)新點體現(xiàn)在:一、設計實現(xiàn)了基于OpenFOAM的容錯框架(第二章)借鑒OpenFOAM的設計初衷,我們設計的容錯框架僅要求領(lǐng)域用戶修改配置文件,以類自然語言的形式選擇所期望的容錯機制方法,并設定相應的參數(shù);而具體容錯機制方法以及相關(guān)優(yōu)化技術(shù)的實現(xiàn)則由計算機專家在框架中選擇合理位置插裝完成,減輕了領(lǐng)域用戶的容錯負擔。二、為OpenFOAM引入了異步在線恢復的容錯思想(第二章)本文基于協(xié)同檢查點機制與用戶級消息日志協(xié)議構(gòu)建容錯框架,為OpenFOAM引入了異步恢復的容錯思想,即僅自動回滾錯誤進程,從而有效地節(jié)省了恢復過程中的總體CPU時間開銷,同時避免產(chǎn)生多米諾效應與孤兒進程。三、提出了用戶級消息日志協(xié)議,革新了組通信的容錯方法(第三章)用戶級消息日志將傳統(tǒng)實現(xiàn)在MPI庫級或以下的消息日志提升至用戶代碼層,從而給消息日志的容錯方式與容錯能力帶來了如下三點改進:?以用戶級語句代碼為粒度記錄歸約通信消息,屏蔽了歸約通信在MPI庫級的實現(xiàn)細節(jié)。從而減小了歸約通信的消息日志及恢復開銷?消息日志與MPI庫的實現(xiàn)不再耦合,保證了用戶級消息日志的可移植性。?利用用戶級通信語句的確定性,安全地取消了傳統(tǒng)消息日志中的事件日志機制,進一步減小了歸約通信與點對點通信的容錯開銷。四、NPB與MD模擬實驗驗證了容錯思路的正確性與有效性(第五章)本文在TH1-A上運行NPB與OpenFOAM分子動力學模擬例程MDFOAM,實驗結(jié)果證明:與現(xiàn)有傳統(tǒng)消息日志與OpenFOAM的自容錯機制相比,用戶級消息日志協(xié)議與異步在線恢復容錯框架有效減低了容錯開銷,加快了故障后的恢復速度。
【學位授予單位】:國防科學技術(shù)大學
【學位級別】:碩士
【學位授予年份】:2013
【分類號】:TP302.8
,
本文編號:2584489
【學位授予單位】:國防科學技術(shù)大學
【學位級別】:碩士
【學位授予年份】:2013
【分類號】:TP302.8
,
本文編號:2584489
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2584489.html
最近更新
教材專著