容錯(cuò)并行算法的研究與分析
發(fā)布時(shí)間:2023-09-18 19:31
隨著系統(tǒng)規(guī)模的增加,大規(guī)模并行計(jì)算機(jī)的平均故障間隔時(shí)間遠(yuǎn)低于許多大規(guī)?茖W(xué)應(yīng)用的運(yùn)行時(shí)間,因此大規(guī)?茖W(xué)應(yīng)用必須能夠容忍硬件錯(cuò)誤。傳統(tǒng)的回滾恢復(fù)協(xié)議是目前大規(guī)模系統(tǒng)中常用的容錯(cuò)技術(shù),在恢復(fù)時(shí)失效進(jìn)程上的計(jì)算全部在一個(gè)處理器上重算。這是對(duì)計(jì)算資源的浪費(fèi),也使得恢復(fù)時(shí)間不可能小于前一個(gè)檢查點(diǎn)和故障發(fā)生時(shí)刻之間的時(shí)間間隔。 為了縮短故障恢復(fù)時(shí)間,本文提出了一種新的容錯(cuò)方法:容錯(cuò)并行算法。文章從容錯(cuò)并行算法的理論基礎(chǔ)、概念、設(shè)計(jì)方法及支撐工具等幾個(gè)方法對(duì)容錯(cuò)并行算法進(jìn)行了深入的研究,并對(duì)容錯(cuò)并行算法的性能進(jìn)行了分析和測(cè)試。本文所做的創(chuàng)新工作主要體現(xiàn)在以下幾點(diǎn): 1、給出了并行計(jì)算在系統(tǒng)出現(xiàn)故障的情況下的可靠性定義,并基于任務(wù)依賴(lài)圖給出了并行計(jì)算可靠性的定量分析方法;基于此分析方法,分析和比較了時(shí)間冗余和空間冗余的容錯(cuò)技術(shù)對(duì)并行計(jì)算可靠性的影響。 2、為了縮短故障恢復(fù)時(shí)間,有效提高并行計(jì)算的可靠性,提出了一種新的容錯(cuò)方法:容錯(cuò)并行算法。容錯(cuò)并行算法執(zhí)行時(shí)在數(shù)據(jù)保存段保存計(jì)算的中間狀態(tài)以保證故障時(shí)正確的復(fù)算;發(fā)生故障時(shí)未發(fā)生故障的處理器通過(guò)在線的方式感知故障處理機(jī)的故障,并自動(dòng)通過(guò)并行復(fù)算恢復(fù)故障...
【文章頁(yè)數(shù)】:136 頁(yè)
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 大規(guī)模系統(tǒng)的可靠性問(wèn)題
1.1.1 單芯片處理器制造工藝不斷發(fā)展
1.1.2 大規(guī)模系統(tǒng)的規(guī)模不斷增加
1.1.3 大規(guī)模系統(tǒng)的可靠性受到挑戰(zhàn)
1.1.4 軟件實(shí)現(xiàn)的硬件容錯(cuò)
1.2 容錯(cuò)研究基礎(chǔ)
1.2.1 基本概念
1.2.2 并行程序的故障類(lèi)型
1.3 課題研究?jī)?nèi)容
1.3.1 課題來(lái)源
1.3.2 課題研究重點(diǎn)
1.3.3 課題研究難點(diǎn)
1.4 相關(guān)研究工作
1.4.1 Checkpointing 技術(shù).
1.4.2 消息日志
1.4.3 MPI 容錯(cuò)
1.4.4 基于算法的容錯(cuò)
1.4.5 其它工作
1.5 本文的主要工作和創(chuàng)新
1.6 論文結(jié)構(gòu)
第二章 并行計(jì)算的可靠性分析
2.1 面向可靠性分析的并行程序任務(wù)依賴(lài)圖模型
2.1.1 任務(wù)依賴(lài)圖模型的提出
2.1.2 并行程序的任務(wù)依賴(lài)圖模型
2.1.3 任務(wù)依賴(lài)圖的組成
2.2 并行計(jì)算的可靠性計(jì)算
2.2.1 規(guī)則和定律
2.2.2 任務(wù)結(jié)點(diǎn)可靠度的計(jì)算
2.2.3 并行計(jì)算可靠度的計(jì)算
2.3 并行計(jì)算的容錯(cuò)技術(shù)分析
2.3.1 時(shí)間冗余技術(shù)
2.3.2 空間冗余技術(shù)
2.3.3 冗余技術(shù)討論
2.4 小結(jié)
第三章 容錯(cuò)并行算法的概念與設(shè)計(jì)方法
3.1 基本思想
3.1.1 一個(gè)例子
3.1.2 與傳統(tǒng)方法的比較
3.2 容錯(cuò)并行算法的概念
3.3 設(shè)計(jì)方法
3.3.1 程序段的劃分
3.3.2 故障檢測(cè)段的設(shè)計(jì)方法
3.3.3 數(shù)據(jù)保存段的設(shè)計(jì)方法
3.3.4 復(fù)算段的設(shè)計(jì)方法
3.4 小結(jié)
第四章 容錯(cuò)并行算法的設(shè)計(jì)與分析
4.1 容錯(cuò)并行算法的分類(lèi)
4.2 矩陣LU 分解的容錯(cuò)并行算法.
4.2.1 矩陣LU 分解的算法描述.
4.2.2 矩陣LU 分解的容錯(cuò)并行算法設(shè)計(jì)與分析.
4.3 快速傅里葉變換的容錯(cuò)并行算法
4.3.1 快速傅里葉變換的算法描述
4.3.2 FFT 的容錯(cuò)并行算法設(shè)計(jì)與分析
4.4 排序算法的容錯(cuò)并行算法
4.4.1 桶排序的算法描述
4.4.2 桶排序的容錯(cuò)并行算法設(shè)計(jì)與分析
4.5 小結(jié)
第五章 容錯(cuò)并行算法的編譯輔助工具
5.1 程序段選擇的實(shí)現(xiàn)
5.2 故障檢測(cè)段的實(shí)現(xiàn)
5.3 狀態(tài)保存段的實(shí)現(xiàn)
5.3.1 控制流分析
5.3.2 數(shù)據(jù)流分析
5.3.3 保存代碼生成
5.4 復(fù)算段的實(shí)現(xiàn)
5.4.1 恢復(fù)數(shù)據(jù)代碼生成
5.4.2 并行復(fù)算代碼生成
5.5 小結(jié)
第六章 容錯(cuò)并行算法的性能分析與實(shí)驗(yàn)
6.1 容錯(cuò)并行算法的開(kāi)銷(xiāo)來(lái)源
6.2 容錯(cuò)并行算法的性能度量
6.2.1 執(zhí)行時(shí)間
6.2.2 加速比
6.2.3 效率
6.3 系統(tǒng)參數(shù)對(duì)容錯(cuò)并行算法性能的影響
6.3.1 程序段的運(yùn)行時(shí)間對(duì)性能的影響
6.3.2 數(shù)據(jù)保存開(kāi)銷(xiāo)對(duì)性能的影響
6.3.3 故障率對(duì)性能的影響
6.3.4 并行復(fù)算加速比對(duì)性能的影響
6.4 實(shí)驗(yàn)配置
6.5 實(shí)驗(yàn)性能
6.6 實(shí)驗(yàn)結(jié)論
6.7 小結(jié)
第七章 結(jié)束語(yǔ)
7.1 工作總結(jié)
7.2 研究展望
致謝
參考文獻(xiàn)
攻讀博士學(xué)位期間已發(fā)表和待發(fā)表的論文
攻讀博士學(xué)位期間參與的科研項(xiàng)目
本文編號(hào):3848146
【文章頁(yè)數(shù)】:136 頁(yè)
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 大規(guī)模系統(tǒng)的可靠性問(wèn)題
1.1.1 單芯片處理器制造工藝不斷發(fā)展
1.1.2 大規(guī)模系統(tǒng)的規(guī)模不斷增加
1.1.3 大規(guī)模系統(tǒng)的可靠性受到挑戰(zhàn)
1.1.4 軟件實(shí)現(xiàn)的硬件容錯(cuò)
1.2 容錯(cuò)研究基礎(chǔ)
1.2.1 基本概念
1.2.2 并行程序的故障類(lèi)型
1.3 課題研究?jī)?nèi)容
1.3.1 課題來(lái)源
1.3.2 課題研究重點(diǎn)
1.3.3 課題研究難點(diǎn)
1.4 相關(guān)研究工作
1.4.1 Checkpointing 技術(shù).
1.4.2 消息日志
1.4.3 MPI 容錯(cuò)
1.4.4 基于算法的容錯(cuò)
1.4.5 其它工作
1.5 本文的主要工作和創(chuàng)新
1.6 論文結(jié)構(gòu)
第二章 并行計(jì)算的可靠性分析
2.1 面向可靠性分析的并行程序任務(wù)依賴(lài)圖模型
2.1.1 任務(wù)依賴(lài)圖模型的提出
2.1.2 并行程序的任務(wù)依賴(lài)圖模型
2.1.3 任務(wù)依賴(lài)圖的組成
2.2 并行計(jì)算的可靠性計(jì)算
2.2.1 規(guī)則和定律
2.2.2 任務(wù)結(jié)點(diǎn)可靠度的計(jì)算
2.2.3 并行計(jì)算可靠度的計(jì)算
2.3 并行計(jì)算的容錯(cuò)技術(shù)分析
2.3.1 時(shí)間冗余技術(shù)
2.3.2 空間冗余技術(shù)
2.3.3 冗余技術(shù)討論
2.4 小結(jié)
第三章 容錯(cuò)并行算法的概念與設(shè)計(jì)方法
3.1 基本思想
3.1.1 一個(gè)例子
3.1.2 與傳統(tǒng)方法的比較
3.2 容錯(cuò)并行算法的概念
3.3 設(shè)計(jì)方法
3.3.1 程序段的劃分
3.3.2 故障檢測(cè)段的設(shè)計(jì)方法
3.3.3 數(shù)據(jù)保存段的設(shè)計(jì)方法
3.3.4 復(fù)算段的設(shè)計(jì)方法
3.4 小結(jié)
第四章 容錯(cuò)并行算法的設(shè)計(jì)與分析
4.1 容錯(cuò)并行算法的分類(lèi)
4.2 矩陣LU 分解的容錯(cuò)并行算法.
4.2.1 矩陣LU 分解的算法描述.
4.2.2 矩陣LU 分解的容錯(cuò)并行算法設(shè)計(jì)與分析.
4.3 快速傅里葉變換的容錯(cuò)并行算法
4.3.1 快速傅里葉變換的算法描述
4.3.2 FFT 的容錯(cuò)并行算法設(shè)計(jì)與分析
4.4 排序算法的容錯(cuò)并行算法
4.4.1 桶排序的算法描述
4.4.2 桶排序的容錯(cuò)并行算法設(shè)計(jì)與分析
4.5 小結(jié)
第五章 容錯(cuò)并行算法的編譯輔助工具
5.1 程序段選擇的實(shí)現(xiàn)
5.2 故障檢測(cè)段的實(shí)現(xiàn)
5.3 狀態(tài)保存段的實(shí)現(xiàn)
5.3.1 控制流分析
5.3.2 數(shù)據(jù)流分析
5.3.3 保存代碼生成
5.4 復(fù)算段的實(shí)現(xiàn)
5.4.1 恢復(fù)數(shù)據(jù)代碼生成
5.4.2 并行復(fù)算代碼生成
5.5 小結(jié)
第六章 容錯(cuò)并行算法的性能分析與實(shí)驗(yàn)
6.1 容錯(cuò)并行算法的開(kāi)銷(xiāo)來(lái)源
6.2 容錯(cuò)并行算法的性能度量
6.2.1 執(zhí)行時(shí)間
6.2.2 加速比
6.2.3 效率
6.3 系統(tǒng)參數(shù)對(duì)容錯(cuò)并行算法性能的影響
6.3.1 程序段的運(yùn)行時(shí)間對(duì)性能的影響
6.3.2 數(shù)據(jù)保存開(kāi)銷(xiāo)對(duì)性能的影響
6.3.3 故障率對(duì)性能的影響
6.3.4 并行復(fù)算加速比對(duì)性能的影響
6.4 實(shí)驗(yàn)配置
6.5 實(shí)驗(yàn)性能
6.6 實(shí)驗(yàn)結(jié)論
6.7 小結(jié)
第七章 結(jié)束語(yǔ)
7.1 工作總結(jié)
7.2 研究展望
致謝
參考文獻(xiàn)
攻讀博士學(xué)位期間已發(fā)表和待發(fā)表的論文
攻讀博士學(xué)位期間參與的科研項(xiàng)目
本文編號(hào):3848146
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3848146.html
最近更新
教材專(zhuān)著