MPI環(huán)境下多副本容錯(cuò)技術(shù)研究
本文關(guān)鍵詞:MPI環(huán)境下多副本容錯(cuò)技術(shù)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著科學(xué)與工程技術(shù)的發(fā)展,一些大規(guī)模數(shù)據(jù)的處理和計(jì)算問題隨之涌現(xiàn),例如目前人類所面臨的基因工程中DNA圖譜繪制、全球氣候的準(zhǔn)確預(yù)報(bào)、海洋洋流循環(huán)的計(jì)算等難題。這類問題使用一般的串行計(jì)算模型在有限時(shí)間內(nèi)已很難解決,而并行計(jì)算模型可以大大提高計(jì)算速度,成為解決這類問題的有效途徑。目前,并行計(jì)算已在計(jì)算密集型應(yīng)用領(lǐng)域得到了廣泛的運(yùn)用。并行計(jì)算在軟件上主要依靠編寫并行庫來實(shí)現(xiàn)。近些年來由于高速局域網(wǎng)技術(shù)的發(fā)展,基于消息傳遞模型的并行編程庫MPI由于其高效、可擴(kuò)展等優(yōu)點(diǎn)成為事實(shí)上的并行編程標(biāo)準(zhǔn)。隨著并行計(jì)算系統(tǒng)規(guī)模的增大,運(yùn)行時(shí)間的增長,基于MPI的計(jì)算系統(tǒng)發(fā)生故障的概率也隨之升高,而現(xiàn)有的MPI計(jì)算環(huán)境容錯(cuò)能力較差,發(fā)生節(jié)點(diǎn)失效時(shí)更是會(huì)直接導(dǎo)致整個(gè)程序的崩潰,所以MPI計(jì)算環(huán)境的容錯(cuò)問題成為了研究熱點(diǎn)。已有的MPI環(huán)境下容錯(cuò)技術(shù)包括檢查點(diǎn)/回滾技術(shù)和冗余技術(shù),這些解決方案都有一定的局限性:檢查點(diǎn)/回滾計(jì)術(shù)可靠性較低且在系統(tǒng)規(guī)模越來越大時(shí)有效工作時(shí)間所占比率會(huì)越來越。阂延械娜哂嗉夹g(shù)沒有考慮在異構(gòu)PC節(jié)點(diǎn)所搭建的MPI環(huán)境的執(zhí)行效率問題,執(zhí)行效率低下。本文基于MPI環(huán)境下已有的檢查點(diǎn)技術(shù)和冗余技術(shù),提出了一種多副本容錯(cuò)方案R-MPI。R-MPI采用層次化的檢測結(jié)構(gòu)和push檢測協(xié)議來檢測節(jié)點(diǎn)的失效行為;R-MPI使用多個(gè)物理節(jié)點(diǎn)作為一個(gè)邏輯組,執(zhí)行相同的計(jì)算任務(wù),向用戶提供透明的容錯(cuò)服務(wù),在邏輯組中任何一個(gè)物理節(jié)點(diǎn)失效的情況下,整個(gè)系統(tǒng)仍然能夠保證正常運(yùn)行。在邏輯組之間通信時(shí),R-MPI始終保證邏輯組中計(jì)算性能最高的節(jié)點(diǎn)作為執(zhí)行消息發(fā)送任務(wù)的節(jié)點(diǎn),從而提高了執(zhí)行效率。同時(shí)R-MPI還提供了靈活的冗余配置策略以及對(duì)動(dòng)態(tài)冗余的支持,進(jìn)一步提高了系統(tǒng)的可靠性。本文在所設(shè)計(jì)的冗余容錯(cuò)方案的基礎(chǔ)上,設(shè)計(jì)和實(shí)現(xiàn)了R-MPI原型系統(tǒng)。通過原型系統(tǒng)實(shí)驗(yàn)和大規(guī)模仿真實(shí)驗(yàn)與已有的冗余容錯(cuò)方案進(jìn)行對(duì)比評(píng)估。結(jié)果表明,相比于其他方案,本文的容錯(cuò)方案在保證系統(tǒng)可靠性的基礎(chǔ)上同時(shí)具有冗余消息少、執(zhí)行效率高的優(yōu)點(diǎn)。
【關(guān)鍵詞】:MPI并行計(jì)算 容錯(cuò) 冗余技術(shù) 高效
【學(xué)位授予單位】:東南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP302.8
【目錄】:
- 摘要5-6
- ABSTRACT6-11
- 第一章 緒論11-15
- 1.1 研究背景11-13
- 1.1.1 并行計(jì)算概述11-12
- 1.1.2 研究現(xiàn)狀12-13
- 1.1.3 研究目的和意義13
- 1.2 本文的主要工作13-14
- 1.3 論文組織結(jié)構(gòu)14-15
- 第二章 相關(guān)研究15-22
- 2.1 故障檢測15-17
- 2.1.1 檢測協(xié)議15-16
- 2.1.1.1 “推”協(xié)議和“拉”協(xié)議15-16
- 2.1.1.2 gossip協(xié)議16
- 2.1.2 檢測器結(jié)構(gòu)16-17
- 2.2 容錯(cuò)技術(shù)17-21
- 2.2.1 檢查點(diǎn)/回滾技術(shù)17
- 2.2.2 冗余技術(shù)17-20
- 2.2.3 現(xiàn)有容錯(cuò)技術(shù)小結(jié)20-21
- 2.3 本章小結(jié)21-22
- 第三章 R-MPI的系統(tǒng)模型22-28
- 3.1 問題描述22-23
- 3.2 系統(tǒng)模型23-27
- 3.2.1 符號(hào)/名稱描述23-24
- 3.2.2 故障模型24-25
- 3.2.3 系統(tǒng)結(jié)構(gòu)模型25-26
- 3.2.4 消息交互模型26-27
- 3.3 本章小結(jié)27-28
- 第四章 R-MPI冗余容錯(cuò)設(shè)計(jì)28-36
- 4.1 冗余系統(tǒng)發(fā)生故障的概率分析28-30
- 4.1.1 靜態(tài)冗余系統(tǒng)的故障概率分析28-29
- 4.1.2 動(dòng)態(tài)冗余系統(tǒng)的故障概率分析29-30
- 4.2 R-MPI的冗余容錯(cuò)協(xié)議30-35
- 4.2.1 邏輯組的創(chuàng)建31
- 4.2.2 過濾器的設(shè)計(jì)31-32
- 4.2.3 無節(jié)點(diǎn)失效時(shí)的容錯(cuò)協(xié)議32-33
- 4.2.4 有節(jié)點(diǎn)失效時(shí)的容錯(cuò)協(xié)議33-35
- 4.2.4.1 節(jié)點(diǎn)失效的檢測34
- 4.2.4.2 失效節(jié)點(diǎn)退出邏輯組34
- 4.2.4.3 新節(jié)點(diǎn)加入邏輯組34-35
- 4.3 R-MPI冗余容錯(cuò)策略小結(jié)35
- 4.4 本章小結(jié)35-36
- 第五章 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)36-50
- 5.1 系統(tǒng)概述36
- 5.2 系統(tǒng)設(shè)計(jì)36-41
- 5.2.1 R-MPI總控模塊的設(shè)計(jì)36-37
- 5.2.2 R-MPI控制模塊的設(shè)計(jì)37-38
- 5.2.3 R-MPI監(jiān)控模塊的設(shè)計(jì)38-39
- 5.2.4 R-MPI協(xié)調(diào)模塊的設(shè)計(jì)39-40
- 5.2.5 MPI接口函數(shù)設(shè)計(jì)40
- 5.2.6 可配置冗余的設(shè)計(jì)40-41
- 5.3 系統(tǒng)實(shí)現(xiàn)41-48
- 5.3.1 總控模塊的實(shí)現(xiàn)42-43
- 5.3.2 控制模塊的實(shí)現(xiàn)43-44
- 5.3.3 監(jiān)控模塊的實(shí)現(xiàn)44-45
- 5.3.4 協(xié)調(diào)模塊的實(shí)現(xiàn)45
- 5.3.5 MPI接口函數(shù)的實(shí)現(xiàn)45-48
- 5.4 本章小結(jié)48-50
- 第六章 實(shí)驗(yàn)評(píng)估與分析50-58
- 6.1 實(shí)驗(yàn)環(huán)境50
- 6.2 實(shí)驗(yàn)方法50-51
- 6.2.1 原型系統(tǒng)實(shí)驗(yàn)51
- 6.2.2 系統(tǒng)仿真實(shí)驗(yàn)51
- 6.3 實(shí)驗(yàn)結(jié)果以及分析51-57
- 6.3.1 原型系統(tǒng)實(shí)驗(yàn)51-56
- 6.3.1.1 效率對(duì)比實(shí)驗(yàn)51-54
- 6.3.1.2 容錯(cuò)能力實(shí)驗(yàn)54-55
- 6.3.1.3 有效消息占比55-56
- 6.3.2 大規(guī)模仿真實(shí)驗(yàn)56-57
- 6.4 本章小結(jié)57-58
- 第七章 總結(jié)與展望58-59
- 7.1 論文總結(jié)58
- 7.2 未來工作58-59
- 參考文獻(xiàn)59-62
- 致謝62
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 ;未雨綢繆話容錯(cuò)技術(shù)[J];計(jì)算機(jī)與網(wǎng)絡(luò);2004年06期
2 夏祖德;雷鏡湖;;硬件容錯(cuò)技術(shù)[J];電子技術(shù);1987年10期
3 周修廉;陳是榮;;分布式計(jì)算機(jī)系統(tǒng)容錯(cuò)技術(shù)[J];哈爾濱科學(xué)技術(shù)大學(xué)學(xué)報(bào);1987年03期
4 梁思禮;容錯(cuò)技術(shù)在航天領(lǐng)域中的應(yīng)用[J];系統(tǒng)工程與電子技術(shù);1993年12期
5 陳萬福;查新檢索工作中的容錯(cuò)理論與容錯(cuò)技術(shù)[J];醫(yī)學(xué)情報(bào)工作;2001年05期
6 鄭平;;容錯(cuò)技術(shù)在數(shù)據(jù)集中系統(tǒng)中的應(yīng)用[J];金融電子化;2001年11期
7 蒙建波,吳銀成,楊俊永;容錯(cuò)技術(shù)與儀表的發(fā)展[J];儀器儀表學(xué)報(bào);2002年S3期
8 黎珊珊;實(shí)時(shí)分布式計(jì)算機(jī)系統(tǒng)的容錯(cuò)技術(shù)研究[J];計(jì)算機(jī)與數(shù)字工程;2002年06期
9 張郭軍,王榮;網(wǎng)絡(luò)服務(wù)器的容錯(cuò)技術(shù)[J];渭南師范學(xué)院學(xué)報(bào);2002年05期
10 ;揭密容錯(cuò)技術(shù)的前世今生[J];計(jì)算機(jī)與網(wǎng)絡(luò);2004年16期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 蒙建波;吳銀成;楊俊永;;容錯(cuò)技術(shù)與儀表的發(fā)展[A];第三次全國會(huì)員代表大會(huì)暨學(xué)術(shù)會(huì)議論文集[C];2002年
2 王東盛;;容錯(cuò)技術(shù)在衛(wèi)星控制系統(tǒng)中的應(yīng)用[A];第十屆全國容錯(cuò)計(jì)算學(xué)術(shù)會(huì)議論文集[C];2003年
3 李衛(wèi)東;;容錯(cuò)技術(shù)在梅鋼的應(yīng)用[A];全國冶金自動(dòng)化信息網(wǎng)2012年年會(huì)論文集[C];2012年
4 龐海洋;李新明;;軟件容錯(cuò)[A];第十屆全國容錯(cuò)計(jì)算學(xué)術(shù)會(huì)議論文集[C];2003年
5 閔應(yīng)驊;;網(wǎng)絡(luò)容錯(cuò)與安全研究述評(píng)[A];第十屆全國容錯(cuò)計(jì)算學(xué)術(shù)會(huì)議論文集[C];2003年
6 于洪濤;黃文軒;王和;;一種雙機(jī)容錯(cuò)方案及其應(yīng)用[A];開創(chuàng)新世紀(jì)的通信技術(shù)——第七屆全國青年通信學(xué)術(shù)會(huì)議論文集[C];2001年
7 龔健;楊孟飛;;硬件進(jìn)化系統(tǒng)的容錯(cuò)性研究[A];第十四屆全國容錯(cuò)計(jì)算學(xué)術(shù)會(huì)議(CFTC'2011)論文集[C];2011年
8 歐陽一鳴;余雅瓊;郭凱;;基于同構(gòu)片上網(wǎng)絡(luò)拓?fù)淇芍貥?gòu)的容錯(cuò)硬件結(jié)構(gòu)[A];第六屆中國測試學(xué)術(shù)會(huì)議論文集[C];2010年
9 羅宏;宿紅毅;戰(zhàn)守義;;無線傳感器網(wǎng)絡(luò)故障診斷與容錯(cuò)技術(shù)研究進(jìn)展[A];第八屆全國信息獲取與處理學(xué)術(shù)會(huì)議論文集[C];2010年
10 高航;羅宇;;RTEMS上基于軟件重算的容錯(cuò)支撐設(shè)計(jì)研究[A];2008年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(下冊)[C];2008年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 艾先;容錯(cuò)技術(shù)掃描[N];中國貿(mào)易報(bào);2004年
2 ;容錯(cuò)技術(shù)的發(fā)展與應(yīng)用展望[N];計(jì)算機(jī)世界;2001年
3 劉雨;讓容錯(cuò)服務(wù)器“平民化”[N];中國計(jì)算機(jī)報(bào);2007年
4 常文杰;新容錯(cuò)浪潮[N];網(wǎng)絡(luò)世界;2004年
5 胡志敏;“雙核”容錯(cuò)服務(wù)器來了[N];政府采購信息報(bào);2007年
6 ;容錯(cuò)技術(shù)應(yīng)用前景[N];中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào);2004年
7 孔令男;容錯(cuò)技術(shù)高端商用領(lǐng)域的核心[N];中國國門時(shí)報(bào);2004年
8 遼河石油勘探局物資公司 趙雁 林斌;存儲(chǔ)容錯(cuò):魚與熊掌可以兼得[N];中國計(jì)算機(jī)報(bào);2010年
9 記者劉雨;Stratus 加大中國行業(yè)市場拓展[N];中國計(jì)算機(jī)報(bào);2003年
10 樊強(qiáng);容錯(cuò)服務(wù)器 服務(wù)未來[N];中國電腦教育報(bào);2004年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 黃達(dá);基于憶阻器的自治容錯(cuò)技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2014年
2 李旭;基于非易失內(nèi)存的高性能計(jì)算容錯(cuò)技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2013年
3 劉玲霞;Web服務(wù)容錯(cuò)關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2006年
4 林勇;基于進(jìn)化型硬件的容錯(cuò)方法研究[D];中國科學(xué)技術(shù)大學(xué);2007年
5 孫曉星;面向方面的軟件容錯(cuò)模型設(shè)計(jì)與分析技術(shù)[D];華東理工大學(xué);2012年
6 李海山;面向恢復(fù)的容錯(cuò)計(jì)算技術(shù)研究[D];哈爾濱工程大學(xué);2007年
7 肖勇;面向航天的多源信息流系統(tǒng)綜合診斷與容錯(cuò)研究[D];東華大學(xué);2010年
8 趙天緒;集成電路缺陷分布模型和容錯(cuò)技術(shù)研究[D];西安電子科技大學(xué);1999年
9 朱萍;硬實(shí)時(shí)容錯(cuò)調(diào)度算法研究[D];華中科技大學(xué);2011年
10 徐建軍;面向寄存器軟錯(cuò)誤的容錯(cuò)編譯技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 鄭福真;高擴(kuò)展高容錯(cuò)流式處理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];浙江大學(xué);2015年
2 吳方軍;MPI環(huán)境下多副本容錯(cuò)技術(shù)研究[D];東南大學(xué);2015年
3 代征;彈性函數(shù)在彈性容錯(cuò)技術(shù)中的應(yīng)用研究[D];武漢大學(xué);2004年
4 吳代賢;移動(dòng)Agent的容錯(cuò)方法研究[D];西南師范大學(xué);2004年
5 張國強(qiáng);星載并行處理計(jì)算機(jī)系統(tǒng)容錯(cuò)技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2006年
6 王博偉;嵌入分布系統(tǒng)多模式容錯(cuò)技術(shù)研究[D];西北工業(yè)大學(xué);2007年
7 張小麗;機(jī)電產(chǎn)品容錯(cuò)糾錯(cuò)設(shè)計(jì)與仿真技術(shù)研究[D];電子科技大學(xué);2009年
8 張淑燕;基于嵌入式多核平臺(tái)的并行冗余線程容錯(cuò)技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年
9 陸永平;公安網(wǎng)環(huán)境下拜占庭故障模型容錯(cuò)技術(shù)研究[D];大連理工大學(xué);2013年
10 琚巍巍;分布式存儲(chǔ)系統(tǒng)容錯(cuò)技術(shù)的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年
本文關(guān)鍵詞:MPI環(huán)境下多副本容錯(cuò)技術(shù)研究,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):269483
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/269483.html