天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 計算機論文 >

超級計算機故障分析、建模與預測技術研究

發(fā)布時間:2020-10-24 05:58
   隨著超級計算機的快速發(fā)展,系統(tǒng)規(guī)模和復雜度也越來越大,系統(tǒng)可靠性和容錯能力面臨著巨大挑戰(zhàn)。無論是基于故障預測技術的前瞻式避錯,還是基于檢查點技術的被動式容錯,或者提升系統(tǒng)可靠性的調度技術,都需要對系統(tǒng)故障特征的精細的定性與定量描述,以及有效的故障預測方法。本文深入研究了神威藍光(基于多核)與太湖之光(基于異構眾核)兩臺典型的超級計算機的失效特征,提出了若干面向超級計算機的故障分析新方法,發(fā)現(xiàn)了若干以前尚未發(fā)現(xiàn)的超級計算機的故障發(fā)生特征與規(guī)律,建立了適用于超級計算機的故障分布與容錯模型,并提出了有效的故障預測方法。本文的主要貢獻及創(chuàng)新如下:1、針對超級計算機中分散、多樣、瞬時、不確定性和不可回溯性的系統(tǒng)故障,提出了面向超級計算機的可擴展故障監(jiān)控、采集和分析框架,主要包括:基于分布式基礎設施,提出了一種基于事件觸發(fā)的可擴展狀態(tài)監(jiān)控與采集模型,能夠實時、高效地獲取大規(guī)模并行系統(tǒng)的故障狀態(tài)信息。實驗表明,該狀態(tài)監(jiān)測模型的實時性能與系統(tǒng)規(guī)模無關,可面向大規(guī)模并行系統(tǒng)實現(xiàn)20秒以下的故障狀態(tài)發(fā)現(xiàn)。在故障傳感點設置和故障數據處理方法基礎上,建立了基于統(tǒng)計數據的故障分析體系,能夠有效分析和發(fā)現(xiàn)超級計算機故障的特征及影響因素。通過故障分析發(fā)現(xiàn),由CPU、內存和互連系統(tǒng)組成的主機系統(tǒng),是超級計算機的主要失效來源。2、針對超級計算機中主要故障之一的內存故障的特征分析問題,提出了基于序列模式挖掘的內存故障關聯(lián)分析方法。該方法建立與內存故障關聯(lián)對應的的序列規(guī)則模型,基于超級計算機主機系統(tǒng)的內存故障大數據,能夠有效分析主機系統(tǒng)CPU節(jié)點上內存單錯與內存多錯、內存失效序列與后續(xù)內存失效的關聯(lián)關系,并發(fā)現(xiàn)了以前尚未發(fā)現(xiàn)的影響系統(tǒng)容錯設計和內存失效預測的關鍵性結論。該結論包括:DRAM單錯不會導致DRAM多錯;CPU節(jié)點的內存失效序列可能會導致該CPU節(jié)點上內存失效繼續(xù)發(fā)生。3、針對超級計算機中主要計算部件故障發(fā)生的影響因素問題,提出了一種統(tǒng)計規(guī)律與協(xié)同分析相結合的故障特征識別方法。該方法設定或選擇針對性實驗環(huán)境,根據統(tǒng)計數據發(fā)現(xiàn)并驗證了主要計算部件的故障發(fā)生規(guī)律,識別了系統(tǒng)中主要計算部件可靠性和故障發(fā)生的關鍵影響因素。該結論包括:DRAM單錯與作業(yè)無關,與CPU節(jié)點或DRAM的可靠性有關;內存失效的發(fā)生可能與內存芯片自身的可靠性特性有關;單純的計算密集型應用對CPU故障或CPU失效的影響最小等。4、針對超級計算機中主要計算部件的失效時間定量描述的問題,按照時間和空間維度分析超級計算機的失效數據,建立了適應于超級計算機的多維度統(tǒng)一的失效時間模型,該模型主要包括:統(tǒng)一的CPU節(jié)點內存失效時間模型;適用于CPU節(jié)點、計算插件卡和主機計算機系統(tǒng)的多維統(tǒng)一的失效時間模型。應用該模型,進行了可靠性評估;并結合失效預測應用場景,建立了基于失效間隔時間的失效預測模型,分析了應用與求解方法。該模型包括:CPU節(jié)點的內存失效間隔時間可以用對數正態(tài)(Lognormal)分布定量描述。威布爾(Weibull)分布在多維空間上與實際失效間隔時間最符合。5、針對超級計算機中的檢查點容錯未能與實際運行環(huán)境可靠性相匹配造成的檢查點開銷較大的問題,提出了數據驅動的自適應容錯模型。該模型基于細粒度資源的失效時間分布,建立了面向超級計算機復雜故障的多層失效模型;根據數據反映出的系統(tǒng)動態(tài)故障特征,提出了數據驅動的自適應容錯方法,并設計了自適應優(yōu)化算法。通過對神威太湖之光系統(tǒng)的容錯實驗分析,驗證了數據驅動自適應容錯模型及檢查點優(yōu)化方法的有效性。數據分析表明,最優(yōu)化檢查點間隔相對經驗檢查點間隔時間,可有效降低檢查點容錯的開銷。6、針對超級計算機中主動容錯技術所需的精確故障預測難題,提出了一種基于帶時間標簽多序列模式挖掘的故障預測算法。該算法基于串行winepi算法,并進行了面向多序列的擴展和完善,采用滑動窗口方法,在時間窗口約束下,在帶時間標簽多序列上挖掘序列模式關聯(lián)規(guī)則,實現(xiàn)了對故障發(fā)生位置及時間的預測。在神威超級計算機中的故障預測分析顯示,使用該算法生成的預測規(guī)則置信度較好,可以有效預測超級計算機中的故障,預測準確率在60%~99%。
【學位單位】:戰(zhàn)略支援部隊信息工程大學
【學位級別】:博士
【學位年份】:2018
【中圖分類】:TP338
【部分圖文】:

超級計算機故障分析、建模與預測技術研究


美國NCSIE級計算項目路線圖[21]

經驗分布,間隔時間,整機


Bluegene/LGene/L 是由 IBM 負責建造的峰值性能 596 teraFLOPS 的超級計用雙核處理器,并通過 3D torus 網絡進行互連[22]。它是 IBM計算機的典型代表。[7]分析了 BlueGene/L 系統(tǒng)的失效特征,介紹了其 RAS 時間日處理。通過數據分析發(fā)現(xiàn)系統(tǒng)失效的時間和空間統(tǒng)計特征,來隨后,通過統(tǒng)計發(fā)生失效的作業(yè)中非嚴重事件之后發(fā)生嚴重事件嚴重事件的預測。但未建立適合 Bluegene/L 的失效間隔時間

框架圖,失效預測,動態(tài)學習,框架


圖 2. 3 失效預測的動態(tài)學習框架[23]egene/P/P 是 IBM 開發(fā)的第二代 Bluegene 架構超級計算機,三倍。Bluegene/P 與 Bluegene/L 最大的不同是,ymmetric multiple processor)和加入了 3D torus4]中提出了針對 BlueGene/P 系統(tǒng)的失效預測時序模遺傳算法來優(yōu)化預測規(guī)則的生成。但研究中并沒有給
【相似文獻】

相關期刊論文 前10條

1 李亞娟;王瑤;陳巖;秦爽;;計算機科學技術的應用及發(fā)展趨勢[J];計算機產品與流通;2018年10期

2 張悠然;;淺析計算機科學與技術的發(fā)展趨勢[J];中國民商;2018年10期

3 王康為;;淺析數學在計算機領域中的應用[J];中國戰(zhàn)略新興產業(yè);2018年08期

4 趙麗榮;;計算機科學技術現(xiàn)狀總結及前景展望[J];信息與電腦(理論版);2018年08期

5 雷前瓊;;智能建筑中計算機科學與技術的應用[J];信息與電腦(理論版);2018年16期

6 魏寧;;“不插電的計算機科學”,你試過嗎?[J];中國信息技術教育;2015年11期

7 張渝江;;編程:一項培養(yǎng)未來人才的基本素養(yǎng)[J];中小學信息技術教育;2017年02期

8 張紅;;認知機器人:通往智慧之路[J];中小學信息技術教育;2017年08期

9 周麗麗;;在游戲中學習,在快樂中收獲——“不插電的計算機科學”應用嘗試[J];中國信息技術教育;2017年17期

10 王麗;;淺析離散數學在計算機科學中的應用[J];數學學習與研究;2011年09期


相關博士學位論文 前1條

1 劉睿濤;超級計算機故障分析、建模與預測技術研究[D];戰(zhàn)略支援部隊信息工程大學;2018年


相關碩士學位論文 前10條

1 蘭碧瑩;《大學計算機》SPOC課程內容設計研究[D];東北師范大學;2018年

2 曹中奇;就業(yè)視閾下的高校計算機本科專業(yè)建設研究[D];渤海大學;2018年

3 楊帆;《計算機與翻譯:譯者指南》(第八章)漢譯實踐研究報告[D];西北大學;2018年

4 張琳琳;《計算機科學中的倫理:簡明模塊》(9-10章)翻譯報告[D];華南理工大學;2017年

5 郭鳳嬌;情報學與計算機科學的學科交叉研究[D];山東理工大學;2014年

6 李嵐;略論時態(tài)邏輯在計算機科學中的發(fā)展[D];華東師范大學;2013年

7 俞鷹英;高中信息科技教學中滲透計算機科學史的實踐研究[D];上海師范大學;2013年

8 魏麗娜;《計算機科學導論》(節(jié)選)翻譯報告[D];華南理工大學;2016年

9 袁月;計算機單字及字庫的著作權保護研究[D];天津大學;2016年

10 時承凱;計算機科學學術影響力排名系統(tǒng)的設計與實現(xiàn)[D];上海交通大學;2014年



本文編號:2854103

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2854103.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶11731***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com