天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機(jī)論文 >

超級計算機(jī)故障分析、建模與預(yù)測技術(shù)研究

發(fā)布時間:2020-10-24 05:58
   隨著超級計算機(jī)的快速發(fā)展,系統(tǒng)規(guī)模和復(fù)雜度也越來越大,系統(tǒng)可靠性和容錯能力面臨著巨大挑戰(zhàn)。無論是基于故障預(yù)測技術(shù)的前瞻式避錯,還是基于檢查點技術(shù)的被動式容錯,或者提升系統(tǒng)可靠性的調(diào)度技術(shù),都需要對系統(tǒng)故障特征的精細(xì)的定性與定量描述,以及有效的故障預(yù)測方法。本文深入研究了神威藍(lán)光(基于多核)與太湖之光(基于異構(gòu)眾核)兩臺典型的超級計算機(jī)的失效特征,提出了若干面向超級計算機(jī)的故障分析新方法,發(fā)現(xiàn)了若干以前尚未發(fā)現(xiàn)的超級計算機(jī)的故障發(fā)生特征與規(guī)律,建立了適用于超級計算機(jī)的故障分布與容錯模型,并提出了有效的故障預(yù)測方法。本文的主要貢獻(xiàn)及創(chuàng)新如下:1、針對超級計算機(jī)中分散、多樣、瞬時、不確定性和不可回溯性的系統(tǒng)故障,提出了面向超級計算機(jī)的可擴(kuò)展故障監(jiān)控、采集和分析框架,主要包括:基于分布式基礎(chǔ)設(shè)施,提出了一種基于事件觸發(fā)的可擴(kuò)展?fàn)顟B(tài)監(jiān)控與采集模型,能夠?qū)崟r、高效地獲取大規(guī)模并行系統(tǒng)的故障狀態(tài)信息。實驗表明,該狀態(tài)監(jiān)測模型的實時性能與系統(tǒng)規(guī)模無關(guān),可面向大規(guī)模并行系統(tǒng)實現(xiàn)20秒以下的故障狀態(tài)發(fā)現(xiàn)。在故障傳感點設(shè)置和故障數(shù)據(jù)處理方法基礎(chǔ)上,建立了基于統(tǒng)計數(shù)據(jù)的故障分析體系,能夠有效分析和發(fā)現(xiàn)超級計算機(jī)故障的特征及影響因素。通過故障分析發(fā)現(xiàn),由CPU、內(nèi)存和互連系統(tǒng)組成的主機(jī)系統(tǒng),是超級計算機(jī)的主要失效來源。2、針對超級計算機(jī)中主要故障之一的內(nèi)存故障的特征分析問題,提出了基于序列模式挖掘的內(nèi)存故障關(guān)聯(lián)分析方法。該方法建立與內(nèi)存故障關(guān)聯(lián)對應(yīng)的的序列規(guī)則模型,基于超級計算機(jī)主機(jī)系統(tǒng)的內(nèi)存故障大數(shù)據(jù),能夠有效分析主機(jī)系統(tǒng)CPU節(jié)點上內(nèi)存單錯與內(nèi)存多錯、內(nèi)存失效序列與后續(xù)內(nèi)存失效的關(guān)聯(lián)關(guān)系,并發(fā)現(xiàn)了以前尚未發(fā)現(xiàn)的影響系統(tǒng)容錯設(shè)計和內(nèi)存失效預(yù)測的關(guān)鍵性結(jié)論。該結(jié)論包括:DRAM單錯不會導(dǎo)致DRAM多錯;CPU節(jié)點的內(nèi)存失效序列可能會導(dǎo)致該CPU節(jié)點上內(nèi)存失效繼續(xù)發(fā)生。3、針對超級計算機(jī)中主要計算部件故障發(fā)生的影響因素問題,提出了一種統(tǒng)計規(guī)律與協(xié)同分析相結(jié)合的故障特征識別方法。該方法設(shè)定或選擇針對性實驗環(huán)境,根據(jù)統(tǒng)計數(shù)據(jù)發(fā)現(xiàn)并驗證了主要計算部件的故障發(fā)生規(guī)律,識別了系統(tǒng)中主要計算部件可靠性和故障發(fā)生的關(guān)鍵影響因素。該結(jié)論包括:DRAM單錯與作業(yè)無關(guān),與CPU節(jié)點或DRAM的可靠性有關(guān);內(nèi)存失效的發(fā)生可能與內(nèi)存芯片自身的可靠性特性有關(guān);單純的計算密集型應(yīng)用對CPU故障或CPU失效的影響最小等。4、針對超級計算機(jī)中主要計算部件的失效時間定量描述的問題,按照時間和空間維度分析超級計算機(jī)的失效數(shù)據(jù),建立了適應(yīng)于超級計算機(jī)的多維度統(tǒng)一的失效時間模型,該模型主要包括:統(tǒng)一的CPU節(jié)點內(nèi)存失效時間模型;適用于CPU節(jié)點、計算插件卡和主機(jī)計算機(jī)系統(tǒng)的多維統(tǒng)一的失效時間模型。應(yīng)用該模型,進(jìn)行了可靠性評估;并結(jié)合失效預(yù)測應(yīng)用場景,建立了基于失效間隔時間的失效預(yù)測模型,分析了應(yīng)用與求解方法。該模型包括:CPU節(jié)點的內(nèi)存失效間隔時間可以用對數(shù)正態(tài)(Lognormal)分布定量描述。威布爾(Weibull)分布在多維空間上與實際失效間隔時間最符合。5、針對超級計算機(jī)中的檢查點容錯未能與實際運行環(huán)境可靠性相匹配造成的檢查點開銷較大的問題,提出了數(shù)據(jù)驅(qū)動的自適應(yīng)容錯模型。該模型基于細(xì)粒度資源的失效時間分布,建立了面向超級計算機(jī)復(fù)雜故障的多層失效模型;根據(jù)數(shù)據(jù)反映出的系統(tǒng)動態(tài)故障特征,提出了數(shù)據(jù)驅(qū)動的自適應(yīng)容錯方法,并設(shè)計了自適應(yīng)優(yōu)化算法。通過對神威太湖之光系統(tǒng)的容錯實驗分析,驗證了數(shù)據(jù)驅(qū)動自適應(yīng)容錯模型及檢查點優(yōu)化方法的有效性。數(shù)據(jù)分析表明,最優(yōu)化檢查點間隔相對經(jīng)驗檢查點間隔時間,可有效降低檢查點容錯的開銷。6、針對超級計算機(jī)中主動容錯技術(shù)所需的精確故障預(yù)測難題,提出了一種基于帶時間標(biāo)簽多序列模式挖掘的故障預(yù)測算法。該算法基于串行winepi算法,并進(jìn)行了面向多序列的擴(kuò)展和完善,采用滑動窗口方法,在時間窗口約束下,在帶時間標(biāo)簽多序列上挖掘序列模式關(guān)聯(lián)規(guī)則,實現(xiàn)了對故障發(fā)生位置及時間的預(yù)測。在神威超級計算機(jī)中的故障預(yù)測分析顯示,使用該算法生成的預(yù)測規(guī)則置信度較好,可以有效預(yù)測超級計算機(jī)中的故障,預(yù)測準(zhǔn)確率在60%~99%。
【學(xué)位單位】:戰(zhàn)略支援部隊信息工程大學(xué)
【學(xué)位級別】:博士
【學(xué)位年份】:2018
【中圖分類】:TP338
【部分圖文】:

超級計算機(jī)故障分析、建模與預(yù)測技術(shù)研究


美國NCSIE級計算項目路線圖[21]

經(jīng)驗分布,間隔時間,整機(jī)


Bluegene/LGene/L 是由 IBM 負(fù)責(zé)建造的峰值性能 596 teraFLOPS 的超級計用雙核處理器,并通過 3D torus 網(wǎng)絡(luò)進(jìn)行互連[22]。它是 IBM計算機(jī)的典型代表。[7]分析了 BlueGene/L 系統(tǒng)的失效特征,介紹了其 RAS 時間日處理。通過數(shù)據(jù)分析發(fā)現(xiàn)系統(tǒng)失效的時間和空間統(tǒng)計特征,來隨后,通過統(tǒng)計發(fā)生失效的作業(yè)中非嚴(yán)重事件之后發(fā)生嚴(yán)重事件嚴(yán)重事件的預(yù)測。但未建立適合 Bluegene/L 的失效間隔時間

框架圖,失效預(yù)測,動態(tài)學(xué)習(xí),框架


圖 2. 3 失效預(yù)測的動態(tài)學(xué)習(xí)框架[23]egene/P/P 是 IBM 開發(fā)的第二代 Bluegene 架構(gòu)超級計算機(jī),三倍。Bluegene/P 與 Bluegene/L 最大的不同是,ymmetric multiple processor)和加入了 3D torus4]中提出了針對 BlueGene/P 系統(tǒng)的失效預(yù)測時序模遺傳算法來優(yōu)化預(yù)測規(guī)則的生成。但研究中并沒有給
【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 李亞娟;王瑤;陳巖;秦爽;;計算機(jī)科學(xué)技術(shù)的應(yīng)用及發(fā)展趨勢[J];計算機(jī)產(chǎn)品與流通;2018年10期

2 張悠然;;淺析計算機(jī)科學(xué)與技術(shù)的發(fā)展趨勢[J];中國民商;2018年10期

3 王康為;;淺析數(shù)學(xué)在計算機(jī)領(lǐng)域中的應(yīng)用[J];中國戰(zhàn)略新興產(chǎn)業(yè);2018年08期

4 趙麗榮;;計算機(jī)科學(xué)技術(shù)現(xiàn)狀總結(jié)及前景展望[J];信息與電腦(理論版);2018年08期

5 雷前瓊;;智能建筑中計算機(jī)科學(xué)與技術(shù)的應(yīng)用[J];信息與電腦(理論版);2018年16期

6 魏寧;;“不插電的計算機(jī)科學(xué)”,你試過嗎?[J];中國信息技術(shù)教育;2015年11期

7 張渝江;;編程:一項培養(yǎng)未來人才的基本素養(yǎng)[J];中小學(xué)信息技術(shù)教育;2017年02期

8 張紅;;認(rèn)知機(jī)器人:通往智慧之路[J];中小學(xué)信息技術(shù)教育;2017年08期

9 周麗麗;;在游戲中學(xué)習(xí),在快樂中收獲——“不插電的計算機(jī)科學(xué)”應(yīng)用嘗試[J];中國信息技術(shù)教育;2017年17期

10 王麗;;淺析離散數(shù)學(xué)在計算機(jī)科學(xué)中的應(yīng)用[J];數(shù)學(xué)學(xué)習(xí)與研究;2011年09期


相關(guān)博士學(xué)位論文 前1條

1 劉睿濤;超級計算機(jī)故障分析、建模與預(yù)測技術(shù)研究[D];戰(zhàn)略支援部隊信息工程大學(xué);2018年


相關(guān)碩士學(xué)位論文 前10條

1 蘭碧瑩;《大學(xué)計算機(jī)》SPOC課程內(nèi)容設(shè)計研究[D];東北師范大學(xué);2018年

2 曹中奇;就業(yè)視閾下的高校計算機(jī)本科專業(yè)建設(shè)研究[D];渤海大學(xué);2018年

3 楊帆;《計算機(jī)與翻譯:譯者指南》(第八章)漢譯實踐研究報告[D];西北大學(xué);2018年

4 張琳琳;《計算機(jī)科學(xué)中的倫理:簡明模塊》(9-10章)翻譯報告[D];華南理工大學(xué);2017年

5 郭鳳嬌;情報學(xué)與計算機(jī)科學(xué)的學(xué)科交叉研究[D];山東理工大學(xué);2014年

6 李嵐;略論時態(tài)邏輯在計算機(jī)科學(xué)中的發(fā)展[D];華東師范大學(xué);2013年

7 俞鷹英;高中信息科技教學(xué)中滲透計算機(jī)科學(xué)史的實踐研究[D];上海師范大學(xué);2013年

8 魏麗娜;《計算機(jī)科學(xué)導(dǎo)論》(節(jié)選)翻譯報告[D];華南理工大學(xué);2016年

9 袁月;計算機(jī)單字及字庫的著作權(quán)保護(hù)研究[D];天津大學(xué);2016年

10 時承凱;計算機(jī)科學(xué)學(xué)術(shù)影響力排名系統(tǒng)的設(shè)計與實現(xiàn)[D];上海交通大學(xué);2014年



本文編號:2854103

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2854103.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶11731***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com