基于機器學(xué)習(xí)的E級系統(tǒng)故障預(yù)測關(guān)鍵技術(shù)研究
發(fā)布時間:2023-04-18 19:46
隨著科學(xué)工程應(yīng)用對高性能計算的需求不斷提升,實現(xiàn)E級計算機系統(tǒng)成為各科技強國下一步的科研目標(biāo)。由于新型使能技術(shù)尚未成熟,目前研制E級系統(tǒng)的基本手段仍為處理器集成。物理器件受到當(dāng)前制備工藝的限制,其可靠性難以保證或提升,然而隨著系統(tǒng)規(guī)模的進一步擴大,愈發(fā)頻繁的系統(tǒng)故障將使得系統(tǒng)可靠性面臨嚴(yán)峻的考驗。主流的回滾恢復(fù)容錯方法因其備份次數(shù)頻繁、備份信息多、恢復(fù)開銷大等不足,無法再適用于未來的E級系統(tǒng)。 本文著重從主動容錯的角度出發(fā),同時考慮將主動容錯方法與傳統(tǒng)被動容錯方法相結(jié)合,以應(yīng)對在大規(guī)模系統(tǒng)設(shè)計與實現(xiàn)過程中所存在的可靠墻問題。 本文首先構(gòu)建了結(jié)點級層次的自治主動容錯模型,接著結(jié)合被動容錯方法,提出了主被動容錯方式相融合的“先主動后被動”雙層次容錯方案。針對主動容錯過程中的故障預(yù)測這一關(guān)鍵環(huán)節(jié),本文構(gòu)建了基于機器學(xué)習(xí)的在線故障預(yù)測模型,并分別對其處理流程以及各系統(tǒng)結(jié)點的功能模塊框架進行了設(shè)計。 系統(tǒng)狀態(tài)信息的實時收集與處理是實現(xiàn)有效的故障預(yù)測的前提條件。本文設(shè)計并實現(xiàn)了結(jié)點狀態(tài)信息的實時采集及定期匯總方法,并配置其自動執(zhí)行,以支持動態(tài)、在線的故障預(yù)測過程。通過設(shè)計與實現(xiàn)IASF方法,本文對...
【文章頁數(shù)】:124 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題背景
1.2 大規(guī)模并行系統(tǒng)可靠性設(shè)計
1.2.1 國內(nèi)外研究現(xiàn)狀
1.2.2 容錯技術(shù)發(fā)展趨勢
1.3 課題研究內(nèi)容
1.3.1 課題來源
1.3.2 課題內(nèi)容與目標(biāo)
1.3.3 重點問題與創(chuàng)新點
1.4 論文結(jié)構(gòu)
第二章 基于機器學(xué)習(xí)的E 級系統(tǒng)容錯模型設(shè)計
2.1 故障與容錯
2.1.1 故障、差錯、失效
2.1.2 并行系統(tǒng)故障模型
2.1.3 容錯控制技術(shù)
2.1.4 冗余容錯方法
2.2 E 級系統(tǒng)的自治主被動容錯模型
2.2.1 現(xiàn)有容錯模型缺陷
2.2.2 結(jié)點級主動容錯模型
2.2.3 主被動融合的雙層次容錯模型
2.3 基于機器學(xué)習(xí)的E 級系統(tǒng)在線故障預(yù)測模型
2.3.1 機器學(xué)習(xí)技術(shù)
2.3.2 基于機器學(xué)習(xí)的在線故障預(yù)測模型
2.3.3 支持規(guī)模擴展的多學(xué)習(xí)結(jié)點系統(tǒng)模型
2.4 在線故障預(yù)測關(guān)鍵技術(shù)
2.5 本章小結(jié)
第三章 系統(tǒng)狀態(tài)信息的收集及預(yù)處理方法的設(shè)計與實現(xiàn)
3.1 系統(tǒng)狀態(tài)信息的采集
3.1.1 狀態(tài)信息描述
3.1.2 Linux 日志系統(tǒng)
3.1.3 結(jié)點日志采集
3.2 系統(tǒng)狀態(tài)信息的匯總
3.2.1 網(wǎng)絡(luò)及文件操作接口
3.2.2 日志文件收發(fā)的實現(xiàn)
3.2.3 日志收發(fā)過程的配置
3.3 系統(tǒng)日志信息的預(yù)處理
3.3.1 無用日志信息
3.3.2 相關(guān)方法介紹
3.3.3 IASF 方法的設(shè)計與實現(xiàn)
3.4 本章小結(jié)
第四章 系統(tǒng)狀態(tài)特征的獲取及提取方法的設(shè)計與實現(xiàn)
4.1 故障特征參數(shù)的設(shè)計
4.1.1 常用故障特征參數(shù)
4.1.2 基于系統(tǒng)日志的故障特征參數(shù)設(shè)計
4.2 日志特征參數(shù)的獲取
4.2.1 系統(tǒng)時間窗口的劃分與設(shè)定
4.2.2 日志故障特征參數(shù)的計算
4.2.3 故障特征參數(shù)集的構(gòu)建
4.3 故障特征參數(shù)的提取
4.3.1 主成分分析方法
4.3.2 線性判別分析方法
4.3.3 故障特征參數(shù)的提取方式
4.4 本章小結(jié)
第五章 故障預(yù)測規(guī)則的生成與應(yīng)用方法的設(shè)計與實現(xiàn)
5.1 故障特征參數(shù)的離散化
5.2 決策樹的機器學(xué)習(xí)方法
5.2.1 算法處理過程
5.2.2 算法程序?qū)崿F(xiàn)
5.3 基于決策樹的規(guī)則生成
5.4 故障預(yù)測規(guī)則生成的總體流程
5.5 基于規(guī)則的結(jié)點故障預(yù)測
5.6 本章小結(jié)
第六章 實驗測試與方法評估
6.1 實驗系統(tǒng)介紹
6.2 實驗測試流程
6.3 實驗測試結(jié)果
6.3.1 日志冗余信息過濾
6.3.2 故障特征參數(shù)提取
6.3.3 故障預(yù)測規(guī)則生成
6.3.4 系統(tǒng)結(jié)點故障預(yù)測
6.4 方法對比與評估
6.4.1 日志預(yù)處理方法評估
6.4.2 特征提取方法評估
6.4.3 故障預(yù)測模型參數(shù)評估
6.5 本章小結(jié)
結(jié)束語
致謝
參考文獻
作者在學(xué)期間取得的學(xué)術(shù)成果
本文編號:3792911
【文章頁數(shù)】:124 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題背景
1.2 大規(guī)模并行系統(tǒng)可靠性設(shè)計
1.2.1 國內(nèi)外研究現(xiàn)狀
1.2.2 容錯技術(shù)發(fā)展趨勢
1.3 課題研究內(nèi)容
1.3.1 課題來源
1.3.2 課題內(nèi)容與目標(biāo)
1.3.3 重點問題與創(chuàng)新點
1.4 論文結(jié)構(gòu)
第二章 基于機器學(xué)習(xí)的E 級系統(tǒng)容錯模型設(shè)計
2.1 故障與容錯
2.1.1 故障、差錯、失效
2.1.2 并行系統(tǒng)故障模型
2.1.3 容錯控制技術(shù)
2.1.4 冗余容錯方法
2.2 E 級系統(tǒng)的自治主被動容錯模型
2.2.1 現(xiàn)有容錯模型缺陷
2.2.2 結(jié)點級主動容錯模型
2.2.3 主被動融合的雙層次容錯模型
2.3 基于機器學(xué)習(xí)的E 級系統(tǒng)在線故障預(yù)測模型
2.3.1 機器學(xué)習(xí)技術(shù)
2.3.2 基于機器學(xué)習(xí)的在線故障預(yù)測模型
2.3.3 支持規(guī)模擴展的多學(xué)習(xí)結(jié)點系統(tǒng)模型
2.4 在線故障預(yù)測關(guān)鍵技術(shù)
2.5 本章小結(jié)
第三章 系統(tǒng)狀態(tài)信息的收集及預(yù)處理方法的設(shè)計與實現(xiàn)
3.1 系統(tǒng)狀態(tài)信息的采集
3.1.1 狀態(tài)信息描述
3.1.2 Linux 日志系統(tǒng)
3.1.3 結(jié)點日志采集
3.2 系統(tǒng)狀態(tài)信息的匯總
3.2.1 網(wǎng)絡(luò)及文件操作接口
3.2.2 日志文件收發(fā)的實現(xiàn)
3.2.3 日志收發(fā)過程的配置
3.3 系統(tǒng)日志信息的預(yù)處理
3.3.1 無用日志信息
3.3.2 相關(guān)方法介紹
3.3.3 IASF 方法的設(shè)計與實現(xiàn)
3.4 本章小結(jié)
第四章 系統(tǒng)狀態(tài)特征的獲取及提取方法的設(shè)計與實現(xiàn)
4.1 故障特征參數(shù)的設(shè)計
4.1.1 常用故障特征參數(shù)
4.1.2 基于系統(tǒng)日志的故障特征參數(shù)設(shè)計
4.2 日志特征參數(shù)的獲取
4.2.1 系統(tǒng)時間窗口的劃分與設(shè)定
4.2.2 日志故障特征參數(shù)的計算
4.2.3 故障特征參數(shù)集的構(gòu)建
4.3 故障特征參數(shù)的提取
4.3.1 主成分分析方法
4.3.2 線性判別分析方法
4.3.3 故障特征參數(shù)的提取方式
4.4 本章小結(jié)
第五章 故障預(yù)測規(guī)則的生成與應(yīng)用方法的設(shè)計與實現(xiàn)
5.1 故障特征參數(shù)的離散化
5.2 決策樹的機器學(xué)習(xí)方法
5.2.1 算法處理過程
5.2.2 算法程序?qū)崿F(xiàn)
5.3 基于決策樹的規(guī)則生成
5.4 故障預(yù)測規(guī)則生成的總體流程
5.5 基于規(guī)則的結(jié)點故障預(yù)測
5.6 本章小結(jié)
第六章 實驗測試與方法評估
6.1 實驗系統(tǒng)介紹
6.2 實驗測試流程
6.3 實驗測試結(jié)果
6.3.1 日志冗余信息過濾
6.3.2 故障特征參數(shù)提取
6.3.3 故障預(yù)測規(guī)則生成
6.3.4 系統(tǒng)結(jié)點故障預(yù)測
6.4 方法對比與評估
6.4.1 日志預(yù)處理方法評估
6.4.2 特征提取方法評估
6.4.3 故障預(yù)測模型參數(shù)評估
6.5 本章小結(jié)
結(jié)束語
致謝
參考文獻
作者在學(xué)期間取得的學(xué)術(shù)成果
本文編號:3792911
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3792911.html
最近更新
教材專著