一種基于日志結(jié)合分析的集群系統(tǒng)失效預(yù)測方法
本文關(guān)鍵詞:一種基于日志結(jié)合分析的集群系統(tǒng)失效預(yù)測方法 出處:《高技術(shù)通訊》2016年06期 論文類型:期刊論文
更多相關(guān)文章: 大規(guī)模集群系統(tǒng) 系統(tǒng)日志 作業(yè)日志 日志分析 失效預(yù)測
【摘要】:研究了大規(guī)模超級計算機群系統(tǒng)的失效預(yù)測。針對現(xiàn)有的單一分析系統(tǒng)日志的方法不僅需要復(fù)雜的分布式數(shù)據(jù)挖掘技術(shù),而且失效預(yù)測的召回率普遍不高的問題,提出了一種通過將記載集群系統(tǒng)負(fù)載變化的作業(yè)日志同系統(tǒng)日志結(jié)合起來分析來進行失效預(yù)測的方法。該方法的原理如下:首先,通過對原始系統(tǒng)日志和作業(yè)日志進行預(yù)處理和過濾,分別得到細(xì)粒度的二維的事件序列和作業(yè)序列;然后從中抽取出在系統(tǒng)日志的失效事件發(fā)生前作業(yè)日志所表現(xiàn)出的三種典型失效征兆;最后,利用失效征兆進行失效預(yù)測。在真實的IBM Blue Gene/P系統(tǒng)的系統(tǒng)日志和作業(yè)日志上的實驗結(jié)果表明,基于兩種日志結(jié)合分析的方法能以較高的準(zhǔn)確率和召回率實現(xiàn)細(xì)粒度的失效預(yù)測。
[Abstract]:Failure prediction large-scale super computer group system is studied. According to the analysis method of single log system requires not only the existing complex distributed data mining technology, and the recall rate of failure prediction is generally not high, the paper presents a method for failure prediction of the recorded cluster system load changes with the job log system log the combined analysis. The principle of the method is as follows: firstly, through preprocessing and filtering of the original system logs and logs are two-dimensional fine-grained event sequence and operation sequence; then extracted from three typical failure events in the system log before the job log shows signs of failure finally, the failure prediction; using the failure sign. In the system log log IBM Blue Gene/P system and work on the real experimental results show that the base Two methods of log combined analysis can achieve fine-grained failure prediction with higher accuracy and recall.
【作者單位】: 計算機體系結(jié)構(gòu)國家重點實驗室;中國科學(xué)院計算技術(shù)研究所;中國科學(xué)院研究生院;
【基金】:863計劃(2015AA015308) 973計劃(2014CB340402)資助項目
【分類號】:TP338
【正文快照】: 0引言大規(guī)模集群系統(tǒng)是云計算和高性能計算的常用平臺。隨著越來越多傳統(tǒng)的社交和經(jīng)濟活動被搬到互聯(lián)網(wǎng)上,數(shù)據(jù)中心的計算任務(wù)變得日益復(fù)雜,超級計算機也正朝著百億億次級(exascale)的規(guī)模發(fā)展,相應(yīng)地,大規(guī)模集群系統(tǒng)的失效(failure)則成了大規(guī)模集群系統(tǒng)的常態(tài)[1]。可靠性與
【相似文獻(xiàn)】
相關(guān)期刊論文 前4條
1 許波;檀潤華;郭迪明;劉麗峰;;擴展的失效預(yù)測模板研究及其工程應(yīng)用[J];機械設(shè)計;2013年10期
2 李剛;謝永成;李光升;程延偉;;改進型灰色模型在鉛蓄電池失效預(yù)測中的應(yīng)用[J];電子測量技術(shù);2011年05期
3 張殿鋒;閆相禎;;基于統(tǒng)計學(xué)習(xí)理論的山前構(gòu)造帶推覆帶鉆具失效預(yù)測[J];石油礦場機械;2012年08期
4 ;[J];;年期
相關(guān)會議論文 前2條
1 張玉芳;鄧永容;;玻璃鋼管的失效分析及失效預(yù)測技術(shù)[A];復(fù)合材料的現(xiàn)狀與發(fā)展——第十一屆全國復(fù)合材料學(xué)術(shù)會議論文集[C];2000年
2 偶國富;鄭智劍;金浩哲;曹晶;黃軍輝;謝浩平;楊波;;復(fù)雜特種設(shè)備系統(tǒng)流動腐蝕預(yù)測及工程應(yīng)用[A];中國機械工程學(xué)會壓力容器分會第七屆壓力容器及管道使用管理學(xué)術(shù)會議暨使用管理委員會七屆二次會議論文集[C];2011年
相關(guān)碩士學(xué)位論文 前5條
1 張紹震;基于日志文件的在線系統(tǒng)失效預(yù)測[D];浙江理工大學(xué);2016年
2 葛珊珊;新型鉗制器設(shè)計與失效預(yù)測研究[D];華中科技大學(xué);2014年
3 鄭從環(huán);在線軟件系統(tǒng)的失效預(yù)測[D];浙江理工大學(xué);2015年
4 王彩琴;臥輥磨主要構(gòu)件的強度分析和失效預(yù)測[D];武漢理工大學(xué);2007年
5 佟曉剛;汽車齒輪失效預(yù)測的可行性研究[D];哈爾濱理工大學(xué);2006年
,本文編號:1385008
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1385008.html