對于大規(guī)模系統(tǒng)日志的日志模式提煉算法的優(yōu)化

發(fā)布時間：2019-10-13 18:52

【摘要】：LARGE框架是部署在中國科學(xué)院超級計算環(huán)境中的日志分析系統(tǒng),通過日志收集、集中分析、結(jié)果反饋等步驟對環(huán)境中的各種日志文件進(jìn)行監(jiān)控和分析。在對環(huán)境中系統(tǒng)日志的監(jiān)控過程中,系統(tǒng)維護(hù)人員需要通過日志模式提煉算法將大量的過往系統(tǒng)日志記錄縮減為少量的日志模式集合。然而隨著日志規(guī)模的增長以及messages日志文件的特殊性,原有的日志模式提煉算法已經(jīng)難以滿足對大規(guī)模日志快速處理的需要。介紹了一種對于日志模式提煉算法的優(yōu)化方法,通過引入MapReduce機(jī)制實現(xiàn)在存在多個日志輸入文件的情況下對日志處理和模式提煉的流程進(jìn)行加速。實驗表明,當(dāng)輸入文件較多時,該優(yōu)化方法能夠顯著提高詞匯一致率算法的運行速度,大幅減少運行時間。此外,還對使用詞匯轉(zhuǎn)換函數(shù)時的算法運行時間和提煉效果進(jìn)行了驗證。
【圖文】：

系統(tǒng)結(jié)構(gòu)圖,系統(tǒng)結(jié)構(gòu),日志,日志分析

ｕｃｅ機(jī)制的優(yōu)化方法；第５節(jié)是對于該優(yōu)化方法的實際效果的測試和討論；第６節(jié)將對日志分析方面的相關(guān)研究做一些簡介；在第７節(jié)中對將來的研究方向進(jìn)行簡單的展望。２ＬＡＲＧＥ系統(tǒng)簡介網(wǎng)格環(huán)境日志分析框架ＬＡＲＧＥ是針對中國科學(xué)院超級計算環(huán)境中各類日志進(jìn)行分析處理的框架式結(jié)構(gòu)，它定義了框架內(nèi)各模塊的工作內(nèi)容以及整個日志分析流程的數(shù)據(jù)傳輸流向和處理步驟。ＬＡＲＧＥ的基本結(jié)構(gòu)和工作流程圖如圖１所示。Ｆｉｇｕｒｅ１ＳｔｒｕｃｔｕｒｅｏｆｔｈｅＬＡＲＧＥｓｙｓｔｅｍ圖１ＬＡＲＧＥ系統(tǒng)結(jié)構(gòu)在ＬＡＲＧＥ中存在三個主要模塊，分別是日志采集模塊、日志分析模塊和結(jié)果反饋模塊。日志采集模塊的工作是將網(wǎng)格環(huán)境內(nèi)各種日志從它們的生成設(shè)備上傳輸?shù)饺罩痉治瞿K的設(shè)備上。作為框架設(shè)計，ＬＡＲＧＥ不會具體定義傳輸方法，相關(guān)人員可以視環(huán)境情況來選擇合適的傳輸方式。通常情況下一般的數(shù)據(jù)采集程序就可以完成這部分工作，在特殊情況下也可以手動執(zhí)行日志采集流程。日志分析模塊的主要工作是對采集到的日志進(jìn)行集中處理并得出分析結(jié)果，通常可能包含的處理步驟包括：（１）對從多個設(shè)備上采集到的日志進(jìn)行分類。（２）對日志數(shù)據(jù)的內(nèi)容進(jìn)行解碼并將其重組為更便于理解和處理的數(shù)據(jù)結(jié)構(gòu)。（３）對日志進(jìn)行篩選過濾，將某項分析所不需要的日志數(shù)據(jù)移除。根據(jù)不同的分析方式，同一數(shù)據(jù)集可能會做不同的篩選處理。（４）對篩選后的日志數(shù)據(jù)應(yīng)用多種維度的統(tǒng)計和分析方法，并生成階段性分析結(jié)果。８２２ＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇ＆Ｓｃｉｅｎｃｅ計算機(jī)工程與科學(xué)２０１７，３９（５）

日志,步驟,模式,詞匯轉(zhuǎn)換

件（即類似Ｍａ－ｐＲｅｄｕｃｅ中的Ｍａｐ步驟）。根據(jù)所使用的設(shè)備的條件，可以設(shè)定同時運行的最大線程數(shù)，例如在一臺四核的計算機(jī)上設(shè)定最大線程數(shù)為４就可以保證性能最優(yōu)化，同理在八核計算機(jī)上可以設(shè)定線程數(shù)為８，而如果程序是在一個分布式環(huán)境中運行，就相當(dāng)于實現(xiàn)了真正的ＭａｐＲｅｄｕｃｅ機(jī)制。在所有原日志文件的類Ｍａｐ步驟結(jié)束后，開始執(zhí)行一個類Ｒｅｄｕｃｅ步驟的線程對所有中間結(jié)果文件再次執(zhí)行詞匯一致率算法，最終得到的集合就是從全部文件提煉出的日志模式集合，如圖２所示。采用這種機(jī)制后，提煉日志的時間就大幅度縮短了。Ｆｉｇｕｒｅ２ＰｒｏｃｅｓｓｏｆＭａｐＲｅｄｕｃｅ－ｌｉｋｅｌｏｇｐａｔｔｅｒｎｅｘｔｒａｃｔｉｏｎ圖２類ＭａｐＲｅｄｕｃｅ機(jī)制的日志模式提煉步驟對于內(nèi)存地址等大量存在的內(nèi)容有異但類型相同的詞匯，我們嘗試在日志輸入步驟中加入詞匯轉(zhuǎn)換函數(shù)來減小提煉結(jié)果的規(guī)模。在之前的測試中［４］，詞匯轉(zhuǎn)換函數(shù)被認(rèn)為對詞匯一致率算法的效果提升比較有限的同時增加了運行時間，因此被認(rèn)為不應(yīng)加入到提煉過程中。然而，，面對ｍｅｓｓａｇｅｓ日志文件中的內(nèi)存地址，詞匯轉(zhuǎn)換函數(shù)可能是一種有效的應(yīng)對方式，它可以將內(nèi)容有差異的同類詞匯轉(zhuǎn)換成一個代表這種類型的固定詞匯。對應(yīng)ｍｅｓｓａｇｅｓ日志中的幾種常見類型詞匯，擴(kuò)展后的詞匯轉(zhuǎn)換函數(shù)規(guī)則如表１所示。使用詞匯轉(zhuǎn)換函數(shù)會對程序運行時間形成一定程度的增加，而其對于ｍｅｓｓａｇｅｓ日志模式提煉的效果是否有顯著的成效則有待驗證。由于使用了類ＭａｐＲｅｄｕｃｅ機(jī)制的優(yōu)化，當(dāng)輸入文件數(shù)量較多時，程序節(jié)省的整體運行時間大于使用詞匯轉(zhuǎn)換函數(shù)
【作者單位】：中國科學(xué)院計算機(jī)網(wǎng)絡(luò)信息中心;
【基金】：國家重點研發(fā)計劃項目(2016YFB0201404) 十二五863重大項目(2014AA01A302)
【分類號】：TP338

【相似文獻(xiàn)】

相關(guān)期刊論文前3條

1 詹玲;馬駿;陳伯江;陳維梁;呂睿;;分布式I/O日志回放系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機(jī)工程與應(yīng)用;2010年36期

2 饒翔;王懷民;蔡華;周琦;孫廷韜;史殿習(xí);尹剛;;云計算系統(tǒng)中基于噪聲模板跳表的日志過濾方法[J];通信學(xué)報;2011年07期

3 ;[J];;年期

相關(guān)博士學(xué)位論文前1條

1 曹志波;基于日志的任務(wù)建模及調(diào)度優(yōu)化的研究[D];華南理工大學(xué);2014年

相關(guān)碩士學(xué)位論文前4條

1 張愉;基于機(jī)器學(xué)習(xí)的EMC存儲設(shè)備日志分析與Bug預(yù)測技術(shù)研究[D];南京大學(xué);2014年

2 馮瑞;基于日志分析的虛擬機(jī)安全事件追蹤系統(tǒng)的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2014年

3 魏晨輝;高端容錯計算機(jī)故障日志分析系統(tǒng)的設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2011年

4 王宏宇;基于Hadoop平臺的云計算構(gòu)建與日志分析[D];哈爾濱理工大學(xué);2012年

本文編號：2548837

資料下載

論文發(fā)表

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2548837.html

上一篇：3D打印機(jī)控制系統(tǒng)設(shè)計
下一篇：基于ARM的嵌入式圖像采集壓縮系統(tǒng)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

對于大規(guī)模系統(tǒng)日志的日志模式提煉算法的優(yōu)化