對于大規(guī)模系統(tǒng)日志的日志模式提煉算法的優(yōu)化
發(fā)布時間:2019-10-13 18:52
【摘要】:LARGE框架是部署在中國科學院超級計算環(huán)境中的日志分析系統(tǒng),通過日志收集、集中分析、結(jié)果反饋等步驟對環(huán)境中的各種日志文件進行監(jiān)控和分析。在對環(huán)境中系統(tǒng)日志的監(jiān)控過程中,系統(tǒng)維護人員需要通過日志模式提煉算法將大量的過往系統(tǒng)日志記錄縮減為少量的日志模式集合。然而隨著日志規(guī)模的增長以及messages日志文件的特殊性,原有的日志模式提煉算法已經(jīng)難以滿足對大規(guī)模日志快速處理的需要。介紹了一種對于日志模式提煉算法的優(yōu)化方法,通過引入MapReduce機制實現(xiàn)在存在多個日志輸入文件的情況下對日志處理和模式提煉的流程進行加速。實驗表明,當輸入文件較多時,該優(yōu)化方法能夠顯著提高詞匯一致率算法的運行速度,大幅減少運行時間。此外,還對使用詞匯轉(zhuǎn)換函數(shù)時的算法運行時間和提煉效果進行了驗證。
【圖文】:
uce機制的優(yōu)化方法;第5節(jié)是對于該優(yōu)化方法的實際效果的測試和討論;第6節(jié)將對日志分析方面的相關(guān)研究做一些簡介;在第7節(jié)中對將來的研究方向進行簡單的展望。2LARGE系統(tǒng)簡介網(wǎng)格環(huán)境日志分析框架LARGE是針對中國科學院超級計算環(huán)境中各類日志進行分析處理的框架式結(jié)構(gòu),它定義了框架內(nèi)各模塊的工作內(nèi)容以及整個日志分析流程的數(shù)據(jù)傳輸流向和處理步驟。LARGE的基本結(jié)構(gòu)和工作流程圖如圖1所示。Figure1StructureoftheLARGEsystem圖1LARGE系統(tǒng)結(jié)構(gòu)在LARGE中存在三個主要模塊,分別是日志采集模塊、日志分析模塊和結(jié)果反饋模塊。日志采集模塊的工作是將網(wǎng)格環(huán)境內(nèi)各種日志從它們的生成設(shè)備上傳輸?shù)饺罩痉治瞿K的設(shè)備上。作為框架設(shè)計,LARGE不會具體定義傳輸方法,相關(guān)人員可以視環(huán)境情況來選擇合適的傳輸方式。通常情況下一般的數(shù)據(jù)采集程序就可以完成這部分工作,在特殊情況下也可以手動執(zhí)行日志采集流程。日志分析模塊的主要工作是對采集到的日志進行集中處理并得出分析結(jié)果,通常可能包含的處理步驟包括:(1)對從多個設(shè)備上采集到的日志進行分類。(2)對日志數(shù)據(jù)的內(nèi)容進行解碼并將其重組為更便于理解和處理的數(shù)據(jù)結(jié)構(gòu)。(3)對日志進行篩選過濾,將某項分析所不需要的日志數(shù)據(jù)移除。根據(jù)不同的分析方式,同一數(shù)據(jù)集可能會做不同的篩選處理。(4)對篩選后的日志數(shù)據(jù)應(yīng)用多種維度的統(tǒng)計和分析方法,并生成階段性分析結(jié)果。822ComputerEngineering&Science計算機工程與科學2017,39(5)
件(即類似Ma-pReduce中的Map步驟)。根據(jù)所使用的設(shè)備的條件,可以設(shè)定同時運行的最大線程數(shù),例如在一臺四核的計算機上設(shè)定最大線程數(shù)為4就可以保證性能最優(yōu)化,同理在八核計算機上可以設(shè)定線程數(shù)為8,而如果程序是在一個分布式環(huán)境中運行,就相當于實現(xiàn)了真正的MapReduce機制。在所有原日志文件的類Map步驟結(jié)束后,開始執(zhí)行一個類Reduce步驟的線程對所有中間結(jié)果文件再次執(zhí)行詞匯一致率算法,最終得到的集合就是從全部文件提煉出的日志模式集合,如圖2所示。采用這種機制后,提煉日志的時間就大幅度縮短了。Figure2ProcessofMapReduce-likelogpatternextraction圖2類MapReduce機制的日志模式提煉步驟對于內(nèi)存地址等大量存在的內(nèi)容有異但類型相同的詞匯,我們嘗試在日志輸入步驟中加入詞匯轉(zhuǎn)換函數(shù)來減小提煉結(jié)果的規(guī)模。在之前的測試中[4],詞匯轉(zhuǎn)換函數(shù)被認為對詞匯一致率算法的效果提升比較有限的同時增加了運行時間,因此被認為不應(yīng)加入到提煉過程中。然而,,面對messages日志文件中的內(nèi)存地址,詞匯轉(zhuǎn)換函數(shù)可能是一種有效的應(yīng)對方式,它可以將內(nèi)容有差異的同類詞匯轉(zhuǎn)換成一個代表這種類型的固定詞匯。對應(yīng)messages日志中的幾種常見類型詞匯,擴展后的詞匯轉(zhuǎn)換函數(shù)規(guī)則如表1所示。使用詞匯轉(zhuǎn)換函數(shù)會對程序運行時間形成一定程度的增加,而其對于messages日志模式提煉的效果是否有顯著的成效則有待驗證。由于使用了類MapReduce機制的優(yōu)化,當輸入文件數(shù)量較多時,程序節(jié)省的整體運行時間大于使用詞匯轉(zhuǎn)換函數(shù)
【作者單位】: 中國科學院計算機網(wǎng)絡(luò)信息中心;
【基金】:國家重點研發(fā)計劃項目(2016YFB0201404) 十二五863重大項目(2014AA01A302)
【分類號】:TP338
本文編號:2548837
【圖文】:
uce機制的優(yōu)化方法;第5節(jié)是對于該優(yōu)化方法的實際效果的測試和討論;第6節(jié)將對日志分析方面的相關(guān)研究做一些簡介;在第7節(jié)中對將來的研究方向進行簡單的展望。2LARGE系統(tǒng)簡介網(wǎng)格環(huán)境日志分析框架LARGE是針對中國科學院超級計算環(huán)境中各類日志進行分析處理的框架式結(jié)構(gòu),它定義了框架內(nèi)各模塊的工作內(nèi)容以及整個日志分析流程的數(shù)據(jù)傳輸流向和處理步驟。LARGE的基本結(jié)構(gòu)和工作流程圖如圖1所示。Figure1StructureoftheLARGEsystem圖1LARGE系統(tǒng)結(jié)構(gòu)在LARGE中存在三個主要模塊,分別是日志采集模塊、日志分析模塊和結(jié)果反饋模塊。日志采集模塊的工作是將網(wǎng)格環(huán)境內(nèi)各種日志從它們的生成設(shè)備上傳輸?shù)饺罩痉治瞿K的設(shè)備上。作為框架設(shè)計,LARGE不會具體定義傳輸方法,相關(guān)人員可以視環(huán)境情況來選擇合適的傳輸方式。通常情況下一般的數(shù)據(jù)采集程序就可以完成這部分工作,在特殊情況下也可以手動執(zhí)行日志采集流程。日志分析模塊的主要工作是對采集到的日志進行集中處理并得出分析結(jié)果,通常可能包含的處理步驟包括:(1)對從多個設(shè)備上采集到的日志進行分類。(2)對日志數(shù)據(jù)的內(nèi)容進行解碼并將其重組為更便于理解和處理的數(shù)據(jù)結(jié)構(gòu)。(3)對日志進行篩選過濾,將某項分析所不需要的日志數(shù)據(jù)移除。根據(jù)不同的分析方式,同一數(shù)據(jù)集可能會做不同的篩選處理。(4)對篩選后的日志數(shù)據(jù)應(yīng)用多種維度的統(tǒng)計和分析方法,并生成階段性分析結(jié)果。822ComputerEngineering&Science計算機工程與科學2017,39(5)
件(即類似Ma-pReduce中的Map步驟)。根據(jù)所使用的設(shè)備的條件,可以設(shè)定同時運行的最大線程數(shù),例如在一臺四核的計算機上設(shè)定最大線程數(shù)為4就可以保證性能最優(yōu)化,同理在八核計算機上可以設(shè)定線程數(shù)為8,而如果程序是在一個分布式環(huán)境中運行,就相當于實現(xiàn)了真正的MapReduce機制。在所有原日志文件的類Map步驟結(jié)束后,開始執(zhí)行一個類Reduce步驟的線程對所有中間結(jié)果文件再次執(zhí)行詞匯一致率算法,最終得到的集合就是從全部文件提煉出的日志模式集合,如圖2所示。采用這種機制后,提煉日志的時間就大幅度縮短了。Figure2ProcessofMapReduce-likelogpatternextraction圖2類MapReduce機制的日志模式提煉步驟對于內(nèi)存地址等大量存在的內(nèi)容有異但類型相同的詞匯,我們嘗試在日志輸入步驟中加入詞匯轉(zhuǎn)換函數(shù)來減小提煉結(jié)果的規(guī)模。在之前的測試中[4],詞匯轉(zhuǎn)換函數(shù)被認為對詞匯一致率算法的效果提升比較有限的同時增加了運行時間,因此被認為不應(yīng)加入到提煉過程中。然而,,面對messages日志文件中的內(nèi)存地址,詞匯轉(zhuǎn)換函數(shù)可能是一種有效的應(yīng)對方式,它可以將內(nèi)容有差異的同類詞匯轉(zhuǎn)換成一個代表這種類型的固定詞匯。對應(yīng)messages日志中的幾種常見類型詞匯,擴展后的詞匯轉(zhuǎn)換函數(shù)規(guī)則如表1所示。使用詞匯轉(zhuǎn)換函數(shù)會對程序運行時間形成一定程度的增加,而其對于messages日志模式提煉的效果是否有顯著的成效則有待驗證。由于使用了類MapReduce機制的優(yōu)化,當輸入文件數(shù)量較多時,程序節(jié)省的整體運行時間大于使用詞匯轉(zhuǎn)換函數(shù)
【作者單位】: 中國科學院計算機網(wǎng)絡(luò)信息中心;
【基金】:國家重點研發(fā)計劃項目(2016YFB0201404) 十二五863重大項目(2014AA01A302)
【分類號】:TP338
【相似文獻】
相關(guān)期刊論文 前3條
1 詹玲;馬駿;陳伯江;陳維梁;呂睿;;分布式I/O日志回放系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機工程與應(yīng)用;2010年36期
2 饒翔;王懷民;蔡華;周琦;孫廷韜;史殿習;尹剛;;云計算系統(tǒng)中基于噪聲模板跳表的日志過濾方法[J];通信學報;2011年07期
3 ;[J];;年期
相關(guān)博士學位論文 前1條
1 曹志波;基于日志的任務(wù)建模及調(diào)度優(yōu)化的研究[D];華南理工大學;2014年
相關(guān)碩士學位論文 前4條
1 張愉;基于機器學習的EMC存儲設(shè)備日志分析與Bug預(yù)測技術(shù)研究[D];南京大學;2014年
2 馮瑞;基于日志分析的虛擬機安全事件追蹤系統(tǒng)的設(shè)計與實現(xiàn)[D];北京郵電大學;2014年
3 魏晨輝;高端容錯計算機故障日志分析系統(tǒng)的設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學;2011年
4 王宏宇;基于Hadoop平臺的云計算構(gòu)建與日志分析[D];哈爾濱理工大學;2012年
本文編號:2548837
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2548837.html
最近更新
教材專著