基于前綴樹的日志模式聚類挖掘算法研究
發(fā)布時間:2023-09-24 17:43
二十一世紀是網(wǎng)絡和信息時代,無論是個人還是企業(yè)都很依賴互聯(lián)網(wǎng),因此,網(wǎng)絡安全和隱私已成為現(xiàn)代世界人們關注的一個重要問題。日志數(shù)據(jù)時刻記錄著各種網(wǎng)絡設備的活動,對于網(wǎng)絡攻擊、系統(tǒng)黑客攻擊等事件的取證有著重要的意義。通過日志數(shù)據(jù),運維人員可以實時監(jiān)控系統(tǒng)和網(wǎng)絡的健康狀況,用戶的使用情況等。但是日志數(shù)據(jù)通常數(shù)量巨大,且較難讀懂,因此,對日志數(shù)據(jù)進行數(shù)據(jù)挖掘,從大量數(shù)據(jù)中提取有用的知識是非常有必要的。 網(wǎng)絡設備具有多樣性,對設備逐個查看非常耗時耗力,本課題對日志采集技術進行了系統(tǒng)的研究,提出了一種日志數(shù)據(jù)的分布采集和集中存儲架構,將日志消息分類存儲在一個集中的Syslog日志服務器上,方便對日志數(shù)據(jù)進行集中管理和統(tǒng)計分析。然后通過對Syslog日志服務器采集到的數(shù)據(jù)進行挖掘,得到用戶行為的頻繁模式聚類和非頻繁模式聚類。 本文通過分析日志數(shù)據(jù)和關聯(lián)規(guī)則挖掘算法,對已有的日志數(shù)據(jù)關聯(lián)規(guī)則挖掘算法進行改進,提出了一種改進的日志模式聚類挖掘算法——-Improved Log-Pattern Cluster Algorithm (ILC算法)。然后將前綴樹和傳統(tǒng)的日志模式挖掘算法相結合,設計出一種基于前...
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 日志數(shù)據(jù)采集
1.2.2 事件關聯(lián)挖掘技術
1.2.3 數(shù)據(jù)聚類
1.2.4 頻繁模式聚類
1.3 研究內(nèi)容和目標
1.3.1 日志事件集中采集研究
1.3.2 日志模式挖掘算法研究與改進
1.3.3 基于前綴樹的日志模式挖掘研究
1.4 本文的組織結構
第2章 日志采集與挖掘所涉及到的技術
2.1 事件日志記錄和監(jiān)控
2.1.1 日志數(shù)據(jù)采集
2.1.2 Syslog日志
2.1.3 Syslog日志結構
2.1.4 Syslog日志數(shù)據(jù)集中采集
2.2 日志過濾與預處理
2.2.1 數(shù)據(jù)過濾和預處理概述
2.2.2 正則表達式
2.3 數(shù)據(jù)挖掘技術
2.3.1 數(shù)據(jù)挖掘方法
2.3.2 事件關聯(lián)技術
2.3.4 關聯(lián)規(guī)則挖掘
2.3.5 高維度數(shù)據(jù)聚類
2.3.6 簡單事件關聯(lián)
2.4 事件日志的模式挖掘
2.4.1 頻繁模式挖掘算法
2.4.2 日志模式挖掘概述
2.5 本章小結
第3章 日志模式挖掘和ILC算法
3.1 日志數(shù)據(jù)的特征
3.2 日志數(shù)據(jù)采集與過濾
3.2.1 日志數(shù)據(jù)采集
3.2.2 日志數(shù)據(jù)過濾
3.2.3 雙層日志分析技術
3.3 ILC算法——改進的日志模式聚類算法
3.3.1 日志事件關聯(lián)挖掘概述
3.3.2 日志數(shù)據(jù)的hash查找
3.3.3 ILC算法的產(chǎn)生背景
3.3.4 ILC算法實現(xiàn)
3.3.5 BILC算法——字節(jié)偏移日志模式聚類算法
3.3.6 非頻繁模式的挖掘
3.4 ILC算法和BILC算法的有效性
3.4.1 ILC算法和Apriori的比較
3.4.2 ILC算法和SLC算法的比較
3.4.3 BILC算法的優(yōu)勢
3.5 本章小結
第4章 基于前綴樹的日志模式聚類
4.1 日志數(shù)據(jù)采集和過濾模型
4.1.1 Rsyslog日志數(shù)據(jù)采集
4.1.2 Rsyslog日志數(shù)據(jù)過濾和預處理
4.2 基于前綴樹的數(shù)據(jù)聚類
4.2.1 深度優(yōu)先搜索算法分析
4.2.2 基于日志特征的深度優(yōu)先搜索算法
4.3 PTLC算法——基于前綴樹的日志模式聚類算法
4.3.1 PTLC算法概述
4.3.2 PTLC算法的實現(xiàn)
4.3.3 PTLC算法的優(yōu)勢
4.3.4 BPTLC——字節(jié)偏移前綴樹日志模式聚類算法
4.4 本章小結
第5章 實驗結果分析
5.1 空間分析
5.1.1 SLC算法空間分析
5.1.2 ILC算法空間分析
5.1.3 BILC算法空間分析
5.1.4 PTLC算法空間分析
5.1.5 BPTLC算法空間分析
5.1.6 空間總結比較
5.2 時間分析
5.3 本章小結
第6章 總結與未來方向
參考文獻
致謝
攻讀碩士學位期間發(fā)表的論文
本文編號:3848469
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 日志數(shù)據(jù)采集
1.2.2 事件關聯(lián)挖掘技術
1.2.3 數(shù)據(jù)聚類
1.2.4 頻繁模式聚類
1.3 研究內(nèi)容和目標
1.3.1 日志事件集中采集研究
1.3.2 日志模式挖掘算法研究與改進
1.3.3 基于前綴樹的日志模式挖掘研究
1.4 本文的組織結構
第2章 日志采集與挖掘所涉及到的技術
2.1 事件日志記錄和監(jiān)控
2.1.1 日志數(shù)據(jù)采集
2.1.2 Syslog日志
2.1.3 Syslog日志結構
2.1.4 Syslog日志數(shù)據(jù)集中采集
2.2 日志過濾與預處理
2.2.1 數(shù)據(jù)過濾和預處理概述
2.2.2 正則表達式
2.3 數(shù)據(jù)挖掘技術
2.3.1 數(shù)據(jù)挖掘方法
2.3.2 事件關聯(lián)技術
2.3.4 關聯(lián)規(guī)則挖掘
2.3.5 高維度數(shù)據(jù)聚類
2.3.6 簡單事件關聯(lián)
2.4 事件日志的模式挖掘
2.4.1 頻繁模式挖掘算法
2.4.2 日志模式挖掘概述
2.5 本章小結
第3章 日志模式挖掘和ILC算法
3.1 日志數(shù)據(jù)的特征
3.2 日志數(shù)據(jù)采集與過濾
3.2.1 日志數(shù)據(jù)采集
3.2.2 日志數(shù)據(jù)過濾
3.2.3 雙層日志分析技術
3.3 ILC算法——改進的日志模式聚類算法
3.3.1 日志事件關聯(lián)挖掘概述
3.3.2 日志數(shù)據(jù)的hash查找
3.3.3 ILC算法的產(chǎn)生背景
3.3.4 ILC算法實現(xiàn)
3.3.5 BILC算法——字節(jié)偏移日志模式聚類算法
3.3.6 非頻繁模式的挖掘
3.4 ILC算法和BILC算法的有效性
3.4.1 ILC算法和Apriori的比較
3.4.2 ILC算法和SLC算法的比較
3.4.3 BILC算法的優(yōu)勢
3.5 本章小結
第4章 基于前綴樹的日志模式聚類
4.1 日志數(shù)據(jù)采集和過濾模型
4.1.1 Rsyslog日志數(shù)據(jù)采集
4.1.2 Rsyslog日志數(shù)據(jù)過濾和預處理
4.2 基于前綴樹的數(shù)據(jù)聚類
4.2.1 深度優(yōu)先搜索算法分析
4.2.2 基于日志特征的深度優(yōu)先搜索算法
4.3 PTLC算法——基于前綴樹的日志模式聚類算法
4.3.1 PTLC算法概述
4.3.2 PTLC算法的實現(xiàn)
4.3.3 PTLC算法的優(yōu)勢
4.3.4 BPTLC——字節(jié)偏移前綴樹日志模式聚類算法
4.4 本章小結
第5章 實驗結果分析
5.1 空間分析
5.1.1 SLC算法空間分析
5.1.2 ILC算法空間分析
5.1.3 BILC算法空間分析
5.1.4 PTLC算法空間分析
5.1.5 BPTLC算法空間分析
5.1.6 空間總結比較
5.2 時間分析
5.3 本章小結
第6章 總結與未來方向
參考文獻
致謝
攻讀碩士學位期間發(fā)表的論文
本文編號:3848469
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3848469.html
最近更新
教材專著