基于Hadoop的IPv6網(wǎng)絡(luò)安全日志大數(shù)據(jù)的聚類分析與應(yīng)用
發(fā)布時(shí)間:2021-04-25 14:38
隨著下一代互聯(lián)網(wǎng)技術(shù)IPv6協(xié)議的不斷成熟和推廣,支持IPv6訪問的Web網(wǎng)站逐漸成為了主流。Web網(wǎng)站發(fā)生的各種各樣的事件都會(huì)產(chǎn)生相應(yīng)的網(wǎng)絡(luò)安全日志,記錄著用戶的訪問行為。實(shí)現(xiàn)IPv6網(wǎng)絡(luò)安全日志的有效分析,深度挖掘其中有價(jià)值的潛在信息,不僅可以了解用戶的訪問行為習(xí)慣,還可以發(fā)現(xiàn)隱藏的Web攻擊行為,從而維護(hù)Web服務(wù)器系統(tǒng)的安全。進(jìn)入大數(shù)據(jù)時(shí)代以來,巨大的網(wǎng)絡(luò)用戶流量產(chǎn)生的IPv6網(wǎng)絡(luò)安全日志數(shù)據(jù)早已達(dá)到了TB或PB甚至以上的數(shù)據(jù)量級(jí)別。面對(duì)如此海量的IPv6網(wǎng)絡(luò)安全日志大數(shù)據(jù),單臺(tái)主機(jī)集中式的日志分析技術(shù)已經(jīng)無法滿足數(shù)據(jù)存儲(chǔ)和計(jì)算的需求。針對(duì)這一問題,本文利用Hadoop分布式平臺(tái)設(shè)計(jì)并實(shí)現(xiàn)一種基于Hadoop的IPv6網(wǎng)絡(luò)安全日志分析系統(tǒng)。該系統(tǒng)旨在完成對(duì)大規(guī)模Web日志的高效存儲(chǔ)管理和快速挖掘分析,盡可能正確區(qū)分正常訪問和Web攻擊,提高Web網(wǎng)站的安全性。本文工作的創(chuàng)新點(diǎn)主要包括:(1)鑒于單機(jī)集中式K-means算法無法有效地處理海量數(shù)據(jù),提出一種基于MapReduce的高效K-means改進(jìn)算法。先借助最大最小距離法和輪廓系數(shù)優(yōu)化K-means算法初始聚類中心的選擇,再...
【文章來源】:蘭州交通大學(xué)甘肅省
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.1.1 課題來源
1.1.2 研究背景與意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 日志分析研究現(xiàn)狀
1.2.2 基于分布式的日志分析研究現(xiàn)狀
1.3 論文主要內(nèi)容
1.4 論文的結(jié)構(gòu)安排
2 相關(guān)技術(shù)
2.1 Hadoop相關(guān)技術(shù)
2.1.1 HDFS
2.1.2 MapReduce
2.2 聚類分析
2.2.1 聚類分析
2.2.2 聚類常用評(píng)價(jià)指標(biāo)
2.3 Web安全日志挖掘
2.4 本章小結(jié)
3 基于MapReduce的高效K-means改進(jìn)算法
3.1 傳統(tǒng)K-means算法
3.1.1 K-means算法基礎(chǔ)
3.1.2 常用距離度量方法
3.1.3 K-means算法的不足
3.2 基于MapReduce的高效K-means改進(jìn)算法
3.2.1 傳統(tǒng)K-means算法的改進(jìn)
3.2.2 改進(jìn)K-means算法的并行化
3.3 改進(jìn)K-means算法的對(duì)比實(shí)驗(yàn)
3.4 本章小結(jié)
4 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
4.1 系統(tǒng)總體設(shè)計(jì)
4.1.1 系統(tǒng)總體架構(gòu)
4.1.2 系統(tǒng)工作流程
4.2 日志收集
4.3 日志預(yù)處理
4.3.1 數(shù)據(jù)清洗
4.3.2 特征值提取
4.3.3 特征值量化
4.4 日志分析
4.4.1 統(tǒng)計(jì)分析
4.4.2 聚類分析
4.5 結(jié)果展示
4.6 本章小結(jié)
5 實(shí)驗(yàn)與結(jié)果分析
5.1 Hadoop集群部署
5.1.1 集群拓?fù)?br> 5.1.2 Hadoop集群搭建
5.2 實(shí)驗(yàn)數(shù)據(jù)集準(zhǔn)備
5.3 算法在Hadoop集群中的性能測(cè)試
5.3.1 加速實(shí)驗(yàn)
5.3.2 擴(kuò)展實(shí)驗(yàn)
5.3.3 規(guī)模實(shí)驗(yàn)
5.4 系統(tǒng)性能評(píng)估
5.4.1 統(tǒng)計(jì)分析實(shí)驗(yàn)
5.4.2 聚類分析實(shí)驗(yàn)
5.5 本章小結(jié)
6 總結(jié)與展望
6.1 總結(jié)
6.2 展望
致謝
參考文獻(xiàn)
攻讀學(xué)位期間的研究成果
【參考文獻(xiàn)】:
期刊論文
[1]基于Hadoop的Web日志分析系統(tǒng)的設(shè)計(jì)[J]. 何璇,馬佳琳. 軟件工程. 2019(02)
[2]基于抽樣和最大最小距離法的并行K-means聚類算法[J]. 劉燕. 智能計(jì)算機(jī)與應(yīng)用. 2018(06)
[3]IPv6規(guī)模部署:贏得互聯(lián)網(wǎng)新時(shí)代發(fā)展先機(jī)[J]. 楊潔. 中國(guó)教育網(wǎng)絡(luò). 2018(01)
[4]基于MapReduce框架下K-means的改進(jìn)算法[J]. 陰愛英,吳運(yùn)兵,朱敏琛,張瑩. 計(jì)算機(jī)應(yīng)用研究. 2018(08)
[5]基于離散量?jī)?yōu)化初始聚類中心的k-means算法[J]. 劉美玲,黃名選,湯衛(wèi)東. 計(jì)算機(jī)工程與科學(xué). 2017(06)
[6]基于平均差異度優(yōu)選初始聚類中心的改進(jìn)K-均值聚類算法[J]. 李武,趙嬌燕,嚴(yán)太山. 控制與決策. 2017(04)
[7]基于Hadoop平臺(tái)的K-means聚類算法優(yōu)化研究[J]. 盧勝宇,王靜宇,張曉琳,高俊峰. 內(nèi)蒙古科技大學(xué)學(xué)報(bào). 2016(03)
[8]基于Hadoop的PSO-KM聚類算法的并行實(shí)現(xiàn)[J]. 馬漢達(dá),楊麗娜. 信息技術(shù). 2015(07)
[9]大數(shù)據(jù)k-Means聚類挖掘優(yōu)化算法[J]. 宋旭東,朱文輝,邱占芝. 大連交通大學(xué)學(xué)報(bào). 2015(03)
[10]基于Apache Flume的分布式日志收集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 郝璇. 軟件導(dǎo)刊. 2014(07)
碩士論文
[1]基于WEB日志的入侵檢測(cè)算法研究[D]. 高陽(yáng).北京郵電大學(xué) 2018
[2]基于Web日志的分布式并行數(shù)據(jù)挖掘算法研究[D]. 郭沛松.電子科技大學(xué) 2017
[3]基于Hadoop平臺(tái)的分布式web日志分析系統(tǒng)的研究與實(shí)現(xiàn)[D]. 曾新勵(lì).西南石油大學(xué) 2017
[4]基于Hadoop云計(jì)算平臺(tái)的K-Means聚類算法研究[D]. 劉洋.哈爾濱理工大學(xué) 2017
[5]基于Web應(yīng)用的日志采集與分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 于靜.北京交通大學(xué) 2016
[6]基于Hadoop的改進(jìn)Apriori算法研究及應(yīng)用[D]. 陳順生.安徽理工大學(xué) 2016
[7]基于Hadoop平臺(tái)的Web日志聚類分析算法研究[D]. 劉立坤.西北大學(xué) 2016
[8]基于MapReduce的聚類算法并行化研究[D]. 劉德超.華北電力大學(xué) 2016
[9]基于MapReduce的k-means聚類算法并行化研究[D]. 張依.中央民族大學(xué) 2015
[10]基于HADOOP云計(jì)算平臺(tái)的聚類算法研究[D]. 嚴(yán)正飛.南京大學(xué) 2014
本文編號(hào):3159562
【文章來源】:蘭州交通大學(xué)甘肅省
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.1.1 課題來源
1.1.2 研究背景與意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 日志分析研究現(xiàn)狀
1.2.2 基于分布式的日志分析研究現(xiàn)狀
1.3 論文主要內(nèi)容
1.4 論文的結(jié)構(gòu)安排
2 相關(guān)技術(shù)
2.1 Hadoop相關(guān)技術(shù)
2.1.1 HDFS
2.1.2 MapReduce
2.2 聚類分析
2.2.1 聚類分析
2.2.2 聚類常用評(píng)價(jià)指標(biāo)
2.3 Web安全日志挖掘
2.4 本章小結(jié)
3 基于MapReduce的高效K-means改進(jìn)算法
3.1 傳統(tǒng)K-means算法
3.1.1 K-means算法基礎(chǔ)
3.1.2 常用距離度量方法
3.1.3 K-means算法的不足
3.2 基于MapReduce的高效K-means改進(jìn)算法
3.2.1 傳統(tǒng)K-means算法的改進(jìn)
3.2.2 改進(jìn)K-means算法的并行化
3.3 改進(jìn)K-means算法的對(duì)比實(shí)驗(yàn)
3.4 本章小結(jié)
4 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
4.1 系統(tǒng)總體設(shè)計(jì)
4.1.1 系統(tǒng)總體架構(gòu)
4.1.2 系統(tǒng)工作流程
4.2 日志收集
4.3 日志預(yù)處理
4.3.1 數(shù)據(jù)清洗
4.3.2 特征值提取
4.3.3 特征值量化
4.4 日志分析
4.4.1 統(tǒng)計(jì)分析
4.4.2 聚類分析
4.5 結(jié)果展示
4.6 本章小結(jié)
5 實(shí)驗(yàn)與結(jié)果分析
5.1 Hadoop集群部署
5.1.1 集群拓?fù)?br> 5.1.2 Hadoop集群搭建
5.2 實(shí)驗(yàn)數(shù)據(jù)集準(zhǔn)備
5.3 算法在Hadoop集群中的性能測(cè)試
5.3.1 加速實(shí)驗(yàn)
5.3.2 擴(kuò)展實(shí)驗(yàn)
5.3.3 規(guī)模實(shí)驗(yàn)
5.4 系統(tǒng)性能評(píng)估
5.4.1 統(tǒng)計(jì)分析實(shí)驗(yàn)
5.4.2 聚類分析實(shí)驗(yàn)
5.5 本章小結(jié)
6 總結(jié)與展望
6.1 總結(jié)
6.2 展望
致謝
參考文獻(xiàn)
攻讀學(xué)位期間的研究成果
【參考文獻(xiàn)】:
期刊論文
[1]基于Hadoop的Web日志分析系統(tǒng)的設(shè)計(jì)[J]. 何璇,馬佳琳. 軟件工程. 2019(02)
[2]基于抽樣和最大最小距離法的并行K-means聚類算法[J]. 劉燕. 智能計(jì)算機(jī)與應(yīng)用. 2018(06)
[3]IPv6規(guī)模部署:贏得互聯(lián)網(wǎng)新時(shí)代發(fā)展先機(jī)[J]. 楊潔. 中國(guó)教育網(wǎng)絡(luò). 2018(01)
[4]基于MapReduce框架下K-means的改進(jìn)算法[J]. 陰愛英,吳運(yùn)兵,朱敏琛,張瑩. 計(jì)算機(jī)應(yīng)用研究. 2018(08)
[5]基于離散量?jī)?yōu)化初始聚類中心的k-means算法[J]. 劉美玲,黃名選,湯衛(wèi)東. 計(jì)算機(jī)工程與科學(xué). 2017(06)
[6]基于平均差異度優(yōu)選初始聚類中心的改進(jìn)K-均值聚類算法[J]. 李武,趙嬌燕,嚴(yán)太山. 控制與決策. 2017(04)
[7]基于Hadoop平臺(tái)的K-means聚類算法優(yōu)化研究[J]. 盧勝宇,王靜宇,張曉琳,高俊峰. 內(nèi)蒙古科技大學(xué)學(xué)報(bào). 2016(03)
[8]基于Hadoop的PSO-KM聚類算法的并行實(shí)現(xiàn)[J]. 馬漢達(dá),楊麗娜. 信息技術(shù). 2015(07)
[9]大數(shù)據(jù)k-Means聚類挖掘優(yōu)化算法[J]. 宋旭東,朱文輝,邱占芝. 大連交通大學(xué)學(xué)報(bào). 2015(03)
[10]基于Apache Flume的分布式日志收集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 郝璇. 軟件導(dǎo)刊. 2014(07)
碩士論文
[1]基于WEB日志的入侵檢測(cè)算法研究[D]. 高陽(yáng).北京郵電大學(xué) 2018
[2]基于Web日志的分布式并行數(shù)據(jù)挖掘算法研究[D]. 郭沛松.電子科技大學(xué) 2017
[3]基于Hadoop平臺(tái)的分布式web日志分析系統(tǒng)的研究與實(shí)現(xiàn)[D]. 曾新勵(lì).西南石油大學(xué) 2017
[4]基于Hadoop云計(jì)算平臺(tái)的K-Means聚類算法研究[D]. 劉洋.哈爾濱理工大學(xué) 2017
[5]基于Web應(yīng)用的日志采集與分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 于靜.北京交通大學(xué) 2016
[6]基于Hadoop的改進(jìn)Apriori算法研究及應(yīng)用[D]. 陳順生.安徽理工大學(xué) 2016
[7]基于Hadoop平臺(tái)的Web日志聚類分析算法研究[D]. 劉立坤.西北大學(xué) 2016
[8]基于MapReduce的聚類算法并行化研究[D]. 劉德超.華北電力大學(xué) 2016
[9]基于MapReduce的k-means聚類算法并行化研究[D]. 張依.中央民族大學(xué) 2015
[10]基于HADOOP云計(jì)算平臺(tái)的聚類算法研究[D]. 嚴(yán)正飛.南京大學(xué) 2014
本文編號(hào):3159562
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3159562.html
最近更新
教材專著