基于大數(shù)據(jù)的日志采集分析系統(tǒng)的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-11-28 11:02
互聯(lián)網(wǎng)的飛速發(fā)展,帶來(lái)了日益增多的互聯(lián)網(wǎng)用戶(hù);ヂ(lián)網(wǎng)服務(wù)提供商為了提高企業(yè)的服務(wù)質(zhì)量,需要記錄用戶(hù)的訪(fǎng)問(wèn)信息、網(wǎng)絡(luò)的運(yùn)行狀況等。而龐大的用戶(hù)量,使得記錄信息的過(guò)程會(huì)產(chǎn)生海量的日志。針對(duì)海量網(wǎng)絡(luò)日志的分析系統(tǒng)為互聯(lián)網(wǎng)企業(yè)提供了有效的日志收集方式和日志處理分析的能力。本文提出了一種在大數(shù)據(jù)環(huán)境對(duì)日志進(jìn)行收集分析的系統(tǒng),系統(tǒng)使用Flume和Kafka進(jìn)行日志的收集和分發(fā),日志是分布在不同機(jī)器、不同操作系統(tǒng)上的、具有多樣性的海量日志,然后通過(guò)Storm和HBase進(jìn)行日志處理和日志存儲(chǔ),并采用k-means聚類(lèi)算法對(duì)收集的日志進(jìn)行聚類(lèi)分析。系統(tǒng)分析的主體內(nèi)容是從日志中提取出的用戶(hù)行為,網(wǎng)絡(luò)服務(wù)提供商通過(guò)系統(tǒng)分析的結(jié)果來(lái)優(yōu)化自身的服務(wù)。文章首先介紹了日志收集系統(tǒng)的國(guó)內(nèi)外研究現(xiàn)狀和研究成果,分析了日志的特征,結(jié)合海量日志的特點(diǎn)對(duì)日志收集分析系統(tǒng)做出研究設(shè)計(jì)和實(shí)現(xiàn)。其次在日志分析部分對(duì)聚類(lèi)算法進(jìn)行了研究和改進(jìn)。在日志采集部分,本文結(jié)合海量日志的特征,基于分布式架構(gòu),采用了多節(jié)點(diǎn)Flume進(jìn)行日志收集。為了提高收集日志的可靠性以及防止日志的丟失,該系統(tǒng)使用Flume作為日志消息的生產(chǎn)者,Kafka作為...
【文章來(lái)源】:華北電力大學(xué)河北省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
HBase架構(gòu)圖
所示:知, SSE 為所有點(diǎn)到類(lèi)心的距離平方和。做聚類(lèi)分判斷分類(lèi)越準(zhǔn)確,因此 K-mean 算法的效果可以用點(diǎn)分為一類(lèi)是最標(biāo)準(zhǔn)的分類(lèi),每個(gè)類(lèi)的特征極其細(xì)際應(yīng)用中這是幾乎不現(xiàn)實(shí)的[37]。對(duì)于一個(gè)有 n 個(gè)點(diǎn)為一個(gè)類(lèi),則由于只有一個(gè)質(zhì)心,而數(shù)據(jù)分布非常當(dāng)分為兩個(gè)類(lèi)時(shí),數(shù)據(jù)集有兩個(gè)質(zhì)心,宏觀上看每而平方和會(huì)更小?紤]極端情況,分為 N 類(lèi),理想則 SSE 的結(jié)果為 0。通過(guò)上述分析可知,在 K 增]。假設(shè)數(shù)據(jù)集的數(shù)量非常大,分為N類(lèi)和N-1類(lèi)的結(jié)下可以判斷出分為 N 類(lèi),比 N-1 類(lèi)多分出一類(lèi)的 K+1 對(duì)于聚類(lèi)結(jié)果的貢獻(xiàn)非常小。而在 K=1,分此,對(duì)于 K 值的評(píng)判可以 K 值增加時(shí)對(duì)聚類(lèi)質(zhì)心 K 值的關(guān)系如圖 3-1 所示。
表 5-3 服務(wù)配置表(server_config)字段 字段類(lèi)型 NULL 說(shuō)明ID INT(10) N 服務(wù)編號(hào)(主鍵)SERVER_IP Varchar(50) N 服務(wù)機(jī)器 IP 地址SERVER_ENV VARCHAR(100) N Flume 環(huán)境變量SERVER_SHELL VARCHAR(100) N 收集日志 shell 命令SERVER_REG VARCHAR(100) N 日志切割正則表達(dá)式SERVER_KEYLIST VARCHAR(50) N 日志提取字段列表SERVER_PKEY VARCHAR(50) N HBase 主鍵列表5.3 系統(tǒng)功能實(shí)現(xiàn)5.3.1 查看日志分析服務(wù)列表功能用戶(hù)查看日志服務(wù)列表界面如圖 5-1 所示。
【參考文獻(xiàn)】:
期刊論文
[1]基于kafka消息平臺(tái)的軟件系統(tǒng)設(shè)計(jì)[J]. 裴宏祥,于曉虹. 電子技術(shù)與軟件工程. 2018(18)
[2]基于區(qū)間2-型模糊度量的粗糙K-means聚類(lèi)算法[J]. 逯瑞強(qiáng),馬福民,張騰飛. 模式識(shí)別與人工智能. 2018(03)
[3]基于聚類(lèi)思想的加權(quán)條件熵及屬性約簡(jiǎn)[J]. 范會(huì)濤,馮濤. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版). 2018(01)
[4]基于Spark的用戶(hù)行為分析系統(tǒng)框架研究[J]. 殷樂(lè),姚遠(yuǎn),劉辰. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2018(02)
[5]對(duì)K-means聚類(lèi)算法歐氏距離加權(quán)系數(shù)的研究[J]. 郭靖. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2016(10)
[6]基于Apache Flume的大數(shù)據(jù)日志收集系統(tǒng)[J]. 于秦. 中國(guó)新通信. 2016(18)
[7]一個(gè)簡(jiǎn)單日志統(tǒng)計(jì)工具的設(shè)計(jì)與實(shí)現(xiàn)[J]. 李維峰. 電腦編程技巧與維護(hù). 2016(17)
[8]基于聚類(lèi)思想的概念格壓縮[J]. 何苗. 陜西理工學(xué)院學(xué)報(bào)(自然科學(xué)版). 2016(03)
[9]基于信息熵的二次聚類(lèi)推薦算法[J]. 李輝,石釗,易軍凱. 計(jì)算機(jī)工程. 2016(05)
[10]基于Hadoop平臺(tái)的網(wǎng)站日志分析[J]. 宋夢(mèng)馨,繆紅萍,王溯,張二松. 信息系統(tǒng)工程. 2015(12)
碩士論文
[1]基于Kafka和Storm的實(shí)時(shí)日志流處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 周敏菲.貴州大學(xué) 2017
[2]基于Storm實(shí)時(shí)日志分析存儲(chǔ)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 梁滿(mǎn).沈陽(yáng)師范大學(xué) 2017
[3]基于HBase的空間數(shù)據(jù)云存儲(chǔ)研究[D]. 孟鑫淼.河南大學(xué) 2016
[4]高維數(shù)據(jù)的降維及聚類(lèi)方法研究[D]. 孫喜利.蘭州大學(xué) 2016
[5]海量數(shù)據(jù)存儲(chǔ)和準(zhǔn)實(shí)時(shí)查詢(xún)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 齊方方.西南石油大學(xué) 2015
[6]基于CCN網(wǎng)絡(luò)的服務(wù)內(nèi)容分析及遷移[D]. 鄧舒姍.北京郵電大學(xué) 2015
[7]K-means聚類(lèi)方法的改進(jìn)及其應(yīng)用[D]. 李薈嬈.東北農(nóng)業(yè)大學(xué) 2014
本文編號(hào):3524304
【文章來(lái)源】:華北電力大學(xué)河北省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
HBase架構(gòu)圖
所示:知, SSE 為所有點(diǎn)到類(lèi)心的距離平方和。做聚類(lèi)分判斷分類(lèi)越準(zhǔn)確,因此 K-mean 算法的效果可以用點(diǎn)分為一類(lèi)是最標(biāo)準(zhǔn)的分類(lèi),每個(gè)類(lèi)的特征極其細(xì)際應(yīng)用中這是幾乎不現(xiàn)實(shí)的[37]。對(duì)于一個(gè)有 n 個(gè)點(diǎn)為一個(gè)類(lèi),則由于只有一個(gè)質(zhì)心,而數(shù)據(jù)分布非常當(dāng)分為兩個(gè)類(lèi)時(shí),數(shù)據(jù)集有兩個(gè)質(zhì)心,宏觀上看每而平方和會(huì)更小?紤]極端情況,分為 N 類(lèi),理想則 SSE 的結(jié)果為 0。通過(guò)上述分析可知,在 K 增]。假設(shè)數(shù)據(jù)集的數(shù)量非常大,分為N類(lèi)和N-1類(lèi)的結(jié)下可以判斷出分為 N 類(lèi),比 N-1 類(lèi)多分出一類(lèi)的 K+1 對(duì)于聚類(lèi)結(jié)果的貢獻(xiàn)非常小。而在 K=1,分此,對(duì)于 K 值的評(píng)判可以 K 值增加時(shí)對(duì)聚類(lèi)質(zhì)心 K 值的關(guān)系如圖 3-1 所示。
表 5-3 服務(wù)配置表(server_config)字段 字段類(lèi)型 NULL 說(shuō)明ID INT(10) N 服務(wù)編號(hào)(主鍵)SERVER_IP Varchar(50) N 服務(wù)機(jī)器 IP 地址SERVER_ENV VARCHAR(100) N Flume 環(huán)境變量SERVER_SHELL VARCHAR(100) N 收集日志 shell 命令SERVER_REG VARCHAR(100) N 日志切割正則表達(dá)式SERVER_KEYLIST VARCHAR(50) N 日志提取字段列表SERVER_PKEY VARCHAR(50) N HBase 主鍵列表5.3 系統(tǒng)功能實(shí)現(xiàn)5.3.1 查看日志分析服務(wù)列表功能用戶(hù)查看日志服務(wù)列表界面如圖 5-1 所示。
【參考文獻(xiàn)】:
期刊論文
[1]基于kafka消息平臺(tái)的軟件系統(tǒng)設(shè)計(jì)[J]. 裴宏祥,于曉虹. 電子技術(shù)與軟件工程. 2018(18)
[2]基于區(qū)間2-型模糊度量的粗糙K-means聚類(lèi)算法[J]. 逯瑞強(qiáng),馬福民,張騰飛. 模式識(shí)別與人工智能. 2018(03)
[3]基于聚類(lèi)思想的加權(quán)條件熵及屬性約簡(jiǎn)[J]. 范會(huì)濤,馮濤. 鄭州大學(xué)學(xué)報(bào)(理學(xué)版). 2018(01)
[4]基于Spark的用戶(hù)行為分析系統(tǒng)框架研究[J]. 殷樂(lè),姚遠(yuǎn),劉辰. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2018(02)
[5]對(duì)K-means聚類(lèi)算法歐氏距離加權(quán)系數(shù)的研究[J]. 郭靖. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2016(10)
[6]基于Apache Flume的大數(shù)據(jù)日志收集系統(tǒng)[J]. 于秦. 中國(guó)新通信. 2016(18)
[7]一個(gè)簡(jiǎn)單日志統(tǒng)計(jì)工具的設(shè)計(jì)與實(shí)現(xiàn)[J]. 李維峰. 電腦編程技巧與維護(hù). 2016(17)
[8]基于聚類(lèi)思想的概念格壓縮[J]. 何苗. 陜西理工學(xué)院學(xué)報(bào)(自然科學(xué)版). 2016(03)
[9]基于信息熵的二次聚類(lèi)推薦算法[J]. 李輝,石釗,易軍凱. 計(jì)算機(jī)工程. 2016(05)
[10]基于Hadoop平臺(tái)的網(wǎng)站日志分析[J]. 宋夢(mèng)馨,繆紅萍,王溯,張二松. 信息系統(tǒng)工程. 2015(12)
碩士論文
[1]基于Kafka和Storm的實(shí)時(shí)日志流處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 周敏菲.貴州大學(xué) 2017
[2]基于Storm實(shí)時(shí)日志分析存儲(chǔ)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 梁滿(mǎn).沈陽(yáng)師范大學(xué) 2017
[3]基于HBase的空間數(shù)據(jù)云存儲(chǔ)研究[D]. 孟鑫淼.河南大學(xué) 2016
[4]高維數(shù)據(jù)的降維及聚類(lèi)方法研究[D]. 孫喜利.蘭州大學(xué) 2016
[5]海量數(shù)據(jù)存儲(chǔ)和準(zhǔn)實(shí)時(shí)查詢(xún)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 齊方方.西南石油大學(xué) 2015
[6]基于CCN網(wǎng)絡(luò)的服務(wù)內(nèi)容分析及遷移[D]. 鄧舒姍.北京郵電大學(xué) 2015
[7]K-means聚類(lèi)方法的改進(jìn)及其應(yīng)用[D]. 李薈嬈.東北農(nóng)業(yè)大學(xué) 2014
本文編號(hào):3524304
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3524304.html
最近更新
教材專(zhuān)著