基于分布式集群的高可用日志分析系統(tǒng)的設(shè)計(jì)
發(fā)布時(shí)間:2021-01-20 05:43
在傳統(tǒng)的訪問(wèn)日志分析系統(tǒng)中,數(shù)據(jù)采集效率較低且日志采集目錄不能被遞歸監(jiān)聽(tīng),存儲(chǔ)系統(tǒng)及計(jì)算系統(tǒng)缺乏高可用性。構(gòu)建基于分布式集群的高可用日志分析系統(tǒng),通過(guò)Nginx直連Kafka的方式采集實(shí)時(shí)分析的數(shù)據(jù)和自定義Source組件的Flume采集離線分析的數(shù)據(jù),使用高可用的分布式文件系統(tǒng)HDFS和計(jì)算系統(tǒng)Spark分別提供持久化存儲(chǔ)和計(jì)算引擎,利用Mysql和Hbase分別存儲(chǔ)聚合數(shù)據(jù)及明細(xì)數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)的各項(xiàng)功能符合預(yù)期結(jié)果,直連Nginx-Kafka的采集方式和自定義Source組件的Flume明顯提高采集效率,Zookeeper協(xié)調(diào)的分布式存儲(chǔ)系統(tǒng)HDFS和計(jì)算系統(tǒng)Spark均滿足高可用性,利用ALS算法測(cè)試存儲(chǔ)與計(jì)算系統(tǒng)的功能。
【文章來(lái)源】:中國(guó)電子科學(xué)研究院學(xué)報(bào). 2020,15(05)北大核心
【文章頁(yè)數(shù)】:7 頁(yè)
【部分圖文】:
基于分布式集群的高可用日志分析系統(tǒng)整體架構(gòu)
1)數(shù)據(jù)采集模塊。在傳統(tǒng)的日志分析系統(tǒng)中,我們對(duì)日志數(shù)據(jù)進(jìn)行分析都是通過(guò)Flume采集Nginx生成的日志文件。對(duì)于用作實(shí)時(shí)分析的數(shù)據(jù),通過(guò)Flume把日志文件發(fā)送給Kafka,Flume作為生產(chǎn)者,再由后端程序消費(fèi)消息進(jìn)行實(shí)時(shí)分析。但是這種方式的缺點(diǎn)就是效率會(huì)比較慢,在數(shù)據(jù)量較大的情況下,這對(duì)于后面的數(shù)據(jù)實(shí)時(shí)分析會(huì)產(chǎn)生一定的延遲。本文通過(guò)Nginx整合Kafka直接將訪問(wèn)日志發(fā)送到Kafka中,可以縮短數(shù)據(jù)傳輸時(shí)間,提高傳輸效率。對(duì)于用作離線分析的數(shù)據(jù),本文仍采用傳統(tǒng)的數(shù)據(jù)采集方式,但通過(guò)自定義的Taildir Recursive Source可以實(shí)現(xiàn)遞歸地監(jiān)聽(tīng)子目錄。自定義Source組件的Flume如圖2所示。2)數(shù)據(jù)分析模塊。其包括實(shí)時(shí)計(jì)算引擎和離線處理引擎兩種模式,以支撐大數(shù)據(jù)計(jì)算及任務(wù)調(diào)度等應(yīng)用場(chǎng)景。其中,基于高可用的Spark計(jì)算集群,使用Spark SQL對(duì)HDFS中的訪問(wèn)日志進(jìn)行離線分析;使用SparkStreaming實(shí)時(shí)消費(fèi)Kafka中的數(shù)據(jù),并將數(shù)據(jù)分成批次處理,然后由Spark引擎進(jìn)行處理,以生成批處理的最終結(jié)果。該模塊的架構(gòu)如圖3所示。
2)數(shù)據(jù)分析模塊。其包括實(shí)時(shí)計(jì)算引擎和離線處理引擎兩種模式,以支撐大數(shù)據(jù)計(jì)算及任務(wù)調(diào)度等應(yīng)用場(chǎng)景。其中,基于高可用的Spark計(jì)算集群,使用Spark SQL對(duì)HDFS中的訪問(wèn)日志進(jìn)行離線分析;使用SparkStreaming實(shí)時(shí)消費(fèi)Kafka中的數(shù)據(jù),并將數(shù)據(jù)分成批次處理,然后由Spark引擎進(jìn)行處理,以生成批處理的最終結(jié)果。該模塊的架構(gòu)如圖3所示。3)數(shù)據(jù)存儲(chǔ)模塊。數(shù)據(jù)存儲(chǔ)方面采用分布式存儲(chǔ)系統(tǒng)和關(guān)系型數(shù)據(jù)庫(kù)混搭的方式。分布式文件系統(tǒng)HDFS持久化用于離線處理的訪問(wèn)日志[10]。關(guān)系型數(shù)據(jù)庫(kù)MySQL用于存放實(shí)時(shí)分析和離線分析聚合之后的各維度統(tǒng)計(jì)指標(biāo),便于數(shù)據(jù)可視化、查詢和匯總等應(yīng)用。分布式列存儲(chǔ)系統(tǒng)Hbase具有持久化存儲(chǔ)大量數(shù)據(jù)(TB、PB),良好的隨機(jī)讀寫功能,同時(shí)處理結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)等特點(diǎn),可用于存儲(chǔ)非聚合數(shù)據(jù),如訂單明細(xì),交易記錄等[11]。
【參考文獻(xiàn)】:
期刊論文
[1]實(shí)時(shí)大數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 羅俊,于水,楊維,孔華鋒. 計(jì)算機(jī)應(yīng)用與軟件. 2020(03)
[2]基于大數(shù)據(jù)的智能商務(wù)分析平臺(tái)開(kāi)發(fā)和設(shè)計(jì)[J]. 鄭國(guó)凱,黃彩娥. 現(xiàn)代電子技術(shù). 2020(05)
[3]大數(shù)據(jù)分析技術(shù)在網(wǎng)絡(luò)領(lǐng)域中的研究綜述[J]. 馮貴蘭,李正楠,周文剛. 計(jì)算機(jī)科學(xué). 2019(06)
[4]基于分布式Web應(yīng)用的大數(shù)據(jù)日志分析方法研究[J]. 孫魯淼. 電腦知識(shí)與技術(shù). 2019(03)
[5]基于分布式集群的網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析平臺(tái)構(gòu)建[J]. 蔡艷婧,王強(qiáng),程實(shí). 中國(guó)電子科學(xué)研究院學(xué)報(bào). 2019(01)
[6]云平臺(tái)中MySQL數(shù)據(jù)庫(kù)高可用性的設(shè)計(jì)與實(shí)現(xiàn)[J]. 康文杰,王勇,俸皓. 計(jì)算機(jī)工程與設(shè)計(jì). 2018(01)
[7]大數(shù)據(jù)存儲(chǔ)架構(gòu)和算法研究綜述[J]. 楊俊杰,廖卓凡,馮超超. 計(jì)算機(jī)應(yīng)用. 2016(09)
[8]海量遙感數(shù)據(jù)分布式集群化存儲(chǔ)技術(shù)研究[J]. 季艷,魯克文,張英慧. 計(jì)算機(jī)科學(xué)與探索. 2017(09)
[9]基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)模型研究[J]. 馬梅,劉東蘇,李慧. 情報(bào)科學(xué). 2016(03)
[10]大數(shù)據(jù)系統(tǒng)綜述[J]. 李學(xué)龍,龔海剛. 中國(guó)科學(xué):信息科學(xué). 2015(01)
本文編號(hào):2988492
【文章來(lái)源】:中國(guó)電子科學(xué)研究院學(xué)報(bào). 2020,15(05)北大核心
【文章頁(yè)數(shù)】:7 頁(yè)
【部分圖文】:
基于分布式集群的高可用日志分析系統(tǒng)整體架構(gòu)
1)數(shù)據(jù)采集模塊。在傳統(tǒng)的日志分析系統(tǒng)中,我們對(duì)日志數(shù)據(jù)進(jìn)行分析都是通過(guò)Flume采集Nginx生成的日志文件。對(duì)于用作實(shí)時(shí)分析的數(shù)據(jù),通過(guò)Flume把日志文件發(fā)送給Kafka,Flume作為生產(chǎn)者,再由后端程序消費(fèi)消息進(jìn)行實(shí)時(shí)分析。但是這種方式的缺點(diǎn)就是效率會(huì)比較慢,在數(shù)據(jù)量較大的情況下,這對(duì)于后面的數(shù)據(jù)實(shí)時(shí)分析會(huì)產(chǎn)生一定的延遲。本文通過(guò)Nginx整合Kafka直接將訪問(wèn)日志發(fā)送到Kafka中,可以縮短數(shù)據(jù)傳輸時(shí)間,提高傳輸效率。對(duì)于用作離線分析的數(shù)據(jù),本文仍采用傳統(tǒng)的數(shù)據(jù)采集方式,但通過(guò)自定義的Taildir Recursive Source可以實(shí)現(xiàn)遞歸地監(jiān)聽(tīng)子目錄。自定義Source組件的Flume如圖2所示。2)數(shù)據(jù)分析模塊。其包括實(shí)時(shí)計(jì)算引擎和離線處理引擎兩種模式,以支撐大數(shù)據(jù)計(jì)算及任務(wù)調(diào)度等應(yīng)用場(chǎng)景。其中,基于高可用的Spark計(jì)算集群,使用Spark SQL對(duì)HDFS中的訪問(wèn)日志進(jìn)行離線分析;使用SparkStreaming實(shí)時(shí)消費(fèi)Kafka中的數(shù)據(jù),并將數(shù)據(jù)分成批次處理,然后由Spark引擎進(jìn)行處理,以生成批處理的最終結(jié)果。該模塊的架構(gòu)如圖3所示。
2)數(shù)據(jù)分析模塊。其包括實(shí)時(shí)計(jì)算引擎和離線處理引擎兩種模式,以支撐大數(shù)據(jù)計(jì)算及任務(wù)調(diào)度等應(yīng)用場(chǎng)景。其中,基于高可用的Spark計(jì)算集群,使用Spark SQL對(duì)HDFS中的訪問(wèn)日志進(jìn)行離線分析;使用SparkStreaming實(shí)時(shí)消費(fèi)Kafka中的數(shù)據(jù),并將數(shù)據(jù)分成批次處理,然后由Spark引擎進(jìn)行處理,以生成批處理的最終結(jié)果。該模塊的架構(gòu)如圖3所示。3)數(shù)據(jù)存儲(chǔ)模塊。數(shù)據(jù)存儲(chǔ)方面采用分布式存儲(chǔ)系統(tǒng)和關(guān)系型數(shù)據(jù)庫(kù)混搭的方式。分布式文件系統(tǒng)HDFS持久化用于離線處理的訪問(wèn)日志[10]。關(guān)系型數(shù)據(jù)庫(kù)MySQL用于存放實(shí)時(shí)分析和離線分析聚合之后的各維度統(tǒng)計(jì)指標(biāo),便于數(shù)據(jù)可視化、查詢和匯總等應(yīng)用。分布式列存儲(chǔ)系統(tǒng)Hbase具有持久化存儲(chǔ)大量數(shù)據(jù)(TB、PB),良好的隨機(jī)讀寫功能,同時(shí)處理結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)等特點(diǎn),可用于存儲(chǔ)非聚合數(shù)據(jù),如訂單明細(xì),交易記錄等[11]。
【參考文獻(xiàn)】:
期刊論文
[1]實(shí)時(shí)大數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 羅俊,于水,楊維,孔華鋒. 計(jì)算機(jī)應(yīng)用與軟件. 2020(03)
[2]基于大數(shù)據(jù)的智能商務(wù)分析平臺(tái)開(kāi)發(fā)和設(shè)計(jì)[J]. 鄭國(guó)凱,黃彩娥. 現(xiàn)代電子技術(shù). 2020(05)
[3]大數(shù)據(jù)分析技術(shù)在網(wǎng)絡(luò)領(lǐng)域中的研究綜述[J]. 馮貴蘭,李正楠,周文剛. 計(jì)算機(jī)科學(xué). 2019(06)
[4]基于分布式Web應(yīng)用的大數(shù)據(jù)日志分析方法研究[J]. 孫魯淼. 電腦知識(shí)與技術(shù). 2019(03)
[5]基于分布式集群的網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析平臺(tái)構(gòu)建[J]. 蔡艷婧,王強(qiáng),程實(shí). 中國(guó)電子科學(xué)研究院學(xué)報(bào). 2019(01)
[6]云平臺(tái)中MySQL數(shù)據(jù)庫(kù)高可用性的設(shè)計(jì)與實(shí)現(xiàn)[J]. 康文杰,王勇,俸皓. 計(jì)算機(jī)工程與設(shè)計(jì). 2018(01)
[7]大數(shù)據(jù)存儲(chǔ)架構(gòu)和算法研究綜述[J]. 楊俊杰,廖卓凡,馮超超. 計(jì)算機(jī)應(yīng)用. 2016(09)
[8]海量遙感數(shù)據(jù)分布式集群化存儲(chǔ)技術(shù)研究[J]. 季艷,魯克文,張英慧. 計(jì)算機(jī)科學(xué)與探索. 2017(09)
[9]基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)模型研究[J]. 馬梅,劉東蘇,李慧. 情報(bào)科學(xué). 2016(03)
[10]大數(shù)據(jù)系統(tǒng)綜述[J]. 李學(xué)龍,龔海剛. 中國(guó)科學(xué):信息科學(xué). 2015(01)
本文編號(hào):2988492
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2988492.html
最近更新
教材專著