當(dāng)前位置：主頁(yè) > 科技論文 > 計(jì)算機(jī)論文 >

基于分布式集群的高可用日志分析系統(tǒng)的設(shè)計(jì)

發(fā)布時(shí)間：2021-01-20 05:43

　　在傳統(tǒng)的訪問(wèn)日志分析系統(tǒng)中,數(shù)據(jù)采集效率較低且日志采集目錄不能被遞歸監(jiān)聽(tīng),存儲(chǔ)系統(tǒng)及計(jì)算系統(tǒng)缺乏高可用性。構(gòu)建基于分布式集群的高可用日志分析系統(tǒng),通過(guò)Nginx直連Kafka的方式采集實(shí)時(shí)分析的數(shù)據(jù)和自定義Source組件的Flume采集離線分析的數(shù)據(jù),使用高可用的分布式文件系統(tǒng)HDFS和計(jì)算系統(tǒng)Spark分別提供持久化存儲(chǔ)和計(jì)算引擎,利用Mysql和Hbase分別存儲(chǔ)聚合數(shù)據(jù)及明細(xì)數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)的各項(xiàng)功能符合預(yù)期結(jié)果,直連Nginx-Kafka的采集方式和自定義Source組件的Flume明顯提高采集效率,Zookeeper協(xié)調(diào)的分布式存儲(chǔ)系統(tǒng)HDFS和計(jì)算系統(tǒng)Spark均滿足高可用性,利用ALS算法測(cè)試存儲(chǔ)與計(jì)算系統(tǒng)的功能。

【文章來(lái)源】：中國(guó)電子科學(xué)研究院學(xué)報(bào). 2020,15(05)北大核心

【文章頁(yè)數(shù)】：7 頁(yè)

【部分圖文】：

基于分布式集群的高可用日志分析系統(tǒng)整體架構(gòu)

組件圖,組件,日志,實(shí)時(shí)分析

1)數(shù)據(jù)采集模塊。在傳統(tǒng)的日志分析系統(tǒng)中，我們對(duì)日志數(shù)據(jù)進(jìn)行分析都是通過(guò)Flume采集Nginx生成的日志文件。對(duì)于用作實(shí)時(shí)分析的數(shù)據(jù)，通過(guò)Flume把日志文件發(fā)送給Kafka,Flume作為生產(chǎn)者，再由后端程序消費(fèi)消息進(jìn)行實(shí)時(shí)分析。但是這種方式的缺點(diǎn)就是效率會(huì)比較慢，在數(shù)據(jù)量較大的情況下，這對(duì)于后面的數(shù)據(jù)實(shí)時(shí)分析會(huì)產(chǎn)生一定的延遲。本文通過(guò)Nginx整合Kafka直接將訪問(wèn)日志發(fā)送到Kafka中，可以縮短數(shù)據(jù)傳輸時(shí)間，提高傳輸效率。對(duì)于用作離線分析的數(shù)據(jù)，本文仍采用傳統(tǒng)的數(shù)據(jù)采集方式，但通過(guò)自定義的Taildir Recursive Source可以實(shí)現(xiàn)遞歸地監(jiān)聽(tīng)子目錄。自定義Source組件的Flume如圖2所示。2)數(shù)據(jù)分析模塊。其包括實(shí)時(shí)計(jì)算引擎和離線處理引擎兩種模式，以支撐大數(shù)據(jù)計(jì)算及任務(wù)調(diào)度等應(yīng)用場(chǎng)景。其中，基于高可用的Spark計(jì)算集群，使用Spark SQL對(duì)HDFS中的訪問(wèn)日志進(jìn)行離線分析;使用SparkStreaming實(shí)時(shí)消費(fèi)Kafka中的數(shù)據(jù)，并將數(shù)據(jù)分成批次處理，然后由Spark引擎進(jìn)行處理，以生成批處理的最終結(jié)果。該模塊的架構(gòu)如圖3所示。

架構(gòu)圖,數(shù)據(jù)分析,架構(gòu),模塊

2)數(shù)據(jù)分析模塊。其包括實(shí)時(shí)計(jì)算引擎和離線處理引擎兩種模式，以支撐大數(shù)據(jù)計(jì)算及任務(wù)調(diào)度等應(yīng)用場(chǎng)景。其中，基于高可用的Spark計(jì)算集群，使用Spark SQL對(duì)HDFS中的訪問(wèn)日志進(jìn)行離線分析;使用SparkStreaming實(shí)時(shí)消費(fèi)Kafka中的數(shù)據(jù)，并將數(shù)據(jù)分成批次處理，然后由Spark引擎進(jìn)行處理，以生成批處理的最終結(jié)果。該模塊的架構(gòu)如圖3所示。3)數(shù)據(jù)存儲(chǔ)模塊。數(shù)據(jù)存儲(chǔ)方面采用分布式存儲(chǔ)系統(tǒng)和關(guān)系型數(shù)據(jù)庫(kù)混搭的方式。分布式文件系統(tǒng)HDFS持久化用于離線處理的訪問(wèn)日志[10]。關(guān)系型數(shù)據(jù)庫(kù)MySQL用于存放實(shí)時(shí)分析和離線分析聚合之后的各維度統(tǒng)計(jì)指標(biāo)，便于數(shù)據(jù)可視化、查詢和匯總等應(yīng)用。分布式列存儲(chǔ)系統(tǒng)Hbase具有持久化存儲(chǔ)大量數(shù)據(jù)(TB、PB)，良好的隨機(jī)讀寫功能，同時(shí)處理結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)等特點(diǎn)，可用于存儲(chǔ)非聚合數(shù)據(jù)，如訂單明細(xì)，交易記錄等[11]。

【參考文獻(xiàn)】：
期刊論文
[1]實(shí)時(shí)大數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 羅俊,于水,楊維,孔華鋒.  計(jì)算機(jī)應(yīng)用與軟件. 2020(03)
[2]基于大數(shù)據(jù)的智能商務(wù)分析平臺(tái)開(kāi)發(fā)和設(shè)計(jì)[J]. 鄭國(guó)凱,黃彩娥.  現(xiàn)代電子技術(shù). 2020(05)
[3]大數(shù)據(jù)分析技術(shù)在網(wǎng)絡(luò)領(lǐng)域中的研究綜述[J]. 馮貴蘭,李正楠,周文剛.  計(jì)算機(jī)科學(xué). 2019(06)
[4]基于分布式Web應(yīng)用的大數(shù)據(jù)日志分析方法研究[J]. 孫魯淼.  電腦知識(shí)與技術(shù). 2019(03)
[5]基于分布式集群的網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析平臺(tái)構(gòu)建[J]. 蔡艷婧,王強(qiáng),程實(shí).  中國(guó)電子科學(xué)研究院學(xué)報(bào). 2019(01)
[6]云平臺(tái)中MySQL數(shù)據(jù)庫(kù)高可用性的設(shè)計(jì)與實(shí)現(xiàn)[J]. 康文杰,王勇,俸皓.  計(jì)算機(jī)工程與設(shè)計(jì). 2018(01)
[7]大數(shù)據(jù)存儲(chǔ)架構(gòu)和算法研究綜述[J]. 楊俊杰,廖卓凡,馮超超.  計(jì)算機(jī)應(yīng)用. 2016(09)
[8]海量遙感數(shù)據(jù)分布式集群化存儲(chǔ)技術(shù)研究[J]. 季艷,魯克文,張英慧.  計(jì)算機(jī)科學(xué)與探索. 2017(09)
[9]基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)模型研究[J]. 馬梅,劉東蘇,李慧.  情報(bào)科學(xué). 2016(03)
[10]大數(shù)據(jù)系統(tǒng)綜述[J]. 李學(xué)龍,龔海剛.  中國(guó)科學(xué):信息科學(xué). 2015(01)

本文編號(hào)：2988492

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2988492.html

上一篇：淺談次時(shí)代機(jī)硬件技術(shù)革新
下一篇：基于DDS的多接口模式可程控函數(shù)發(fā)生器的研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于分布式集群的高可用日志分析系統(tǒng)的設(shè)計(jì)