基于Kafka和Hadoop架構的工程研發(fā)數(shù)據(jù)挖掘
【文章頁數(shù)】:5 頁
【部分圖文】:
圖1某企業(yè)工程研發(fā)數(shù)據(jù)分析方案
如圖1所示,某企業(yè)工程研發(fā)數(shù)據(jù)分析方案整體分為4個層次,即數(shù)據(jù)采集、數(shù)據(jù)傳輸、數(shù)據(jù)分析框架和數(shù)據(jù)挖掘。平臺整體基于Hadoop大數(shù)據(jù)分析框架,前端使用Kafka作為流數(shù)據(jù)處理引擎,將采集出來的工程數(shù)據(jù)實時傳輸并處理完成,隨后提供到Hadoop系統(tǒng)中,供用戶完成數(shù)據(jù)分析挖掘工作。
圖2Kafka架構
如圖2所示,在Kafka集群中,一個服務節(jié)點被稱為Broker。對于每一個主題(Topic),Kafka集群保留至少一個用于縮放、容錯和并行化的分區(qū)(Partition)。每個分區(qū)都是一個有序且不可變的消息隊列[1]。簡單來說,每個終端作為一個“生產(chǎn)者”,將采集到的數(shù)據(jù)以指定的主....
圖3消息消費模式
Kafka的高性能首先得益于它的分布式架構,整個系統(tǒng)可以包含多個服務器實例,每個主題也可以有多個分區(qū),通過負載均衡機制來協(xié)同處理,以保證匹配不同級別的數(shù)據(jù)量。其次,Kafka的消費者同樣也支持群組,同一群組中的多個消費者可以同時消費同一主題不同分區(qū)的消息(見圖3),大大提高了消費....
圖4MapReduce框架工作原理
如圖4所示,在MapReduce的計算框架下,數(shù)據(jù)將被映射(Map)成<Key,Value>對,經(jīng)過排序和合并后,將<Key,Value>集合分發(fā)到每個Hadoop的計算節(jié)點上,各節(jié)點并行計算后再將各自的計算結果進行規(guī)約(Reduce)處理,合并成為最終的計算結果,當然這中間的全....
本文編號:3940682
本文鏈接:http://sikaile.net/kejilunwen/qiche/3940682.html