基于Kafka和Hadoop架構(gòu)的工程研發(fā)數(shù)據(jù)挖掘
【文章頁(yè)數(shù)】:5 頁(yè)
【部分圖文】:
圖1某企業(yè)工程研發(fā)數(shù)據(jù)分析方案
如圖1所示,某企業(yè)工程研發(fā)數(shù)據(jù)分析方案整體分為4個(gè)層次,即數(shù)據(jù)采集、數(shù)據(jù)傳輸、數(shù)據(jù)分析框架和數(shù)據(jù)挖掘。平臺(tái)整體基于Hadoop大數(shù)據(jù)分析框架,前端使用Kafka作為流數(shù)據(jù)處理引擎,將采集出來(lái)的工程數(shù)據(jù)實(shí)時(shí)傳輸并處理完成,隨后提供到Hadoop系統(tǒng)中,供用戶完成數(shù)據(jù)分析挖掘工作。
圖2Kafka架構(gòu)
如圖2所示,在Kafka集群中,一個(gè)服務(wù)節(jié)點(diǎn)被稱為Broker。對(duì)于每一個(gè)主題(Topic),Kafka集群保留至少一個(gè)用于縮放、容錯(cuò)和并行化的分區(qū)(Partition)。每個(gè)分區(qū)都是一個(gè)有序且不可變的消息隊(duì)列[1]。簡(jiǎn)單來(lái)說(shuō),每個(gè)終端作為一個(gè)“生產(chǎn)者”,將采集到的數(shù)據(jù)以指定的主....
圖3消息消費(fèi)模式
Kafka的高性能首先得益于它的分布式架構(gòu),整個(gè)系統(tǒng)可以包含多個(gè)服務(wù)器實(shí)例,每個(gè)主題也可以有多個(gè)分區(qū),通過(guò)負(fù)載均衡機(jī)制來(lái)協(xié)同處理,以保證匹配不同級(jí)別的數(shù)據(jù)量。其次,Kafka的消費(fèi)者同樣也支持群組,同一群組中的多個(gè)消費(fèi)者可以同時(shí)消費(fèi)同一主題不同分區(qū)的消息(見(jiàn)圖3),大大提高了消費(fèi)....
圖4MapReduce框架工作原理
如圖4所示,在MapReduce的計(jì)算框架下,數(shù)據(jù)將被映射(Map)成<Key,Value>對(duì),經(jīng)過(guò)排序和合并后,將<Key,Value>集合分發(fā)到每個(gè)Hadoop的計(jì)算節(jié)點(diǎn)上,各節(jié)點(diǎn)并行計(jì)算后再將各自的計(jì)算結(jié)果進(jìn)行規(guī)約(Reduce)處理,合并成為最終的計(jì)算結(jié)果,當(dāng)然這中間的全....
本文編號(hào):3940682
本文鏈接:http://sikaile.net/kejilunwen/qiche/3940682.html