基于大數(shù)據(jù)的鐵路客運(yùn)用戶畫(huà)像系統(tǒng)研究及應(yīng)用
【學(xué)位授予單位】:中國(guó)鐵道科學(xué)研究院
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:U293.2;TP311.13
【圖文】:
圖 2-1Apache Flume 架構(gòu)Fig.2-1 Apache Flume architectureFlume 的最小獨(dú)立運(yùn)行單元是 Agent,每一個(gè) Agent 相當(dāng)于一個(gè)小的虛Flume 主要由 Source、Channel、Sink 組件構(gòu)成,不同類型組件之間可以進(jìn)組合來(lái)滿足不同復(fù)雜度和需求的系統(tǒng)。Source 組件主要實(shí)現(xiàn)對(duì)數(shù)據(jù)發(fā)送方志數(shù)據(jù)的采集接收,Channel 組件主要負(fù)責(zé)建立 Source 和 Sink 組件的臨時(shí)道,Sink 組件主要實(shí)現(xiàn)了將采集到的數(shù)據(jù)發(fā)送到存儲(chǔ)、分析、緩存等系統(tǒng)實(shí)現(xiàn)數(shù)據(jù)的最終存儲(chǔ)。Flume 具有高度可擴(kuò)展性,支持多級(jí)分流處理,可以根據(jù)不同的業(yè)務(wù)功能需求對(duì) Flume 的組件進(jìn)行不同方式的組合,從而構(gòu)建出一套低耦合、高可用的強(qiáng)壯的采集系統(tǒng)。(2) Kafka 分布式發(fā)布訂閱消息系統(tǒng)Kafka[14]是最初由 Linkedin 公司開(kāi)發(fā)的一個(gè)分布式,具有高吞吐量、可擴(kuò)展性、持久性、可靠性、容錯(cuò)性、高并發(fā)性的基于發(fā)布與訂閱模式的
圖 2-2 Kafka 主要架構(gòu)Fig.2-2 Kafka main architectureKafka 主要由 Broker、Topic、Partition、Producer、Consumer Group、Zookee等組件構(gòu)成,詳細(xì)介紹如下:Broker:Kafka 集群包含一個(gè)或多個(gè)服務(wù)器,這種服務(wù)器被稱為 broker。Topic:每條發(fā)布到 Kafka 集群的消息都有一個(gè)類別,這個(gè)類別被稱為 Top物理上不同 Topic 的消息分開(kāi)存儲(chǔ),邏輯上一個(gè) Topic 的消息雖然保存于一個(gè)多個(gè) broker 上,但用戶只需指定消息的 Topic 即可生產(chǎn)或消費(fèi)數(shù)據(jù)而不必關(guān)數(shù)據(jù)存于何處。Partition:Partition 是物理上的概念,每個(gè) Topic 包含一個(gè)或多個(gè) PartitioProducer:負(fù)責(zé)發(fā)布消息到 Kafka broker。Consumer:消息消費(fèi)者,向 Kafka broker 讀取消息的客戶端。Consumer Group:每個(gè) Consumer 屬于一個(gè)特定的 Consumer Group,可為個(gè) Consumer 指定 group name,若不指定 group name 則屬于默認(rèn)的 group。
圖 2-3 Spark Streaming 主要架構(gòu)Fig.2-3 Spark Streaming main architectureSpark Streaming 處理機(jī)制:先接收實(shí)時(shí)流的數(shù)據(jù),并根據(jù)一定的時(shí)間間隔拆一批批的數(shù)據(jù),每批次的數(shù)據(jù)在 Spark 內(nèi)核中對(duì)應(yīng)一個(gè) RDD 實(shí)例,然后通過(guò)rk 核心的作業(yè)處理這些批數(shù)據(jù),最終對(duì)處理后的數(shù)據(jù)進(jìn)行存儲(chǔ)。非常適合實(shí)時(shí)志的結(jié)構(gòu)化處理。其具有流式處理、高容錯(cuò)、延遲低、吞吐量高等特點(diǎn),并供了豐富的 API 接口對(duì)接 HDFS、Hive、Kafka、Flume 等系統(tǒng)。 數(shù)據(jù)存儲(chǔ)技術(shù)研究.1 Hive 數(shù)據(jù)倉(cāng)庫(kù)Hive[16]是建立在 Hadoop 上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)構(gòu)架。它提供了一系列的工具,用來(lái)進(jìn)行數(shù)據(jù)提取轉(zhuǎn)換加載(ETL),這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在doop 中的大規(guī)模數(shù)據(jù)的機(jī)制。Hive 定義了簡(jiǎn)單的類 SQL 查詢語(yǔ)言,稱為
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 周飛;高茂庭;;基于PageRank的網(wǎng)絡(luò)社區(qū)意見(jiàn)領(lǐng)袖發(fā)現(xiàn)算法[J];計(jì)算機(jī)工程;2018年02期
2 郭鵬程;李迎春;付春燕;曹炳堯;;海量日志數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與優(yōu)化[J];電子測(cè)量技術(shù);2018年01期
3 趙文芳;劉旭林;;Spark Streaming框架下的氣象自動(dòng)站數(shù)據(jù)實(shí)時(shí)處理系統(tǒng)[J];計(jì)算機(jī)應(yīng)用;2018年01期
4 曾俊;;一種基于Hadoop架構(gòu)的并行挖掘算法研究[J];現(xiàn)代電子技術(shù);2018年01期
5 趙哲;譚海波;趙赫;王衛(wèi)東;李曉風(fēng);;基于Zabbix的網(wǎng)絡(luò)監(jiān)控系統(tǒng)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2018年01期
6 陳沛;馬衛(wèi)東;;一種基于Nginx的負(fù)載均衡算法實(shí)現(xiàn)[J];電子設(shè)計(jì)工程;2017年19期
7 郝曉培;單杏花;楊立鵬;王拓;;基于大數(shù)據(jù)技術(shù)的鐵路互聯(lián)網(wǎng)售票異常用戶行為分析研究與實(shí)現(xiàn)[J];鐵路計(jì)算機(jī)應(yīng)用;2017年05期
8 宋佳慧;劉遠(yuǎn)剛;林琳;李紳弘;許帆;;基于eCharts的動(dòng)態(tài)統(tǒng)計(jì)圖表繪制技術(shù)研究[J];電腦知識(shí)與技術(shù);2017年12期
9 陶抒青;劉曉強(qiáng);李柏巖;Shen Jie;;基于密度聚類和投票判別的三維數(shù)據(jù)去噪方法[J];計(jì)算機(jī)應(yīng)用研究;2018年02期
10 艾新;鄭曉娟;;基于HIVE的通信系統(tǒng)KPI數(shù)據(jù)存儲(chǔ)方案的信令系統(tǒng)構(gòu)建研究[J];通訊世界;2017年02期
相關(guān)碩士學(xué)位論文 前9條
1 何雪瑩;探索性數(shù)據(jù)可視化分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];西南交通大學(xué);2017年
2 王鄭合;基于Kafka的消息隊(duì)列在射天文數(shù)據(jù)處理中應(yīng)用的研究[D];昆明理工大學(xué);2017年
3 陶滿;SZA航空公司營(yíng)銷策略研究[D];電子科技大學(xué);2016年
4 賀錄;基于云計(jì)算的醫(yī)療器械檢測(cè)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[D];西安工業(yè)大學(xué);2016年
5 邱藤;基于高斯混合模型的EM算法及其應(yīng)用研究[D];電子科技大學(xué);2015年
6 張哲;基于微博數(shù)據(jù)的用戶畫(huà)像系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2015年
7 劉靜;數(shù)據(jù)倉(cāng)庫(kù)在零售業(yè)商業(yè)智能系統(tǒng)的應(yīng)用[D];江蘇科技大學(xué);2014年
8 付威;面向?qū)崟r(shí)數(shù)據(jù)倉(cāng)庫(kù)的達(dá)夢(mèng)數(shù)據(jù)交換平臺(tái)改進(jìn)[D];華中科技大學(xué);2012年
9 金奎;基于分布式存儲(chǔ)系統(tǒng)的數(shù)據(jù)安全傳輸?shù)脑O(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2009年
本文編號(hào):2784708
本文鏈接:http://sikaile.net/guanlilunwen/yingxiaoguanlilunwen/2784708.html