基于大數(shù)據(jù)的鐵路客運(yùn)用戶畫像系統(tǒng)研究及應(yīng)用
【學(xué)位授予單位】:中國鐵道科學(xué)研究院
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:U293.2;TP311.13
【圖文】:
圖 2-1Apache Flume 架構(gòu)Fig.2-1 Apache Flume architectureFlume 的最小獨(dú)立運(yùn)行單元是 Agent,每一個 Agent 相當(dāng)于一個小的虛Flume 主要由 Source、Channel、Sink 組件構(gòu)成,不同類型組件之間可以進(jìn)組合來滿足不同復(fù)雜度和需求的系統(tǒng)。Source 組件主要實現(xiàn)對數(shù)據(jù)發(fā)送方志數(shù)據(jù)的采集接收,Channel 組件主要負(fù)責(zé)建立 Source 和 Sink 組件的臨時道,Sink 組件主要實現(xiàn)了將采集到的數(shù)據(jù)發(fā)送到存儲、分析、緩存等系統(tǒng)實現(xiàn)數(shù)據(jù)的最終存儲。Flume 具有高度可擴(kuò)展性,支持多級分流處理,可以根據(jù)不同的業(yè)務(wù)功能需求對 Flume 的組件進(jìn)行不同方式的組合,從而構(gòu)建出一套低耦合、高可用的強(qiáng)壯的采集系統(tǒng)。(2) Kafka 分布式發(fā)布訂閱消息系統(tǒng)Kafka[14]是最初由 Linkedin 公司開發(fā)的一個分布式,具有高吞吐量、可擴(kuò)展性、持久性、可靠性、容錯性、高并發(fā)性的基于發(fā)布與訂閱模式的
圖 2-2 Kafka 主要架構(gòu)Fig.2-2 Kafka main architectureKafka 主要由 Broker、Topic、Partition、Producer、Consumer Group、Zookee等組件構(gòu)成,詳細(xì)介紹如下:Broker:Kafka 集群包含一個或多個服務(wù)器,這種服務(wù)器被稱為 broker。Topic:每條發(fā)布到 Kafka 集群的消息都有一個類別,這個類別被稱為 Top物理上不同 Topic 的消息分開存儲,邏輯上一個 Topic 的消息雖然保存于一個多個 broker 上,但用戶只需指定消息的 Topic 即可生產(chǎn)或消費(fèi)數(shù)據(jù)而不必關(guān)數(shù)據(jù)存于何處。Partition:Partition 是物理上的概念,每個 Topic 包含一個或多個 PartitioProducer:負(fù)責(zé)發(fā)布消息到 Kafka broker。Consumer:消息消費(fèi)者,向 Kafka broker 讀取消息的客戶端。Consumer Group:每個 Consumer 屬于一個特定的 Consumer Group,可為個 Consumer 指定 group name,若不指定 group name 則屬于默認(rèn)的 group。
圖 2-3 Spark Streaming 主要架構(gòu)Fig.2-3 Spark Streaming main architectureSpark Streaming 處理機(jī)制:先接收實時流的數(shù)據(jù),并根據(jù)一定的時間間隔拆一批批的數(shù)據(jù),每批次的數(shù)據(jù)在 Spark 內(nèi)核中對應(yīng)一個 RDD 實例,然后通過rk 核心的作業(yè)處理這些批數(shù)據(jù),最終對處理后的數(shù)據(jù)進(jìn)行存儲。非常適合實時志的結(jié)構(gòu)化處理。其具有流式處理、高容錯、延遲低、吞吐量高等特點(diǎn),并供了豐富的 API 接口對接 HDFS、Hive、Kafka、Flume 等系統(tǒng)。 數(shù)據(jù)存儲技術(shù)研究.1 Hive 數(shù)據(jù)倉庫Hive[16]是建立在 Hadoop 上的數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架。它提供了一系列的工具,用來進(jìn)行數(shù)據(jù)提取轉(zhuǎn)換加載(ETL),這是一種可以存儲、查詢和分析存儲在doop 中的大規(guī)模數(shù)據(jù)的機(jī)制。Hive 定義了簡單的類 SQL 查詢語言,稱為
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 周飛;高茂庭;;基于PageRank的網(wǎng)絡(luò)社區(qū)意見領(lǐng)袖發(fā)現(xiàn)算法[J];計算機(jī)工程;2018年02期
2 郭鵬程;李迎春;付春燕;曹炳堯;;海量日志數(shù)據(jù)采集系統(tǒng)的設(shè)計與優(yōu)化[J];電子測量技術(shù);2018年01期
3 趙文芳;劉旭林;;Spark Streaming框架下的氣象自動站數(shù)據(jù)實時處理系統(tǒng)[J];計算機(jī)應(yīng)用;2018年01期
4 曾俊;;一種基于Hadoop架構(gòu)的并行挖掘算法研究[J];現(xiàn)代電子技術(shù);2018年01期
5 趙哲;譚海波;趙赫;王衛(wèi)東;李曉風(fēng);;基于Zabbix的網(wǎng)絡(luò)監(jiān)控系統(tǒng)[J];計算機(jī)技術(shù)與發(fā)展;2018年01期
6 陳沛;馬衛(wèi)東;;一種基于Nginx的負(fù)載均衡算法實現(xiàn)[J];電子設(shè)計工程;2017年19期
7 郝曉培;單杏花;楊立鵬;王拓;;基于大數(shù)據(jù)技術(shù)的鐵路互聯(lián)網(wǎng)售票異常用戶行為分析研究與實現(xiàn)[J];鐵路計算機(jī)應(yīng)用;2017年05期
8 宋佳慧;劉遠(yuǎn)剛;林琳;李紳弘;許帆;;基于eCharts的動態(tài)統(tǒng)計圖表繪制技術(shù)研究[J];電腦知識與技術(shù);2017年12期
9 陶抒青;劉曉強(qiáng);李柏巖;Shen Jie;;基于密度聚類和投票判別的三維數(shù)據(jù)去噪方法[J];計算機(jī)應(yīng)用研究;2018年02期
10 艾新;鄭曉娟;;基于HIVE的通信系統(tǒng)KPI數(shù)據(jù)存儲方案的信令系統(tǒng)構(gòu)建研究[J];通訊世界;2017年02期
相關(guān)碩士學(xué)位論文 前9條
1 何雪瑩;探索性數(shù)據(jù)可視化分析系統(tǒng)的設(shè)計與實現(xiàn)[D];西南交通大學(xué);2017年
2 王鄭合;基于Kafka的消息隊列在射天文數(shù)據(jù)處理中應(yīng)用的研究[D];昆明理工大學(xué);2017年
3 陶滿;SZA航空公司營銷策略研究[D];電子科技大學(xué);2016年
4 賀錄;基于云計算的醫(yī)療器械檢測平臺設(shè)計與實現(xiàn)[D];西安工業(yè)大學(xué);2016年
5 邱藤;基于高斯混合模型的EM算法及其應(yīng)用研究[D];電子科技大學(xué);2015年
6 張哲;基于微博數(shù)據(jù)的用戶畫像系統(tǒng)的設(shè)計與實現(xiàn)[D];華中科技大學(xué);2015年
7 劉靜;數(shù)據(jù)倉庫在零售業(yè)商業(yè)智能系統(tǒng)的應(yīng)用[D];江蘇科技大學(xué);2014年
8 付威;面向?qū)崟r數(shù)據(jù)倉庫的達(dá)夢數(shù)據(jù)交換平臺改進(jìn)[D];華中科技大學(xué);2012年
9 金奎;基于分布式存儲系統(tǒng)的數(shù)據(jù)安全傳輸?shù)脑O(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2009年
本文編號:2784708
本文鏈接:http://sikaile.net/guanlilunwen/yingxiaoguanlilunwen/2784708.html