基于Hadoop的石油大數(shù)據(jù)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-09-22 02:07
某省關(guān)于石油的各類采集設(shè)備數(shù)量繁多,且格式各異。現(xiàn)今為了將某省各石油站點(diǎn)的采集數(shù)據(jù)統(tǒng)一存儲(chǔ)起來,需要一個(gè)大數(shù)據(jù)存儲(chǔ)中心。大數(shù)據(jù)存儲(chǔ)中心必須在容量上滿足存儲(chǔ)要求,可以存儲(chǔ)目前以及未來的石油數(shù)據(jù)。在數(shù)據(jù)輸入方面,存儲(chǔ)中心要能滿足全省數(shù)據(jù)輸入流量的要求。同時(shí)要具備有高效的海量數(shù)據(jù)查找功能。此外,要具備有相應(yīng)的系統(tǒng)監(jiān)控功能,能夠監(jiān)控系統(tǒng)的實(shí)時(shí)IO,實(shí)時(shí)網(wǎng)絡(luò)負(fù)載,實(shí)時(shí)資源使用率等等,為管理人員提供便捷的監(jiān)控功能;在安全方面,也要有相應(yīng)的措施防止數(shù)據(jù)泄露;在系統(tǒng)管理上,要有配套的管理功能如節(jié)點(diǎn)新增、存儲(chǔ)擴(kuò)容、節(jié)點(diǎn)遷移等。為了解決以上問題,本文基于Hadoop分布式平臺(tái)搭建了一個(gè)石油大數(shù)據(jù)平臺(tái),用來存儲(chǔ)、管理、查詢石油大數(shù)據(jù)。在解決海量數(shù)據(jù)的存儲(chǔ)問題上面使用基于HDFS的分布式存儲(chǔ)系統(tǒng),具備有多副本和動(dòng)態(tài)擴(kuò)容的能力;在數(shù)據(jù)輸入方面,使用基于Kafka的分布式消息隊(duì)列保證數(shù)據(jù)的安全性和高效性;在數(shù)據(jù)查詢方面,通過應(yīng)用Hbase數(shù)據(jù)庫,達(dá)到對(duì)海量數(shù)據(jù)的高效查詢;在監(jiān)控功能、管理功能和安全功能使用基于CM的管理平臺(tái)對(duì)大數(shù)據(jù)存儲(chǔ)中心進(jìn)行統(tǒng)一管理。最終對(duì)實(shí)現(xiàn)的石油大數(shù)據(jù)平臺(tái)進(jìn)行測(cè)試。系統(tǒng)可以到達(dá)每秒4萬條數(shù)據(jù)...
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
YARN的架構(gòu)圖
華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 文5. 選擇我們需要為群集所安裝的服務(wù):包括 HDFS、HBase、hive 等等6. 角色分配:不同服務(wù)器在不同組件中扮演的角色不同,根據(jù)需要分配角色7. 設(shè)置數(shù)據(jù)庫8. 設(shè)置群集這樣 CM 數(shù)據(jù)庫中自帶的所有我們需要使用的組件全都在服務(wù)器上安裝成功了,其中 Kafka 需要通過離線安裝的方式加入到整個(gè)群集中。對(duì)四臺(tái)服務(wù)器也根據(jù)其在Kafka 中扮演的角色來配置環(huán)境。所有服務(wù)安裝成功之后,CM 的界面如圖 3-1 所示。
stcode 站點(diǎn)編碼 reporttime 發(fā)送時(shí)間uid 設(shè)備 id temp 溫度protocol 協(xié)議編號(hào) stdflux 標(biāo)況瞬時(shí)datetime 采集時(shí)間 stdvolume 標(biāo)況累計(jì)press 壓力 state 狀況actflux 工況瞬時(shí) alarm 警告actvolume 工況累計(jì) mark 標(biāo)記rx rx 報(bào)文 tx tx 報(bào)文其中發(fā)送時(shí)間和采集時(shí)間只使用其中一個(gè)作為數(shù)據(jù)標(biāo)準(zhǔn)獲取時(shí)間,最終選擇datatime 作為實(shí)際時(shí)間,另外一個(gè)則棄掉。3.3.2 HBase 數(shù)據(jù)表設(shè)計(jì)需求方對(duì)于數(shù)據(jù)存儲(chǔ)的需求總共有以下幾點(diǎn):1. 實(shí)時(shí)采集數(shù)據(jù)種類分為:流量計(jì)數(shù)據(jù)和傳感器數(shù)據(jù)。不同種類的設(shè)備采集數(shù)據(jù)分表存儲(chǔ);2. 需要額外的一種分鐘表來對(duì)實(shí)時(shí)表中的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)計(jì)算后再次存儲(chǔ);3. 需要一張表用來存儲(chǔ)所有已錄入數(shù)據(jù)的站點(diǎn)相關(guān)數(shù)據(jù)。
【參考文獻(xiàn)】:
期刊論文
[1]基于Spark Streaming的電力流式大數(shù)據(jù)分析架構(gòu)及應(yīng)用[J]. 田璐,齊林海,李青,王紅,田世明,卜凡鵬. 電力信息與通信技術(shù). 2019(02)
[2]基于HBase的海量冠字號(hào)碼多維索引研究[J]. 張藝,張重陽. 計(jì)算機(jī)與數(shù)字工程. 2019(01)
[3]基于Hadoop平臺(tái)的軌道交通能效管理系統(tǒng)的建設(shè)方案[J]. 陳莉莉,張賽橋,狄穎琪. 自動(dòng)化儀表. 2019(01)
[4]基于行鍵的HBase大數(shù)據(jù)文件存儲(chǔ)轉(zhuǎn)換與快速檢索研究[J]. 圣文順,徐愛萍. 計(jì)算機(jī)應(yīng)用研究. 2019(12)
[5]基于Hadoop的海量氣象水文數(shù)據(jù)并發(fā)處理模型[J]. 李輝,王建文,葉明雯. 計(jì)算機(jī)應(yīng)用. 2018(S2)
[6]基于Hadoop分布式交通大數(shù)據(jù)存儲(chǔ)分析平臺(tái)設(shè)計(jì)[J]. 陳中,范開勇,饒宏博. 電腦編程技巧與維護(hù). 2018(12)
[7]基于Hadoop的高校教育私有云平臺(tái)的構(gòu)建與應(yīng)用研究[J]. 戈振興,邊靜. 信息通信. 2018(12)
[8]基于Hadoop的氣象大數(shù)據(jù)分析GIS平臺(tái)設(shè)計(jì)與試驗(yàn)[J]. 李濤,馮仲科,孫素芬,程文生. 農(nóng)業(yè)機(jī)械學(xué)報(bào). 2019(01)
[9]一種基于Yarn云計(jì)算平臺(tái)與NMF的大數(shù)據(jù)聚類算法[J]. 馮新?lián)P,沈建京. 信息網(wǎng)絡(luò)安全. 2018(08)
[10]Hadoop Hive實(shí)現(xiàn)日志數(shù)據(jù)統(tǒng)計(jì)[J]. 張野. 電腦編程技巧與維護(hù). 2018(04)
碩士論文
[1]基于Hadoop平臺(tái)的地理空間數(shù)據(jù)管理系統(tǒng)[D]. 張洋.西安電子科技大學(xué) 2018
[2]基于Kafka的大規(guī)模流數(shù)據(jù)分布式緩存與分析平臺(tái)[D]. 牛牧.吉林大學(xué) 2016
本文編號(hào):3402922
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
YARN的架構(gòu)圖
華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 文5. 選擇我們需要為群集所安裝的服務(wù):包括 HDFS、HBase、hive 等等6. 角色分配:不同服務(wù)器在不同組件中扮演的角色不同,根據(jù)需要分配角色7. 設(shè)置數(shù)據(jù)庫8. 設(shè)置群集這樣 CM 數(shù)據(jù)庫中自帶的所有我們需要使用的組件全都在服務(wù)器上安裝成功了,其中 Kafka 需要通過離線安裝的方式加入到整個(gè)群集中。對(duì)四臺(tái)服務(wù)器也根據(jù)其在Kafka 中扮演的角色來配置環(huán)境。所有服務(wù)安裝成功之后,CM 的界面如圖 3-1 所示。
stcode 站點(diǎn)編碼 reporttime 發(fā)送時(shí)間uid 設(shè)備 id temp 溫度protocol 協(xié)議編號(hào) stdflux 標(biāo)況瞬時(shí)datetime 采集時(shí)間 stdvolume 標(biāo)況累計(jì)press 壓力 state 狀況actflux 工況瞬時(shí) alarm 警告actvolume 工況累計(jì) mark 標(biāo)記rx rx 報(bào)文 tx tx 報(bào)文其中發(fā)送時(shí)間和采集時(shí)間只使用其中一個(gè)作為數(shù)據(jù)標(biāo)準(zhǔn)獲取時(shí)間,最終選擇datatime 作為實(shí)際時(shí)間,另外一個(gè)則棄掉。3.3.2 HBase 數(shù)據(jù)表設(shè)計(jì)需求方對(duì)于數(shù)據(jù)存儲(chǔ)的需求總共有以下幾點(diǎn):1. 實(shí)時(shí)采集數(shù)據(jù)種類分為:流量計(jì)數(shù)據(jù)和傳感器數(shù)據(jù)。不同種類的設(shè)備采集數(shù)據(jù)分表存儲(chǔ);2. 需要額外的一種分鐘表來對(duì)實(shí)時(shí)表中的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)計(jì)算后再次存儲(chǔ);3. 需要一張表用來存儲(chǔ)所有已錄入數(shù)據(jù)的站點(diǎn)相關(guān)數(shù)據(jù)。
【參考文獻(xiàn)】:
期刊論文
[1]基于Spark Streaming的電力流式大數(shù)據(jù)分析架構(gòu)及應(yīng)用[J]. 田璐,齊林海,李青,王紅,田世明,卜凡鵬. 電力信息與通信技術(shù). 2019(02)
[2]基于HBase的海量冠字號(hào)碼多維索引研究[J]. 張藝,張重陽. 計(jì)算機(jī)與數(shù)字工程. 2019(01)
[3]基于Hadoop平臺(tái)的軌道交通能效管理系統(tǒng)的建設(shè)方案[J]. 陳莉莉,張賽橋,狄穎琪. 自動(dòng)化儀表. 2019(01)
[4]基于行鍵的HBase大數(shù)據(jù)文件存儲(chǔ)轉(zhuǎn)換與快速檢索研究[J]. 圣文順,徐愛萍. 計(jì)算機(jī)應(yīng)用研究. 2019(12)
[5]基于Hadoop的海量氣象水文數(shù)據(jù)并發(fā)處理模型[J]. 李輝,王建文,葉明雯. 計(jì)算機(jī)應(yīng)用. 2018(S2)
[6]基于Hadoop分布式交通大數(shù)據(jù)存儲(chǔ)分析平臺(tái)設(shè)計(jì)[J]. 陳中,范開勇,饒宏博. 電腦編程技巧與維護(hù). 2018(12)
[7]基于Hadoop的高校教育私有云平臺(tái)的構(gòu)建與應(yīng)用研究[J]. 戈振興,邊靜. 信息通信. 2018(12)
[8]基于Hadoop的氣象大數(shù)據(jù)分析GIS平臺(tái)設(shè)計(jì)與試驗(yàn)[J]. 李濤,馮仲科,孫素芬,程文生. 農(nóng)業(yè)機(jī)械學(xué)報(bào). 2019(01)
[9]一種基于Yarn云計(jì)算平臺(tái)與NMF的大數(shù)據(jù)聚類算法[J]. 馮新?lián)P,沈建京. 信息網(wǎng)絡(luò)安全. 2018(08)
[10]Hadoop Hive實(shí)現(xiàn)日志數(shù)據(jù)統(tǒng)計(jì)[J]. 張野. 電腦編程技巧與維護(hù). 2018(04)
碩士論文
[1]基于Hadoop平臺(tái)的地理空間數(shù)據(jù)管理系統(tǒng)[D]. 張洋.西安電子科技大學(xué) 2018
[2]基于Kafka的大規(guī)模流數(shù)據(jù)分布式緩存與分析平臺(tái)[D]. 牛牧.吉林大學(xué) 2016
本文編號(hào):3402922
本文鏈接:http://sikaile.net/kejilunwen/shiyounenyuanlunwen/3402922.html
最近更新
教材專著