面向流式數(shù)據(jù)的工業(yè)質(zhì)量數(shù)據(jù)分析平臺
發(fā)布時間:2021-06-28 22:47
大數(shù)據(jù)處理技術是當代信息技術領域的重要發(fā)展方向之一,隨著大數(shù)據(jù)相關技術的不斷發(fā)展與應用,實時計算領域越來越被關注。以Hadoop為代表的基于MapReduce計算框架的大數(shù)據(jù)處理技術往往是通過批處理方式對歷史數(shù)據(jù)進行分析,而實時計算領域則強調(diào)的是對瞬時數(shù)據(jù)進行在線處理。另一方面,傳統(tǒng)工業(yè)企業(yè)產(chǎn)品在生產(chǎn)過程中,無時無刻不在產(chǎn)生著海量的數(shù)據(jù),典型的如工業(yè)設備傳感器數(shù)據(jù)等。這些數(shù)據(jù)的特征是連續(xù)、無限增長、無序,并且需要實時響應,被稱為流式數(shù)據(jù)。工業(yè)企業(yè)在面對這些海量的流式數(shù)據(jù)時,主要有以下三點問題:1)無法解決海量流式數(shù)據(jù)的大規(guī)模存儲問題;2)像對待普通數(shù)據(jù)一樣處理流式數(shù)據(jù),無法發(fā)揮流式數(shù)據(jù)實時性的特點;3)傳統(tǒng)的技術架構(gòu)無法對流式數(shù)據(jù)進行更高維度的分析,不能應用機器學習模型等新興技術手段去分析處理。顯然,以傳統(tǒng)的數(shù)據(jù)分析處理方法并不能對流式數(shù)據(jù)進行有效的分析及存儲。如何去挖掘工業(yè)質(zhì)量流式數(shù)據(jù)更深層次的價值,對這些質(zhì)量數(shù)據(jù)進行各個維度的分析,并且以可視化的形式動態(tài)展現(xiàn)給普通用戶,是本文研究的主要目的。基于本課題(面向工業(yè)企業(yè)的質(zhì)量大數(shù)據(jù)分析云服務平臺)的實際研究背景與需求,本文從一個相對通用...
【文章來源】:安徽工業(yè)大學安徽省
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
總體邏輯設計
圖 2.2 總體架構(gòu)設計2.1.3 設計原則前面已經(jīng)提到,本文主要研究目的之一就是提出一個高可用、高效率、高度可擴展的面向流式數(shù)據(jù)的實時計算框架。因此,平臺需要在遵循一定原則的基礎上進行設計與開發(fā),具體來說,貫穿本平臺的總體設計原則主要有如下幾個方面:1)總體設計原則:高可用,高效率,通用性的設計準則,在功能模塊設計上做到粗粒度,低耦合,讓每個模塊都可以獨立開發(fā),并且可以完成相應的替換。2)數(shù)據(jù)存儲原則:在不同的業(yè)務場景下選擇不同的數(shù)據(jù)存儲模塊。3)服務化原則:盡可能地讓一個模塊作為一個服務去運行,避免服務間的相互影響,有效降低平臺各個功能模塊間的耦合性。
圖 2.3 FlumeAgent 運行架構(gòu)由于 Flume 本身不支持實時采集關系型數(shù)據(jù)庫的流式數(shù)據(jù),因此需要使用 Flume 的高級自定義源的開發(fā),可以通過 FlumeAgent 來實時監(jiān)控關系型數(shù)據(jù)庫。flume-ng-sql-source 是一個基于 Flume 組件的開源項目,用來使 FlumeAgent 連接關系型數(shù)據(jù)庫,實時監(jiān)控關系型數(shù)據(jù)庫的變化,其底層是通過 RowIndex 索引機制來捕捉數(shù)據(jù)的增加。通過 flume-ng-sql-source 組件采集數(shù)據(jù),只需要在 Flume Agent 的 Source 端(見圖 2.3)配置相應的關系型數(shù)據(jù)庫連接信息即可。由于 flume-ng-sql-source 底層采用的是 hibernate 作為數(shù)據(jù)庫的連接,故只需要根據(jù)hibernate 的官方文檔給出的格式進行配置即可,但是由于該組件官方并不支持本文的實時數(shù)據(jù)庫 InSql,因此本文對其進行重新編譯開發(fā)以使其支持 InSql 數(shù)據(jù)源的采集,這也是本文大量采用開源組件進行開發(fā)設計的主要原因。2.2.2 Kafka 消息隊列中間件使用 Flume 采集數(shù)據(jù)的關鍵在于配置 FlumeSource、FlumeChannel、FlumeSink 這三個組件,其中FlumeSource的配置源的選區(qū)在上一節(jié)已經(jīng)提到。FlumeChannel一般設置為Memory,
【參考文獻】:
期刊論文
[1]基于Spark Streaming的實時交通數(shù)據(jù)處理平臺[J]. 譚亮,周靜. 計算機系統(tǒng)應用. 2018(10)
[2]基于Spark Streaming的在線KMeans聚類模型研究[J]. 侯敬儒,吳晟,李英娜. 計算機與數(shù)字工程. 2018(04)
[3]流式大數(shù)據(jù)實時處理技術、平臺及應用[J]. 陳純. 大數(shù)據(jù). 2017(04)
[4]基于Spark Streaming流回歸的煤礦瓦斯?jié)舛葘崟r預測[J]. 吳海波,施式亮,念其鋒. 中國安全生產(chǎn)科學技術. 2017(05)
[5]分布式流數(shù)據(jù)加載和查詢技術優(yōu)化[J]. 易佳,薛晨,王樹鵬. 計算機科學. 2017(05)
[6]流式數(shù)據(jù)查詢系統(tǒng)[J]. 王棟,張瀟,武延軍. 計算機系統(tǒng)應用. 2016(09)
[7]基于Hadoop的大數(shù)據(jù)計算技術[J]. 查禮. 科研信息化技術與應用. 2012(06)
碩士論文
[1]基于Kubemetes的大數(shù)據(jù)流式計算Spark平臺設計與實現(xiàn)[D]. 杜威科.南京郵電大學 2017
[2]基于Spark Streaming的流聚類算法StreamCKS的設計與實現(xiàn)[D]. 張玉俠.華僑大學 2017
[3]一種基于STORM的交通流數(shù)據(jù)實時處理系統(tǒng)設計與實現(xiàn)[D]. 南海京.北方工業(yè)大學 2015
本文編號:3255176
【文章來源】:安徽工業(yè)大學安徽省
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
總體邏輯設計
圖 2.2 總體架構(gòu)設計2.1.3 設計原則前面已經(jīng)提到,本文主要研究目的之一就是提出一個高可用、高效率、高度可擴展的面向流式數(shù)據(jù)的實時計算框架。因此,平臺需要在遵循一定原則的基礎上進行設計與開發(fā),具體來說,貫穿本平臺的總體設計原則主要有如下幾個方面:1)總體設計原則:高可用,高效率,通用性的設計準則,在功能模塊設計上做到粗粒度,低耦合,讓每個模塊都可以獨立開發(fā),并且可以完成相應的替換。2)數(shù)據(jù)存儲原則:在不同的業(yè)務場景下選擇不同的數(shù)據(jù)存儲模塊。3)服務化原則:盡可能地讓一個模塊作為一個服務去運行,避免服務間的相互影響,有效降低平臺各個功能模塊間的耦合性。
圖 2.3 FlumeAgent 運行架構(gòu)由于 Flume 本身不支持實時采集關系型數(shù)據(jù)庫的流式數(shù)據(jù),因此需要使用 Flume 的高級自定義源的開發(fā),可以通過 FlumeAgent 來實時監(jiān)控關系型數(shù)據(jù)庫。flume-ng-sql-source 是一個基于 Flume 組件的開源項目,用來使 FlumeAgent 連接關系型數(shù)據(jù)庫,實時監(jiān)控關系型數(shù)據(jù)庫的變化,其底層是通過 RowIndex 索引機制來捕捉數(shù)據(jù)的增加。通過 flume-ng-sql-source 組件采集數(shù)據(jù),只需要在 Flume Agent 的 Source 端(見圖 2.3)配置相應的關系型數(shù)據(jù)庫連接信息即可。由于 flume-ng-sql-source 底層采用的是 hibernate 作為數(shù)據(jù)庫的連接,故只需要根據(jù)hibernate 的官方文檔給出的格式進行配置即可,但是由于該組件官方并不支持本文的實時數(shù)據(jù)庫 InSql,因此本文對其進行重新編譯開發(fā)以使其支持 InSql 數(shù)據(jù)源的采集,這也是本文大量采用開源組件進行開發(fā)設計的主要原因。2.2.2 Kafka 消息隊列中間件使用 Flume 采集數(shù)據(jù)的關鍵在于配置 FlumeSource、FlumeChannel、FlumeSink 這三個組件,其中FlumeSource的配置源的選區(qū)在上一節(jié)已經(jīng)提到。FlumeChannel一般設置為Memory,
【參考文獻】:
期刊論文
[1]基于Spark Streaming的實時交通數(shù)據(jù)處理平臺[J]. 譚亮,周靜. 計算機系統(tǒng)應用. 2018(10)
[2]基于Spark Streaming的在線KMeans聚類模型研究[J]. 侯敬儒,吳晟,李英娜. 計算機與數(shù)字工程. 2018(04)
[3]流式大數(shù)據(jù)實時處理技術、平臺及應用[J]. 陳純. 大數(shù)據(jù). 2017(04)
[4]基于Spark Streaming流回歸的煤礦瓦斯?jié)舛葘崟r預測[J]. 吳海波,施式亮,念其鋒. 中國安全生產(chǎn)科學技術. 2017(05)
[5]分布式流數(shù)據(jù)加載和查詢技術優(yōu)化[J]. 易佳,薛晨,王樹鵬. 計算機科學. 2017(05)
[6]流式數(shù)據(jù)查詢系統(tǒng)[J]. 王棟,張瀟,武延軍. 計算機系統(tǒng)應用. 2016(09)
[7]基于Hadoop的大數(shù)據(jù)計算技術[J]. 查禮. 科研信息化技術與應用. 2012(06)
碩士論文
[1]基于Kubemetes的大數(shù)據(jù)流式計算Spark平臺設計與實現(xiàn)[D]. 杜威科.南京郵電大學 2017
[2]基于Spark Streaming的流聚類算法StreamCKS的設計與實現(xiàn)[D]. 張玉俠.華僑大學 2017
[3]一種基于STORM的交通流數(shù)據(jù)實時處理系統(tǒng)設計與實現(xiàn)[D]. 南海京.北方工業(yè)大學 2015
本文編號:3255176
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3255176.html
最近更新
教材專著