基于Spark的數(shù)據(jù)實(shí)時(shí)分析處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2022-12-10 10:39
隨著移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,人們從網(wǎng)絡(luò)上獲取信息的方式越來(lái)越豐富,同時(shí)向網(wǎng)絡(luò)里傳播的信息也越來(lái)越多,每時(shí)每刻都有巨量的數(shù)據(jù)產(chǎn)生。在分布式技術(shù)日益成熟的今天,海量數(shù)據(jù)的存儲(chǔ)管理難題已經(jīng)通過(guò)分布式文件系統(tǒng)得到較好的解決,對(duì)海量數(shù)據(jù)中信息的檢索查找,Hadoop、HBase等技術(shù)也已能解決大部分的業(yè)務(wù)場(chǎng)景需求。但是人們對(duì)科學(xué)的追求永無(wú)止境,能不能比之前更進(jìn)一步,追求更實(shí)時(shí)地對(duì)數(shù)據(jù)進(jìn)行處理分析已經(jīng)成為所有領(lǐng)域的共同愿望。大量有價(jià)值的知識(shí)和潛在的規(guī)律信息被蘊(yùn)藏在數(shù)據(jù)中,這些數(shù)據(jù)的價(jià)值會(huì)隨著時(shí)間的流逝而減少,怎么有效接收管理這些數(shù)據(jù)并快速分析,發(fā)掘計(jì)算出數(shù)據(jù)背后的信息,實(shí)現(xiàn)實(shí)時(shí)統(tǒng)計(jì)、預(yù)測(cè)和決策等功能,成為現(xiàn)在重大的發(fā)展機(jī)遇與研究熱點(diǎn),亟需一個(gè)高效快速、穩(wěn)定、高吞吐量的實(shí)時(shí)分析處理系統(tǒng)去對(duì)來(lái)自各個(gè)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行高效、實(shí)時(shí)、準(zhǔn)確的統(tǒng)計(jì)分析,F(xiàn)在大數(shù)據(jù)的類型越來(lái)越復(fù)雜多樣,業(yè)界內(nèi)通俗的解決方案是針對(duì)不同的業(yè)務(wù)場(chǎng)景和數(shù)據(jù)類型,專門開(kāi)發(fā)設(shè)計(jì)不同的處理子系統(tǒng),例如實(shí)時(shí)流分析使用Storm、離線數(shù)據(jù)分析使用Hadoop,機(jī)器學(xué)習(xí)要建立額外的模塊等,然后通過(guò)消息隊(duì)列、緩存等技術(shù)把這些子系統(tǒng)編排成一個(gè)大...
【文章頁(yè)數(shù)】:90 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景與意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 研究的目的與意義
1.4 主要工作與研究
1.5 本文內(nèi)容的組織結(jié)構(gòu)
第二章 相關(guān)知識(shí)背景與技術(shù)介紹
2.1 分布式計(jì)算
2.2 Spark大數(shù)據(jù)計(jì)算框架
2.2.1 RDD彈性伸縮分布式數(shù)據(jù)集
2.2.2 Spark集群模型
2.2.3 Spark任務(wù)調(diào)度
2.2.4 Spark生態(tài)系統(tǒng)介紹
2.3 數(shù)據(jù)存儲(chǔ)層技術(shù)
2.3.1 分布式文件系統(tǒng)HDFS
2.3.2 基于內(nèi)存的分布式存儲(chǔ)系統(tǒng)Alluxio
2.4 Docker容器技術(shù)概述
2.5 Kubernetes容器編排技術(shù)概述
2.5.1 Kubernetes主要組件
2.5.2 Kubernetes總體架構(gòu)
2.6 本章小節(jié)
第三章 系統(tǒng)平臺(tái)架構(gòu)的分析與設(shè)計(jì)
3.1 系統(tǒng)需求分析和設(shè)計(jì)目標(biāo)
3.1.1 功能性需求
3.1.2 非功能性需求
3.2 系統(tǒng)數(shù)據(jù)處理框架分析
3.2.1 MapReduce計(jì)算模型
3.2.2 Spark中改進(jìn)mapReduce的地方
3.3 實(shí)時(shí)數(shù)據(jù)處理系統(tǒng)平臺(tái)整體架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)
3.4 本章小結(jié)
第四章 新型ETL模塊的分析與實(shí)現(xiàn)
4.1 模塊總體設(shè)計(jì)與功能分析
4.1.1 傳統(tǒng)ETL面臨的問(wèn)題
4.1.2 新型ETL模塊的功能和特點(diǎn)
4.1.3 模塊結(jié)構(gòu)與工作原理
4.2 數(shù)據(jù)收發(fā)子模塊設(shè)計(jì)與實(shí)現(xiàn)
4.2.1 Kafka
4.2.2 數(shù)據(jù)采集層
4.2.3 數(shù)據(jù)輸出層
4.3 轉(zhuǎn)換子模塊的設(shè)計(jì)與實(shí)現(xiàn)
4.3.1 數(shù)據(jù)格式轉(zhuǎn)換
4.3.2 數(shù)據(jù)去重和字段融合
4.3.3 數(shù)據(jù)源融合
4.4 本章小結(jié)
第五章 實(shí)時(shí)處理模塊的分析與實(shí)現(xiàn)
5.1 模塊總體設(shè)計(jì)與功能分析
5.1.1 實(shí)時(shí)處理模塊的功能和特點(diǎn)
5.1.2 模塊結(jié)構(gòu)與工作原理
5.2 實(shí)時(shí)處理模塊的分析與實(shí)現(xiàn)
5.2.1 DataFrame結(jié)構(gòu)化數(shù)據(jù)
5.2.2 實(shí)時(shí)流轉(zhuǎn)換無(wú)限表模型
5.2.3 實(shí)時(shí)流處理方法
5.2.4 滑動(dòng)窗口實(shí)時(shí)流處理方法
5.2.5 實(shí)時(shí)決策
5.3 系統(tǒng)優(yōu)化
5.3.1 數(shù)據(jù)傾斜
5.3.2 Spark與Redis結(jié)合
5.4 本章小結(jié)
第六章 系統(tǒng)實(shí)驗(yàn)與應(yīng)用
6.1 實(shí)驗(yàn)平臺(tái)和參數(shù)配置
6.2 測(cè)試數(shù)據(jù)源
6.3 實(shí)驗(yàn)測(cè)試
6.3.1 功能測(cè)試
6.3.2 性能測(cè)試
6.4 基于Spark的實(shí)時(shí)廣告點(diǎn)擊預(yù)測(cè)應(yīng)用
6.5 實(shí)驗(yàn)總結(jié)
第七章 全文工作總結(jié)與展望
7.1 工作總結(jié)
7.2 展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的成果
【參考文獻(xiàn)】:
期刊論文
[1]中國(guó)正迎來(lái)從IT時(shí)代到DT時(shí)代的變革[J]. 白皓. 中國(guó)廣播. 2015(07)
[2]Storm實(shí)現(xiàn)的應(yīng)用模型研究[J]. 鄧立龍,徐海水. 廣東工業(yè)大學(xué)學(xué)報(bào). 2014(03)
[3]MapReduce:新型的分布式并行計(jì)算編程模型[J]. 李成華,張新訪,金海,向文. 計(jì)算機(jī)工程與科學(xué). 2011(03)
本文編號(hào):3716601
【文章頁(yè)數(shù)】:90 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景與意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 研究的目的與意義
1.4 主要工作與研究
1.5 本文內(nèi)容的組織結(jié)構(gòu)
第二章 相關(guān)知識(shí)背景與技術(shù)介紹
2.1 分布式計(jì)算
2.2 Spark大數(shù)據(jù)計(jì)算框架
2.2.1 RDD彈性伸縮分布式數(shù)據(jù)集
2.2.2 Spark集群模型
2.2.3 Spark任務(wù)調(diào)度
2.2.4 Spark生態(tài)系統(tǒng)介紹
2.3 數(shù)據(jù)存儲(chǔ)層技術(shù)
2.3.1 分布式文件系統(tǒng)HDFS
2.3.2 基于內(nèi)存的分布式存儲(chǔ)系統(tǒng)Alluxio
2.4 Docker容器技術(shù)概述
2.5 Kubernetes容器編排技術(shù)概述
2.5.1 Kubernetes主要組件
2.5.2 Kubernetes總體架構(gòu)
2.6 本章小節(jié)
第三章 系統(tǒng)平臺(tái)架構(gòu)的分析與設(shè)計(jì)
3.1 系統(tǒng)需求分析和設(shè)計(jì)目標(biāo)
3.1.1 功能性需求
3.1.2 非功能性需求
3.2 系統(tǒng)數(shù)據(jù)處理框架分析
3.2.1 MapReduce計(jì)算模型
3.2.2 Spark中改進(jìn)mapReduce的地方
3.3 實(shí)時(shí)數(shù)據(jù)處理系統(tǒng)平臺(tái)整體架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)
3.4 本章小結(jié)
第四章 新型ETL模塊的分析與實(shí)現(xiàn)
4.1 模塊總體設(shè)計(jì)與功能分析
4.1.1 傳統(tǒng)ETL面臨的問(wèn)題
4.1.2 新型ETL模塊的功能和特點(diǎn)
4.1.3 模塊結(jié)構(gòu)與工作原理
4.2 數(shù)據(jù)收發(fā)子模塊設(shè)計(jì)與實(shí)現(xiàn)
4.2.1 Kafka
4.2.2 數(shù)據(jù)采集層
4.2.3 數(shù)據(jù)輸出層
4.3 轉(zhuǎn)換子模塊的設(shè)計(jì)與實(shí)現(xiàn)
4.3.1 數(shù)據(jù)格式轉(zhuǎn)換
4.3.2 數(shù)據(jù)去重和字段融合
4.3.3 數(shù)據(jù)源融合
4.4 本章小結(jié)
第五章 實(shí)時(shí)處理模塊的分析與實(shí)現(xiàn)
5.1 模塊總體設(shè)計(jì)與功能分析
5.1.1 實(shí)時(shí)處理模塊的功能和特點(diǎn)
5.1.2 模塊結(jié)構(gòu)與工作原理
5.2 實(shí)時(shí)處理模塊的分析與實(shí)現(xiàn)
5.2.1 DataFrame結(jié)構(gòu)化數(shù)據(jù)
5.2.2 實(shí)時(shí)流轉(zhuǎn)換無(wú)限表模型
5.2.3 實(shí)時(shí)流處理方法
5.2.4 滑動(dòng)窗口實(shí)時(shí)流處理方法
5.2.5 實(shí)時(shí)決策
5.3 系統(tǒng)優(yōu)化
5.3.1 數(shù)據(jù)傾斜
5.3.2 Spark與Redis結(jié)合
5.4 本章小結(jié)
第六章 系統(tǒng)實(shí)驗(yàn)與應(yīng)用
6.1 實(shí)驗(yàn)平臺(tái)和參數(shù)配置
6.2 測(cè)試數(shù)據(jù)源
6.3 實(shí)驗(yàn)測(cè)試
6.3.1 功能測(cè)試
6.3.2 性能測(cè)試
6.4 基于Spark的實(shí)時(shí)廣告點(diǎn)擊預(yù)測(cè)應(yīng)用
6.5 實(shí)驗(yàn)總結(jié)
第七章 全文工作總結(jié)與展望
7.1 工作總結(jié)
7.2 展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的成果
【參考文獻(xiàn)】:
期刊論文
[1]中國(guó)正迎來(lái)從IT時(shí)代到DT時(shí)代的變革[J]. 白皓. 中國(guó)廣播. 2015(07)
[2]Storm實(shí)現(xiàn)的應(yīng)用模型研究[J]. 鄧立龍,徐海水. 廣東工業(yè)大學(xué)學(xué)報(bào). 2014(03)
[3]MapReduce:新型的分布式并行計(jì)算編程模型[J]. 李成華,張新訪,金海,向文. 計(jì)算機(jī)工程與科學(xué). 2011(03)
本文編號(hào):3716601
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3716601.html
最近更新
教材專著