基于Spark的數(shù)據(jù)混合計算平臺的研究與實現(xiàn)
發(fā)布時間:2023-10-08 20:18
隨著計算機技術的高速發(fā)展,傳統(tǒng)行業(yè)逐漸向數(shù)字化企業(yè)轉型,企業(yè)數(shù)據(jù)資源總量逐年呈增長趨勢。數(shù)據(jù)的價值不僅存在其表面,還可以通過處理和分析技術創(chuàng)造出新價值。國家衛(wèi)健委科研所的多個國家級信息系統(tǒng)產(chǎn)生的數(shù)據(jù)量大且種類多,因此需要一個大數(shù)據(jù)混合計算平臺,它既能支持多種類型的數(shù)據(jù)源,又能提供全面的一站式數(shù)據(jù)計算服務滿足醫(yī)療科研的各種需求。目前工業(yè)界的商業(yè)大數(shù)據(jù)平臺的使用費用昂貴且部署維護困難,而且數(shù)據(jù)保密性較高的國家級企業(yè)使用商業(yè)軟件會產(chǎn)生諸多顧慮。在平臺內(nèi)使用的數(shù)據(jù)計算技術中,數(shù)據(jù)連接多用于數(shù)據(jù)合并、多表聯(lián)合分析等操作,但是數(shù)據(jù)傾斜影響計算單元負債均衡一直是阻礙其性能提升的研究瓶頸;衛(wèi)健委醫(yī)療科研的不同業(yè)務場景需要不同類型的查詢技術方案來滿足,這給使用人員帶了眾多工具復雜的學習門檻,而且每次查詢都需要人工判斷最合適的引擎。為解決這些缺點和問題,本課題對大數(shù)據(jù)計算平臺及其內(nèi)部計算技術進行深入研究,本文的主要研究內(nèi)容如下:1)通過深入研究大規(guī)模數(shù)據(jù)連接過程及其性能影響因素,設計并實現(xiàn)了一種基于Spark的數(shù)據(jù)連接優(yōu)化策略,它能高效的處理大規(guī)模數(shù)據(jù),同時支持等值連接和θ連接,而且對于傾斜嚴重的數(shù)據(jù)有很...
【文章頁數(shù)】:77 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 研究現(xiàn)狀
1.2.1 數(shù)據(jù)計算平臺的研究現(xiàn)狀
1.2.2 數(shù)據(jù)連接技術研究現(xiàn)狀
1.2.3 大規(guī)模數(shù)據(jù)查詢技術研究現(xiàn)狀
1.3 主要研究內(nèi)容
1.4 碩士期間主要工作
1.5 論文組織結構
第二章 相關技術及理論研究
2.1 分布式計算框架Spark
2.1.1 Spark及其生態(tài)環(huán)境
2.1.2 Spark數(shù)據(jù)計算單元
2.2 數(shù)據(jù)連接模型結構
2.2.1 向量型結構
2.2.2 矩陣型結構
2.3 數(shù)據(jù)連接分配算法
2.3.1 基于哈希的分配的算法
2.3.2 基于范圍的分配算法
2.3.3 隨機分配算法
2.3.4 多維區(qū)間分配算法
2.4 數(shù)據(jù)查詢引擎架構研究
2.4.1 Apache Kylin
2.4.2 Spark SQL
第三章 數(shù)據(jù)連接策略的優(yōu)化與實現(xiàn)
3.1 數(shù)據(jù)連接流程規(guī)范
3.2 準備階段的優(yōu)化方案
3.2.1 數(shù)據(jù)連接矩陣過濾
3.2.2 候選單元格分裂策略
3.3 數(shù)據(jù)分配算法的優(yōu)化與實現(xiàn)
3.3.1 數(shù)據(jù)分配影響因素
3.3.2 數(shù)據(jù)分配算法
3.3.3 算法評估
3.4 數(shù)據(jù)連接方案的Spark任務化
3.5 實驗與分析
3.5.1 實驗環(huán)境
3.5.2 實驗數(shù)據(jù)
3.5.3 實驗結果與分析
第四章 混合查詢引擎的設計與實現(xiàn)
4.1 查詢引擎整體架構
4.2 統(tǒng)一的查詢解析方案
4.3 邏輯語法樹路由策略
4.4 查詢性能實驗與分析
4.4.1 實驗環(huán)境與實驗數(shù)據(jù)
4.4.2 實驗結果與分析
第五章 基于Spark的數(shù)據(jù)混合計算平臺的設計與實現(xiàn)
5.1 需求分析
5.1.1 平臺業(yè)務需求分析
5.1.2 平臺功能需求分析
5.2 平臺架構設計
5.2.1 功能結構設計
5.2.2 技術架構設計
5.2.3 整體架構設計
5.3 數(shù)據(jù)庫設計
5.4 平臺功能模塊的實現(xiàn)
5.4.1 數(shù)據(jù)管理模塊
5.4.2 數(shù)據(jù)處理模塊
5.4.3 數(shù)據(jù)工廠模塊
5.4.4 數(shù)據(jù)查詢模塊
5.5 平臺測試與評估
5.5.1 頁面展示
5.5.2 平臺測試
第六章 總結與展望
6.1 工作總結
6.2 工作展望
參考文獻
致謝
攻讀學位期間取得的研究成果
本文編號:3852719
【文章頁數(shù)】:77 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 研究現(xiàn)狀
1.2.1 數(shù)據(jù)計算平臺的研究現(xiàn)狀
1.2.2 數(shù)據(jù)連接技術研究現(xiàn)狀
1.2.3 大規(guī)模數(shù)據(jù)查詢技術研究現(xiàn)狀
1.3 主要研究內(nèi)容
1.4 碩士期間主要工作
1.5 論文組織結構
第二章 相關技術及理論研究
2.1 分布式計算框架Spark
2.1.1 Spark及其生態(tài)環(huán)境
2.1.2 Spark數(shù)據(jù)計算單元
2.2 數(shù)據(jù)連接模型結構
2.2.1 向量型結構
2.2.2 矩陣型結構
2.3 數(shù)據(jù)連接分配算法
2.3.1 基于哈希的分配的算法
2.3.2 基于范圍的分配算法
2.3.3 隨機分配算法
2.3.4 多維區(qū)間分配算法
2.4 數(shù)據(jù)查詢引擎架構研究
2.4.1 Apache Kylin
2.4.2 Spark SQL
第三章 數(shù)據(jù)連接策略的優(yōu)化與實現(xiàn)
3.1 數(shù)據(jù)連接流程規(guī)范
3.2 準備階段的優(yōu)化方案
3.2.1 數(shù)據(jù)連接矩陣過濾
3.2.2 候選單元格分裂策略
3.3 數(shù)據(jù)分配算法的優(yōu)化與實現(xiàn)
3.3.1 數(shù)據(jù)分配影響因素
3.3.2 數(shù)據(jù)分配算法
3.3.3 算法評估
3.4 數(shù)據(jù)連接方案的Spark任務化
3.5 實驗與分析
3.5.1 實驗環(huán)境
3.5.2 實驗數(shù)據(jù)
3.5.3 實驗結果與分析
第四章 混合查詢引擎的設計與實現(xiàn)
4.1 查詢引擎整體架構
4.2 統(tǒng)一的查詢解析方案
4.3 邏輯語法樹路由策略
4.4 查詢性能實驗與分析
4.4.1 實驗環(huán)境與實驗數(shù)據(jù)
4.4.2 實驗結果與分析
第五章 基于Spark的數(shù)據(jù)混合計算平臺的設計與實現(xiàn)
5.1 需求分析
5.1.1 平臺業(yè)務需求分析
5.1.2 平臺功能需求分析
5.2 平臺架構設計
5.2.1 功能結構設計
5.2.2 技術架構設計
5.2.3 整體架構設計
5.3 數(shù)據(jù)庫設計
5.4 平臺功能模塊的實現(xiàn)
5.4.1 數(shù)據(jù)管理模塊
5.4.2 數(shù)據(jù)處理模塊
5.4.3 數(shù)據(jù)工廠模塊
5.4.4 數(shù)據(jù)查詢模塊
5.5 平臺測試與評估
5.5.1 頁面展示
5.5.2 平臺測試
第六章 總結與展望
6.1 工作總結
6.2 工作展望
參考文獻
致謝
攻讀學位期間取得的研究成果
本文編號:3852719
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3852719.html
最近更新
教材專著