Spark SQL結(jié)構(gòu)化數(shù)據(jù)處理及性能優(yōu)化
發(fā)布時(shí)間:2023-11-27 20:54
近年來(lái)Spark內(nèi)存計(jì)算框架快速崛起,數(shù)據(jù)處理速度得到極大的提高,但是其速度上限卻受限于Spark內(nèi)存規(guī)模。當(dāng)數(shù)據(jù)量小于或接近內(nèi)存容量時(shí)Spark性能最好,反之則性能較差。因此Spark SQL在處理以4G行業(yè)卡數(shù)據(jù)為代表的通信大數(shù)據(jù)時(shí)暴露出了諸多問(wèn)題,如讀寫(xiě)速度和查詢速度緩慢、系統(tǒng)資源分配不均或不足、大表Join效率低等。本文從Spark SQL的數(shù)據(jù)組織方式、Spark資源管理機(jī)制和Join算法三個(gè)方面處理結(jié)構(gòu)化數(shù)據(jù)并進(jìn)行相關(guān)的性能優(yōu)化。首先提出了改進(jìn)的數(shù)據(jù)組織框架以提高Spark SQL的讀寫(xiě)和查詢速度,其次建立了資源監(jiān)控模型合理的分配和使用資源,最后基于改進(jìn)的數(shù)據(jù)組織框架和監(jiān)控模型改進(jìn)了大表Join算法。主要工作如下:(1)本文通過(guò)分析和對(duì)比Spark SQL和Hbase的數(shù)據(jù)組織方式,提出了一種改進(jìn)的數(shù)據(jù)組織框架。該框架首先改進(jìn)了Parquet文件格式的讀寫(xiě)接口,其次利用Hbase+Phoenix構(gòu)建了二級(jí)索引,大幅提升了4G行業(yè)卡數(shù)據(jù)的讀寫(xiě)和查詢速度。(2)本文進(jìn)一步研究了Spark的內(nèi)存模型和資源使用情況,通過(guò)性能監(jiān)控獲取集群底層各項(xiàng)參數(shù),建立了內(nèi)存監(jiān)控模型對(duì)資源使用情況...
【文章頁(yè)數(shù)】:81 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 數(shù)據(jù)組織方式研究現(xiàn)狀
1.2.2 Join算法研究現(xiàn)狀
1.2.3 Spark資源優(yōu)化研究現(xiàn)狀
1.3 論文主要工作
1.4 論文組織結(jié)構(gòu)
第2章 Spark SQL及 Hbase技術(shù)基礎(chǔ)
2.1 Spark SQL數(shù)據(jù)組織框架
2.1.1 Spark SQL查詢機(jī)制
2.1.2 Spark SQL文件格式
2.1.3 Parquet文件格式
2.2 Hbase數(shù)據(jù)組織框架
2.2.1 Hbase查詢機(jī)制
2.2.2 Hbase文件格式
2.2.3 Phoenix映射關(guān)系
2.3 Spark資源管理機(jī)制
2.3.1 Spark運(yùn)行機(jī)制
2.3.2 Spark內(nèi)存模型
2.4 Spark Join算法
2.4.1 分布式Join算法分類
2.4.2 BloomFilter算法
2.5 本章小結(jié)
第3章 Spark SQL數(shù)據(jù)組織方式設(shè)計(jì)
3.1 Spark SQL問(wèn)題分析
3.1.1 數(shù)據(jù)讀寫(xiě)問(wèn)題
3.1.2 數(shù)據(jù)存儲(chǔ)問(wèn)題
3.1.3 存儲(chǔ)格式對(duì)比分析
3.1.4 Spark SQL與 Hbase整合分析
3.2 4G行業(yè)卡數(shù)據(jù)組織框架設(shè)計(jì)
3.2.1 業(yè)務(wù)場(chǎng)景分析
3.2.2 Spark SQL讀寫(xiě)接口改進(jìn)
3.2.3 Spark SQL與 Hbase框架整合
3.3 實(shí)驗(yàn)及結(jié)果分析
3.3.1 實(shí)驗(yàn)環(huán)境
3.3.2 實(shí)驗(yàn)結(jié)果分析
3.4 本章小結(jié)
第4章 大表關(guān)聯(lián)算法研究
4.1 Spark SQL大表關(guān)聯(lián)問(wèn)題分析
4.1.1 Sort Merge Join問(wèn)題分析
4.1.2 分批Join策略
4.2 內(nèi)存監(jiān)控模型設(shè)計(jì)
4.2.1 性能指標(biāo)分析
4.2.2 內(nèi)存監(jiān)控模型
4.2.3 資源分級(jí)及預(yù)警
4.3 分批Join算法設(shè)計(jì)
4.3.1 算法概述
4.3.2 算法詳細(xì)流程
4.3.3 算法開(kāi)銷(xiāo)分析
4.4 實(shí)驗(yàn)及結(jié)果分析
4.4.1 實(shí)驗(yàn)環(huán)境
4.4.2 實(shí)驗(yàn)結(jié)果分析
4.5 本章小結(jié)
第5章 工作總結(jié)和展望
5.1 論文工作總結(jié)
5.2 工作展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間從事的科研工作及取得的成果
本文編號(hào):3868557
【文章頁(yè)數(shù)】:81 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 數(shù)據(jù)組織方式研究現(xiàn)狀
1.2.2 Join算法研究現(xiàn)狀
1.2.3 Spark資源優(yōu)化研究現(xiàn)狀
1.3 論文主要工作
1.4 論文組織結(jié)構(gòu)
第2章 Spark SQL及 Hbase技術(shù)基礎(chǔ)
2.1 Spark SQL數(shù)據(jù)組織框架
2.1.1 Spark SQL查詢機(jī)制
2.1.2 Spark SQL文件格式
2.1.3 Parquet文件格式
2.2 Hbase數(shù)據(jù)組織框架
2.2.1 Hbase查詢機(jī)制
2.2.2 Hbase文件格式
2.2.3 Phoenix映射關(guān)系
2.3 Spark資源管理機(jī)制
2.3.1 Spark運(yùn)行機(jī)制
2.3.2 Spark內(nèi)存模型
2.4 Spark Join算法
2.4.1 分布式Join算法分類
2.4.2 BloomFilter算法
2.5 本章小結(jié)
第3章 Spark SQL數(shù)據(jù)組織方式設(shè)計(jì)
3.1 Spark SQL問(wèn)題分析
3.1.1 數(shù)據(jù)讀寫(xiě)問(wèn)題
3.1.2 數(shù)據(jù)存儲(chǔ)問(wèn)題
3.1.3 存儲(chǔ)格式對(duì)比分析
3.1.4 Spark SQL與 Hbase整合分析
3.2 4G行業(yè)卡數(shù)據(jù)組織框架設(shè)計(jì)
3.2.1 業(yè)務(wù)場(chǎng)景分析
3.2.2 Spark SQL讀寫(xiě)接口改進(jìn)
3.2.3 Spark SQL與 Hbase框架整合
3.3 實(shí)驗(yàn)及結(jié)果分析
3.3.1 實(shí)驗(yàn)環(huán)境
3.3.2 實(shí)驗(yàn)結(jié)果分析
3.4 本章小結(jié)
第4章 大表關(guān)聯(lián)算法研究
4.1 Spark SQL大表關(guān)聯(lián)問(wèn)題分析
4.1.1 Sort Merge Join問(wèn)題分析
4.1.2 分批Join策略
4.2 內(nèi)存監(jiān)控模型設(shè)計(jì)
4.2.1 性能指標(biāo)分析
4.2.2 內(nèi)存監(jiān)控模型
4.2.3 資源分級(jí)及預(yù)警
4.3 分批Join算法設(shè)計(jì)
4.3.1 算法概述
4.3.2 算法詳細(xì)流程
4.3.3 算法開(kāi)銷(xiāo)分析
4.4 實(shí)驗(yàn)及結(jié)果分析
4.4.1 實(shí)驗(yàn)環(huán)境
4.4.2 實(shí)驗(yàn)結(jié)果分析
4.5 本章小結(jié)
第5章 工作總結(jié)和展望
5.1 論文工作總結(jié)
5.2 工作展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間從事的科研工作及取得的成果
本文編號(hào):3868557
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3868557.html
最近更新
教材專著