Spark SQL等值連接優(yōu)化算法研究
發(fā)布時間:2023-11-02 18:55
科學(xué)技術(shù)的發(fā)展以及互聯(lián)網(wǎng)的普及推動著大數(shù)據(jù)時代的到來,全球每天都在產(chǎn)生海量的數(shù)據(jù),數(shù)據(jù)的計量單位己從Byte、KB、MB發(fā)展到了 PB、EB甚至于YB、BB。面對如此眾多的數(shù)據(jù),大數(shù)據(jù)分析成為一個研究熱點(diǎn),同時以Hadoop、Spark為首的大數(shù)據(jù)處理平臺應(yīng)運(yùn)而生。Spark SQL是Spark中用于處理結(jié)構(gòu)化數(shù)據(jù)的模塊,它提供的表連接操作性能較低,但在大數(shù)據(jù)的分析中大表等值連接操作又使用頻繁,因此,本文針對Spark SQL中的等值連接算法進(jìn)行了優(yōu)化。論文針對現(xiàn)有等值連接算法不能適用于不同場景的問題,提出一種基于擴(kuò)展Partial Bloom Filter的等值連接優(yōu)化算法EPBF Join算法,該算法的優(yōu)化主要體現(xiàn)在兩個方面:首先,EPBF Join算法對Partial Bloom Filter數(shù)據(jù)結(jié)構(gòu)進(jìn)行擴(kuò)展,使之能夠并行計算從而減少數(shù)據(jù)過濾階段消耗的時間,提高整體連接性能;其次,EPBF Join算法能夠根據(jù)數(shù)據(jù)量的大小自動改變位數(shù)組的個數(shù),使之滿足數(shù)據(jù)量未知的場景,從而實(shí)現(xiàn)了同時適用于數(shù)據(jù)量己知和數(shù)據(jù)量未知兩種應(yīng)用場景。論文針對等值連接操作在數(shù)據(jù)傾斜情況下性能較低的問題進(jìn)行重...
【文章頁數(shù)】:81 頁
【學(xué)位級別】:碩士
【文章目錄】:
致謝
摘要
ABSTRACT
1 引言
1.1 研究背景
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文主要內(nèi)容
1.4 論文組織結(jié)構(gòu)
2 相關(guān)技術(shù)
2.1 大數(shù)據(jù)計算框架
2.1.1 主流大數(shù)據(jù)計算框架
2.1.2 分布式計算框架Spark
2.2 Spark SQL模塊
2.3 分布式文件系統(tǒng)
2.4 Bloom Filter
2.5 一致性哈希算法
2.6 本章小結(jié)
3 基于擴(kuò)展Partial Bloom Filter的等值連接優(yōu)化算法
3.1 問題描述
3.2 擴(kuò)展Partial Bloom Filter
3.3 EPBF位數(shù)組動態(tài)生成
3.4 EPBF Join算法流程
3.5 EPBF Join算法代價分析
3.6 實(shí)驗(yàn)驗(yàn)證
3.6.1 實(shí)驗(yàn)設(shè)置
3.6.2 實(shí)驗(yàn)設(shè)計
3.6.3 EPBF Join算法的對比實(shí)驗(yàn)及性能分析
3.7 本章小結(jié)
4 基于Space-Code Bloom Filter可預(yù)估數(shù)據(jù)傾斜的等值連接優(yōu)化算法
4.1 問題描述
4.2 數(shù)據(jù)過濾策略
4.2.1 Space-Code Bloom Filter
4.2.2 基于SCBF的過濾方法
4.3 數(shù)據(jù)傾斜程度計算策略
4.4 添加前綴再分區(qū)策略
4.4.1 數(shù)據(jù)傾斜的典型場景
4.4.2 隨機(jī)添加前綴策略
4.4.3 基于一致性哈希算法的再分區(qū)策略
4.5 SCBF-ESD Join算法流程
4.6 SCBF-ESD Join算法代價分析
4.7 實(shí)驗(yàn)驗(yàn)證
4.7.1 實(shí)驗(yàn)設(shè)置及設(shè)計
4.7.2 數(shù)據(jù)傾斜臨界值的確定實(shí)驗(yàn)及分析
4.7.3 預(yù)估數(shù)據(jù)傾斜的有效性實(shí)驗(yàn)及分析
4.7.4 減少數(shù)據(jù)傾斜的有效性實(shí)驗(yàn)及分析
4.7.5 SCBF-ESD Join算法的對比實(shí)驗(yàn)及性能分析
4.8 本章小結(jié)
5 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
作者簡歷及攻讀碩士學(xué)位期間取得的研究成果
學(xué)位論文數(shù)據(jù)集
本文編號:3859566
【文章頁數(shù)】:81 頁
【學(xué)位級別】:碩士
【文章目錄】:
致謝
摘要
ABSTRACT
1 引言
1.1 研究背景
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文主要內(nèi)容
1.4 論文組織結(jié)構(gòu)
2 相關(guān)技術(shù)
2.1 大數(shù)據(jù)計算框架
2.1.1 主流大數(shù)據(jù)計算框架
2.1.2 分布式計算框架Spark
2.2 Spark SQL模塊
2.3 分布式文件系統(tǒng)
2.4 Bloom Filter
2.5 一致性哈希算法
2.6 本章小結(jié)
3 基于擴(kuò)展Partial Bloom Filter的等值連接優(yōu)化算法
3.1 問題描述
3.2 擴(kuò)展Partial Bloom Filter
3.3 EPBF位數(shù)組動態(tài)生成
3.4 EPBF Join算法流程
3.5 EPBF Join算法代價分析
3.6 實(shí)驗(yàn)驗(yàn)證
3.6.1 實(shí)驗(yàn)設(shè)置
3.6.2 實(shí)驗(yàn)設(shè)計
3.6.3 EPBF Join算法的對比實(shí)驗(yàn)及性能分析
3.7 本章小結(jié)
4 基于Space-Code Bloom Filter可預(yù)估數(shù)據(jù)傾斜的等值連接優(yōu)化算法
4.1 問題描述
4.2 數(shù)據(jù)過濾策略
4.2.1 Space-Code Bloom Filter
4.2.2 基于SCBF的過濾方法
4.3 數(shù)據(jù)傾斜程度計算策略
4.4 添加前綴再分區(qū)策略
4.4.1 數(shù)據(jù)傾斜的典型場景
4.4.2 隨機(jī)添加前綴策略
4.4.3 基于一致性哈希算法的再分區(qū)策略
4.5 SCBF-ESD Join算法流程
4.6 SCBF-ESD Join算法代價分析
4.7 實(shí)驗(yàn)驗(yàn)證
4.7.1 實(shí)驗(yàn)設(shè)置及設(shè)計
4.7.2 數(shù)據(jù)傾斜臨界值的確定實(shí)驗(yàn)及分析
4.7.3 預(yù)估數(shù)據(jù)傾斜的有效性實(shí)驗(yàn)及分析
4.7.4 減少數(shù)據(jù)傾斜的有效性實(shí)驗(yàn)及分析
4.7.5 SCBF-ESD Join算法的對比實(shí)驗(yàn)及性能分析
4.8 本章小結(jié)
5 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
作者簡歷及攻讀碩士學(xué)位期間取得的研究成果
學(xué)位論文數(shù)據(jù)集
本文編號:3859566
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3859566.html
最近更新
教材專著