天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

Spark SQL等值連接優(yōu)化算法研究

發(fā)布時間:2023-11-02 18:55
  科學(xué)技術(shù)的發(fā)展以及互聯(lián)網(wǎng)的普及推動著大數(shù)據(jù)時代的到來,全球每天都在產(chǎn)生海量的數(shù)據(jù),數(shù)據(jù)的計量單位己從Byte、KB、MB發(fā)展到了 PB、EB甚至于YB、BB。面對如此眾多的數(shù)據(jù),大數(shù)據(jù)分析成為一個研究熱點(diǎn),同時以Hadoop、Spark為首的大數(shù)據(jù)處理平臺應(yīng)運(yùn)而生。Spark SQL是Spark中用于處理結(jié)構(gòu)化數(shù)據(jù)的模塊,它提供的表連接操作性能較低,但在大數(shù)據(jù)的分析中大表等值連接操作又使用頻繁,因此,本文針對Spark SQL中的等值連接算法進(jìn)行了優(yōu)化。論文針對現(xiàn)有等值連接算法不能適用于不同場景的問題,提出一種基于擴(kuò)展Partial Bloom Filter的等值連接優(yōu)化算法EPBF Join算法,該算法的優(yōu)化主要體現(xiàn)在兩個方面:首先,EPBF Join算法對Partial Bloom Filter數(shù)據(jù)結(jié)構(gòu)進(jìn)行擴(kuò)展,使之能夠并行計算從而減少數(shù)據(jù)過濾階段消耗的時間,提高整體連接性能;其次,EPBF Join算法能夠根據(jù)數(shù)據(jù)量的大小自動改變位數(shù)組的個數(shù),使之滿足數(shù)據(jù)量未知的場景,從而實(shí)現(xiàn)了同時適用于數(shù)據(jù)量己知和數(shù)據(jù)量未知兩種應(yīng)用場景。論文針對等值連接操作在數(shù)據(jù)傾斜情況下性能較低的問題進(jìn)行重...

【文章頁數(shù)】:81 頁

【學(xué)位級別】:碩士

【文章目錄】:
致謝
摘要
ABSTRACT
1 引言
    1.1 研究背景
    1.2 國內(nèi)外研究現(xiàn)狀
    1.3 論文主要內(nèi)容
    1.4 論文組織結(jié)構(gòu)
2 相關(guān)技術(shù)
    2.1 大數(shù)據(jù)計算框架
        2.1.1 主流大數(shù)據(jù)計算框架
        2.1.2 分布式計算框架Spark
    2.2 Spark SQL模塊
    2.3 分布式文件系統(tǒng)
    2.4 Bloom Filter
    2.5 一致性哈希算法
    2.6 本章小結(jié)
3 基于擴(kuò)展Partial Bloom Filter的等值連接優(yōu)化算法
    3.1 問題描述
    3.2 擴(kuò)展Partial Bloom Filter
    3.3 EPBF位數(shù)組動態(tài)生成
    3.4 EPBF Join算法流程
    3.5 EPBF Join算法代價分析
    3.6 實(shí)驗(yàn)驗(yàn)證
        3.6.1 實(shí)驗(yàn)設(shè)置
        3.6.2 實(shí)驗(yàn)設(shè)計
        3.6.3 EPBF Join算法的對比實(shí)驗(yàn)及性能分析
    3.7 本章小結(jié)
4 基于Space-Code Bloom Filter可預(yù)估數(shù)據(jù)傾斜的等值連接優(yōu)化算法
    4.1 問題描述
    4.2 數(shù)據(jù)過濾策略
        4.2.1 Space-Code Bloom Filter
        4.2.2 基于SCBF的過濾方法
    4.3 數(shù)據(jù)傾斜程度計算策略
    4.4 添加前綴再分區(qū)策略
        4.4.1 數(shù)據(jù)傾斜的典型場景
        4.4.2 隨機(jī)添加前綴策略
        4.4.3 基于一致性哈希算法的再分區(qū)策略
    4.5 SCBF-ESD Join算法流程
    4.6 SCBF-ESD Join算法代價分析
    4.7 實(shí)驗(yàn)驗(yàn)證
        4.7.1 實(shí)驗(yàn)設(shè)置及設(shè)計
        4.7.2 數(shù)據(jù)傾斜臨界值的確定實(shí)驗(yàn)及分析
        4.7.3 預(yù)估數(shù)據(jù)傾斜的有效性實(shí)驗(yàn)及分析
        4.7.4 減少數(shù)據(jù)傾斜的有效性實(shí)驗(yàn)及分析
        4.7.5 SCBF-ESD Join算法的對比實(shí)驗(yàn)及性能分析
    4.8 本章小結(jié)
5 總結(jié)與展望
    5.1 總結(jié)
    5.2 展望
參考文獻(xiàn)
作者簡歷及攻讀碩士學(xué)位期間取得的研究成果
學(xué)位論文數(shù)據(jù)集



本文編號:3859566

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3859566.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2b90a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
精品人妻少妇二区三区| 精品伊人久久大香线蕉综合 | 欧美日韩国产黑人一区| 日本熟妇五十一区二区三区 | 精品综合欧美一区二区三区 | 日本精品理论在线观看| 午夜福利精品视频视频| 草草草草在线观看视频| 年轻女房东2中文字幕| 开心久久综合激情五月天| 91人妻人人澡人人人人精品| 欧美精品久久一二三区| 国产爆操白丝美女在线观看| 欧美一区二区三区播放| 亚洲一区二区三在线播放| 日韩成人h视频在线观看| 久久婷婷综合色拍亚洲| 欧美特色特黄一级大黄片| 亚洲国产av国产av| 中文字幕高清免费日韩视频| 九九热九九热九九热九九热| 成年男女午夜久久久精品| 久久福利视频这里有精品| 欧美日韩国产另类一区二区| 日本在线 一区 二区| 一区二区免费视频中文乱码国产| 亚洲天堂精品在线视频| 免费大片黄在线观看日本| 色狠狠一区二区三区香蕉蜜桃| 午夜精品一区免费视频| 午夜资源在线观看免费高清| 午夜精品在线视频一区| 欧美日韩免费黄片观看| 国产性情片一区二区三区| 天堂热东京热男人天堂| 加勒比系列一区二区在线观看| 狠狠干狠狠操在线播放| 91欧美视频在线观看免费| 国产一区二区久久综合| 成人免费在线视频大香蕉| 欧美人妻盗摄日韩偷拍|