Spark SQL結(jié)構(gòu)化數(shù)據(jù)處理及性能優(yōu)化

發(fā)布時(shí)間：2023-11-27 20:54

　　近年來Spark內(nèi)存計(jì)算框架快速崛起,數(shù)據(jù)處理速度得到極大的提高,但是其速度上限卻受限于Spark內(nèi)存規(guī)模。當(dāng)數(shù)據(jù)量小于或接近內(nèi)存容量時(shí)Spark性能最好,反之則性能較差。因此Spark SQL在處理以4G行業(yè)卡數(shù)據(jù)為代表的通信大數(shù)據(jù)時(shí)暴露出了諸多問題,如讀寫速度和查詢速度緩慢、系統(tǒng)資源分配不均或不足、大表Join效率低等。本文從Spark SQL的數(shù)據(jù)組織方式、Spark資源管理機(jī)制和Join算法三個(gè)方面處理結(jié)構(gòu)化數(shù)據(jù)并進(jìn)行相關(guān)的性能優(yōu)化。首先提出了改進(jìn)的數(shù)據(jù)組織框架以提高Spark SQL的讀寫和查詢速度,其次建立了資源監(jiān)控模型合理的分配和使用資源,最后基于改進(jìn)的數(shù)據(jù)組織框架和監(jiān)控模型改進(jìn)了大表Join算法。主要工作如下:(1)本文通過分析和對(duì)比Spark SQL和Hbase的數(shù)據(jù)組織方式,提出了一種改進(jìn)的數(shù)據(jù)組織框架。該框架首先改進(jìn)了Parquet文件格式的讀寫接口,其次利用Hbase+Phoenix構(gòu)建了二級(jí)索引,大幅提升了4G行業(yè)卡數(shù)據(jù)的讀寫和查詢速度。(2)本文進(jìn)一步研究了Spark的內(nèi)存模型和資源使用情況,通過性能監(jiān)控獲取集群底層各項(xiàng)參數(shù),建立了內(nèi)存監(jiān)控模型對(duì)資源使用情況...

【文章頁(yè)數(shù)】：81 頁(yè)

【學(xué)位級(jí)別】：碩士

【文章目錄】：
摘要
abstract
第1章緒論
    1.1 研究背景及意義
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
        1.2.1 數(shù)據(jù)組織方式研究現(xiàn)狀
        1.2.2 Join算法研究現(xiàn)狀
        1.2.3 Spark資源優(yōu)化研究現(xiàn)狀
    1.3 論文主要工作
    1.4 論文組織結(jié)構(gòu)
第2章 Spark SQL及 Hbase技術(shù)基礎(chǔ)
    2.1 Spark SQL數(shù)據(jù)組織框架
        2.1.1 Spark SQL查詢機(jī)制
        2.1.2 Spark SQL文件格式
        2.1.3 Parquet文件格式
    2.2 Hbase數(shù)據(jù)組織框架
        2.2.1 Hbase查詢機(jī)制
        2.2.2 Hbase文件格式
        2.2.3 Phoenix映射關(guān)系
    2.3 Spark資源管理機(jī)制
        2.3.1 Spark運(yùn)行機(jī)制
        2.3.2 Spark內(nèi)存模型
    2.4 Spark Join算法
        2.4.1 分布式Join算法分類
        2.4.2 BloomFilter算法
    2.5 本章小結(jié)
第3章 Spark SQL數(shù)據(jù)組織方式設(shè)計(jì)
    3.1 Spark SQL問題分析
        3.1.1 數(shù)據(jù)讀寫問題
        3.1.2 數(shù)據(jù)存儲(chǔ)問題
        3.1.3 存儲(chǔ)格式對(duì)比分析
        3.1.4 Spark SQL與 Hbase整合分析
    3.2 4G行業(yè)卡數(shù)據(jù)組織框架設(shè)計(jì)
        3.2.1 業(yè)務(wù)場(chǎng)景分析
        3.2.2 Spark SQL讀寫接口改進(jìn)
        3.2.3 Spark SQL與 Hbase框架整合
    3.3 實(shí)驗(yàn)及結(jié)果分析
        3.3.1 實(shí)驗(yàn)環(huán)境
        3.3.2 實(shí)驗(yàn)結(jié)果分析
    3.4 本章小結(jié)
第4章大表關(guān)聯(lián)算法研究
    4.1 Spark SQL大表關(guān)聯(lián)問題分析
        4.1.1 Sort Merge Join問題分析
        4.1.2 分批Join策略
    4.2 內(nèi)存監(jiān)控模型設(shè)計(jì)
        4.2.1 性能指標(biāo)分析
        4.2.2 內(nèi)存監(jiān)控模型
        4.2.3 資源分級(jí)及預(yù)警
    4.3 分批Join算法設(shè)計(jì)
        4.3.1 算法概述
        4.3.2 算法詳細(xì)流程
        4.3.3 算法開銷分析
    4.4 實(shí)驗(yàn)及結(jié)果分析
        4.4.1 實(shí)驗(yàn)環(huán)境
        4.4.2 實(shí)驗(yàn)結(jié)果分析
    4.5 本章小結(jié)
第5章工作總結(jié)和展望
    5.1 論文工作總結(jié)
    5.2 工作展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間從事的科研工作及取得的成果

本文編號(hào)：3868557

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3868557.html

上一篇：基于C4.5改進(jìn)的林地宜植性預(yù)測(cè)系統(tǒng)的研究與實(shí)現(xiàn)
下一篇：基于個(gè)性特征的協(xié)同過濾推薦算法及其在旅游領(lǐng)域的應(yīng)用

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

Spark SQL結(jié)構(gòu)化數(shù)據(jù)處理及性能優(yōu)化