天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

Spark SQL結(jié)構(gòu)化數(shù)據(jù)處理及性能優(yōu)化

發(fā)布時(shí)間:2023-11-27 20:54
  近年來(lái)Spark內(nèi)存計(jì)算框架快速崛起,數(shù)據(jù)處理速度得到極大的提高,但是其速度上限卻受限于Spark內(nèi)存規(guī)模。當(dāng)數(shù)據(jù)量小于或接近內(nèi)存容量時(shí)Spark性能最好,反之則性能較差。因此Spark SQL在處理以4G行業(yè)卡數(shù)據(jù)為代表的通信大數(shù)據(jù)時(shí)暴露出了諸多問(wèn)題,如讀寫(xiě)速度和查詢速度緩慢、系統(tǒng)資源分配不均或不足、大表Join效率低等。本文從Spark SQL的數(shù)據(jù)組織方式、Spark資源管理機(jī)制和Join算法三個(gè)方面處理結(jié)構(gòu)化數(shù)據(jù)并進(jìn)行相關(guān)的性能優(yōu)化。首先提出了改進(jìn)的數(shù)據(jù)組織框架以提高Spark SQL的讀寫(xiě)和查詢速度,其次建立了資源監(jiān)控模型合理的分配和使用資源,最后基于改進(jìn)的數(shù)據(jù)組織框架和監(jiān)控模型改進(jìn)了大表Join算法。主要工作如下:(1)本文通過(guò)分析和對(duì)比Spark SQL和Hbase的數(shù)據(jù)組織方式,提出了一種改進(jìn)的數(shù)據(jù)組織框架。該框架首先改進(jìn)了Parquet文件格式的讀寫(xiě)接口,其次利用Hbase+Phoenix構(gòu)建了二級(jí)索引,大幅提升了4G行業(yè)卡數(shù)據(jù)的讀寫(xiě)和查詢速度。(2)本文進(jìn)一步研究了Spark的內(nèi)存模型和資源使用情況,通過(guò)性能監(jiān)控獲取集群底層各項(xiàng)參數(shù),建立了內(nèi)存監(jiān)控模型對(duì)資源使用情況...

【文章頁(yè)數(shù)】:81 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
abstract
第1章 緒論
    1.1 研究背景及意義
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
        1.2.1 數(shù)據(jù)組織方式研究現(xiàn)狀
        1.2.2 Join算法研究現(xiàn)狀
        1.2.3 Spark資源優(yōu)化研究現(xiàn)狀
    1.3 論文主要工作
    1.4 論文組織結(jié)構(gòu)
第2章 Spark SQL及 Hbase技術(shù)基礎(chǔ)
    2.1 Spark SQL數(shù)據(jù)組織框架
        2.1.1 Spark SQL查詢機(jī)制
        2.1.2 Spark SQL文件格式
        2.1.3 Parquet文件格式
    2.2 Hbase數(shù)據(jù)組織框架
        2.2.1 Hbase查詢機(jī)制
        2.2.2 Hbase文件格式
        2.2.3 Phoenix映射關(guān)系
    2.3 Spark資源管理機(jī)制
        2.3.1 Spark運(yùn)行機(jī)制
        2.3.2 Spark內(nèi)存模型
    2.4 Spark Join算法
        2.4.1 分布式Join算法分類
        2.4.2 BloomFilter算法
    2.5 本章小結(jié)
第3章 Spark SQL數(shù)據(jù)組織方式設(shè)計(jì)
    3.1 Spark SQL問(wèn)題分析
        3.1.1 數(shù)據(jù)讀寫(xiě)問(wèn)題
        3.1.2 數(shù)據(jù)存儲(chǔ)問(wèn)題
        3.1.3 存儲(chǔ)格式對(duì)比分析
        3.1.4 Spark SQL與 Hbase整合分析
    3.2 4G行業(yè)卡數(shù)據(jù)組織框架設(shè)計(jì)
        3.2.1 業(yè)務(wù)場(chǎng)景分析
        3.2.2 Spark SQL讀寫(xiě)接口改進(jìn)
        3.2.3 Spark SQL與 Hbase框架整合
    3.3 實(shí)驗(yàn)及結(jié)果分析
        3.3.1 實(shí)驗(yàn)環(huán)境
        3.3.2 實(shí)驗(yàn)結(jié)果分析
    3.4 本章小結(jié)
第4章 大表關(guān)聯(lián)算法研究
    4.1 Spark SQL大表關(guān)聯(lián)問(wèn)題分析
        4.1.1 Sort Merge Join問(wèn)題分析
        4.1.2 分批Join策略
    4.2 內(nèi)存監(jiān)控模型設(shè)計(jì)
        4.2.1 性能指標(biāo)分析
        4.2.2 內(nèi)存監(jiān)控模型
        4.2.3 資源分級(jí)及預(yù)警
    4.3 分批Join算法設(shè)計(jì)
        4.3.1 算法概述
        4.3.2 算法詳細(xì)流程
        4.3.3 算法開(kāi)銷(xiāo)分析
    4.4 實(shí)驗(yàn)及結(jié)果分析
        4.4.1 實(shí)驗(yàn)環(huán)境
        4.4.2 實(shí)驗(yàn)結(jié)果分析
    4.5 本章小結(jié)
第5章 工作總結(jié)和展望
    5.1 論文工作總結(jié)
    5.2 工作展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間從事的科研工作及取得的成果



本文編號(hào):3868557

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3868557.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e4aaa***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
久久99精品日韩人妻| 国产一区二区熟女精品免费| 亚洲国产精品国自产拍社区| a久久天堂国产毛片精品| 熟女少妇久久一区二区三区| 免费在线成人午夜视频| 蜜臀人妻一区二区三区| 国产水滴盗摄一区二区| 五月激情婷婷丁香六月网| 亚洲日本韩国一区二区三区| 欧美一二三区高清不卡| av在线免费播放一区二区| 日韩一区二区三区嘿嘿| 日韩亚洲精品国产第二页| 国产在线小视频你懂的| 国产欧美日本在线播放| 91人人妻人人爽人人狠狠| 偷拍洗澡一区二区三区| 日本二区三区在线播放| 91亚洲国产成人久久| 九九热这里只有精品哦| 亚洲国产婷婷六月丁香| 成年人免费看国产视频| 好吊视频有精品永久免费| 操白丝女孩在线观看免费高清| 久久热九九这里只有精品| 黄片在线免费观看全集| 久久永久免费一区二区| 国产精品福利一二三区| 亚洲高清欧美中文字幕| 欧美激情一区=区三区| 亚洲av日韩av高潮无打码| 免费在线观看欧美喷水黄片| 国产欧美日韩精品自拍| 开心久久综合激情五月天| 91人妻人人精品人人爽| 国产女高清在线看免费观看| 亚洲日本久久国产精品久久| 国产精品人妻熟女毛片av久 | 免费精品一区二区三区| 亚洲最新中文字幕在线视频|