天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于運行時統(tǒng)計數(shù)據(jù)采集的Spark SQL查詢優(yōu)化研究

發(fā)布時間:2021-04-17 11:19
  大數(shù)據(jù)時代,各行各業(yè)與互聯(lián)網(wǎng)的緊密結(jié)合產(chǎn)生了海量的業(yè)務(wù)數(shù)據(jù),通過分析這些業(yè)務(wù)數(shù)據(jù)可以為公司制定更好的運營策略,從而提升公司的盈利能力。Hadoop MapReduce系統(tǒng)的出現(xiàn)簡化了對海量數(shù)據(jù)的分析,其被大量公司和機(jī)構(gòu)廣泛應(yīng)用于業(yè)務(wù)數(shù)據(jù)分析工作。然而Hadoop MapReduce采用磁盤來存儲計算的中間結(jié)果,因此計算效率較低,而Spark分布式計算引擎采用內(nèi)存來存儲計算的中間結(jié)果,顯著地提高了數(shù)據(jù)分析任務(wù)的執(zhí)行速度。為了進(jìn)一步簡化數(shù)據(jù)分析工作,研究人員在Hadoop MapReduce系統(tǒng)上研發(fā)了Hive數(shù)據(jù)倉庫;在Spark之上構(gòu)建了Spark SQL系統(tǒng)。相對于早期的工具使用代碼描述計算任務(wù),這些工具使用SQL描述數(shù)據(jù)分析任務(wù),使其可以根據(jù)查詢優(yōu)化理論進(jìn)行優(yōu)化,進(jìn)一步提升了執(zhí)行的效率。但是目前Spark SQL的查詢優(yōu)化功能仍然存在以下不足:1)需要操作者顯式地通過統(tǒng)計信息收集命令收集統(tǒng)計信息,在缺乏統(tǒng)計信息時無優(yōu)化,而使用者通常不了解查詢優(yōu)化理論,也不了解如何有效地收集統(tǒng)計信息。2)收集的統(tǒng)計信息不夠準(zhǔn)確,優(yōu)化效果不佳。針對以上問題,本文提出了一個在運行時收集統(tǒng)計信息并對查詢進(jìn)... 

【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:83 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于運行時統(tǒng)計數(shù)據(jù)采集的Spark SQL查詢優(yōu)化研究


Spark工具棧SparkSQL是運行在Spark上的SQL-on-Hadoop工具

基于運行時統(tǒng)計數(shù)據(jù)采集的Spark SQL查詢優(yōu)化研究


窄依賴和寬依賴

基于運行時統(tǒng)計數(shù)據(jù)采集的Spark SQL查詢優(yōu)化研究


劃分調(diào)度階段在執(zhí)行過程時窄依賴的計算不需要父RDD的所有分區(qū)都計算完成才可進(jìn)行計

【參考文獻(xiàn)】:
碩士論文
[1]基于SPARK的兩表連接基數(shù)估計算法研究[D]. 葉圣潔.華中科技大學(xué) 2018
[2]Spark SQL查詢執(zhí)行優(yōu)化技術(shù)研究[D]. 萬雨桐.東南大學(xué) 2018
[3]SPARK SQL系統(tǒng)查詢優(yōu)化的研究與實現(xiàn)[D]. 丁凱澤.北京郵電大學(xué) 2017
[4]SQL到SPARK查詢優(yōu)化機(jī)制研究[D]. 蔡凱臻.東南大學(xué) 2016
[5]連接操作在Spark框架上的實現(xiàn)與優(yōu)化[D]. 張文虎.國防科學(xué)技術(shù)大學(xué) 2016
[6]基于代價模型的Spark SQL查詢優(yōu)化研究[D]. 劉春雷.電子科技大學(xué) 2016



本文編號:3143360

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3143360.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶07154***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com