基于運行時統(tǒng)計數(shù)據(jù)采集的Spark SQL查詢優(yōu)化研究
發(fā)布時間:2021-04-17 11:19
大數(shù)據(jù)時代,各行各業(yè)與互聯(lián)網(wǎng)的緊密結(jié)合產(chǎn)生了海量的業(yè)務(wù)數(shù)據(jù),通過分析這些業(yè)務(wù)數(shù)據(jù)可以為公司制定更好的運營策略,從而提升公司的盈利能力。Hadoop MapReduce系統(tǒng)的出現(xiàn)簡化了對海量數(shù)據(jù)的分析,其被大量公司和機(jī)構(gòu)廣泛應(yīng)用于業(yè)務(wù)數(shù)據(jù)分析工作。然而Hadoop MapReduce采用磁盤來存儲計算的中間結(jié)果,因此計算效率較低,而Spark分布式計算引擎采用內(nèi)存來存儲計算的中間結(jié)果,顯著地提高了數(shù)據(jù)分析任務(wù)的執(zhí)行速度。為了進(jìn)一步簡化數(shù)據(jù)分析工作,研究人員在Hadoop MapReduce系統(tǒng)上研發(fā)了Hive數(shù)據(jù)倉庫;在Spark之上構(gòu)建了Spark SQL系統(tǒng)。相對于早期的工具使用代碼描述計算任務(wù),這些工具使用SQL描述數(shù)據(jù)分析任務(wù),使其可以根據(jù)查詢優(yōu)化理論進(jìn)行優(yōu)化,進(jìn)一步提升了執(zhí)行的效率。但是目前Spark SQL的查詢優(yōu)化功能仍然存在以下不足:1)需要操作者顯式地通過統(tǒng)計信息收集命令收集統(tǒng)計信息,在缺乏統(tǒng)計信息時無優(yōu)化,而使用者通常不了解查詢優(yōu)化理論,也不了解如何有效地收集統(tǒng)計信息。2)收集的統(tǒng)計信息不夠準(zhǔn)確,優(yōu)化效果不佳。針對以上問題,本文提出了一個在運行時收集統(tǒng)計信息并對查詢進(jìn)...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:83 頁
【學(xué)位級別】:碩士
【部分圖文】:
Spark工具棧SparkSQL是運行在Spark上的SQL-on-Hadoop工具
窄依賴和寬依賴
劃分調(diào)度階段在執(zhí)行過程時窄依賴的計算不需要父RDD的所有分區(qū)都計算完成才可進(jìn)行計
【參考文獻(xiàn)】:
碩士論文
[1]基于SPARK的兩表連接基數(shù)估計算法研究[D]. 葉圣潔.華中科技大學(xué) 2018
[2]Spark SQL查詢執(zhí)行優(yōu)化技術(shù)研究[D]. 萬雨桐.東南大學(xué) 2018
[3]SPARK SQL系統(tǒng)查詢優(yōu)化的研究與實現(xiàn)[D]. 丁凱澤.北京郵電大學(xué) 2017
[4]SQL到SPARK查詢優(yōu)化機(jī)制研究[D]. 蔡凱臻.東南大學(xué) 2016
[5]連接操作在Spark框架上的實現(xiàn)與優(yōu)化[D]. 張文虎.國防科學(xué)技術(shù)大學(xué) 2016
[6]基于代價模型的Spark SQL查詢優(yōu)化研究[D]. 劉春雷.電子科技大學(xué) 2016
本文編號:3143360
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:83 頁
【學(xué)位級別】:碩士
【部分圖文】:
Spark工具棧SparkSQL是運行在Spark上的SQL-on-Hadoop工具
窄依賴和寬依賴
劃分調(diào)度階段在執(zhí)行過程時窄依賴的計算不需要父RDD的所有分區(qū)都計算完成才可進(jìn)行計
【參考文獻(xiàn)】:
碩士論文
[1]基于SPARK的兩表連接基數(shù)估計算法研究[D]. 葉圣潔.華中科技大學(xué) 2018
[2]Spark SQL查詢執(zhí)行優(yōu)化技術(shù)研究[D]. 萬雨桐.東南大學(xué) 2018
[3]SPARK SQL系統(tǒng)查詢優(yōu)化的研究與實現(xiàn)[D]. 丁凱澤.北京郵電大學(xué) 2017
[4]SQL到SPARK查詢優(yōu)化機(jī)制研究[D]. 蔡凱臻.東南大學(xué) 2016
[5]連接操作在Spark框架上的實現(xiàn)與優(yōu)化[D]. 張文虎.國防科學(xué)技術(shù)大學(xué) 2016
[6]基于代價模型的Spark SQL查詢優(yōu)化研究[D]. 劉春雷.電子科技大學(xué) 2016
本文編號:3143360
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3143360.html
最近更新
教材專著