當(dāng)前位置：主頁 > 科技論文 > 計算機(jī)應(yīng)用論文 >

基于運行時統(tǒng)計數(shù)據(jù)采集的Spark SQL查詢優(yōu)化研究

發(fā)布時間：2021-04-17 11:19

　　大數(shù)據(jù)時代,各行各業(yè)與互聯(lián)網(wǎng)的緊密結(jié)合產(chǎn)生了海量的業(yè)務(wù)數(shù)據(jù),通過分析這些業(yè)務(wù)數(shù)據(jù)可以為公司制定更好的運營策略,從而提升公司的盈利能力。Hadoop MapReduce系統(tǒng)的出現(xiàn)簡化了對海量數(shù)據(jù)的分析,其被大量公司和機(jī)構(gòu)廣泛應(yīng)用于業(yè)務(wù)數(shù)據(jù)分析工作。然而Hadoop MapReduce采用磁盤來存儲計算的中間結(jié)果,因此計算效率較低,而Spark分布式計算引擎采用內(nèi)存來存儲計算的中間結(jié)果,顯著地提高了數(shù)據(jù)分析任務(wù)的執(zhí)行速度。為了進(jìn)一步簡化數(shù)據(jù)分析工作,研究人員在Hadoop MapReduce系統(tǒng)上研發(fā)了Hive數(shù)據(jù)倉庫;在Spark之上構(gòu)建了Spark SQL系統(tǒng)。相對于早期的工具使用代碼描述計算任務(wù),這些工具使用SQL描述數(shù)據(jù)分析任務(wù),使其可以根據(jù)查詢優(yōu)化理論進(jìn)行優(yōu)化,進(jìn)一步提升了執(zhí)行的效率。但是目前Spark SQL的查詢優(yōu)化功能仍然存在以下不足:1)需要操作者顯式地通過統(tǒng)計信息收集命令收集統(tǒng)計信息,在缺乏統(tǒng)計信息時無優(yōu)化,而使用者通常不了解查詢優(yōu)化理論,也不了解如何有效地收集統(tǒng)計信息。2)收集的統(tǒng)計信息不夠準(zhǔn)確,優(yōu)化效果不佳。針對以上問題,本文提出了一個在運行時收集統(tǒng)計信息并對查詢進(jìn)...

【文章來源】：電子科技大學(xué)四川省 211工程院校 985工程院校教育部直屬院校

【文章頁數(shù)】：83 頁

【學(xué)位級別】：碩士

【部分圖文】：

Spark工具棧SparkSQL是運行在Spark上的SQL-on-Hadoop工具

基于運行時統(tǒng)計數(shù)據(jù)采集的Spark SQL查詢優(yōu)化研究

窄依賴和寬依賴

基于運行時統(tǒng)計數(shù)據(jù)采集的Spark SQL查詢優(yōu)化研究

劃分調(diào)度階段在執(zhí)行過程時窄依賴的計算不需要父RDD的所有分區(qū)都計算完成才可進(jìn)行計

【參考文獻(xiàn)】：
碩士論文
[1]基于SPARK的兩表連接基數(shù)估計算法研究[D]. 葉圣潔.華中科技大學(xué) 2018
[2]Spark SQL查詢執(zhí)行優(yōu)化技術(shù)研究[D]. 萬雨桐.東南大學(xué) 2018
[3]SPARK SQL系統(tǒng)查詢優(yōu)化的研究與實現(xiàn)[D]. 丁凱澤.北京郵電大學(xué) 2017
[4]SQL到SPARK查詢優(yōu)化機(jī)制研究[D]. 蔡凱臻.東南大學(xué) 2016
[5]連接操作在Spark框架上的實現(xiàn)與優(yōu)化[D]. 張文虎.國防科學(xué)技術(shù)大學(xué) 2016
[6]基于代價模型的Spark SQL查詢優(yōu)化研究[D]. 劉春雷.電子科技大學(xué) 2016

本文編號：3143360

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/3143360.html

上一篇：基于Markov隨機(jī)場圖像深度計算及應(yīng)用研究
下一篇：文本分類TF-IDF算法的改進(jìn)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于運行時統(tǒng)計數(shù)據(jù)采集的Spark SQL查詢優(yōu)化研究