基于運(yùn)行時(shí)統(tǒng)計(jì)數(shù)據(jù)采集的Spark SQL查詢(xún)優(yōu)化研究
發(fā)布時(shí)間:2021-04-17 11:19
大數(shù)據(jù)時(shí)代,各行各業(yè)與互聯(lián)網(wǎng)的緊密結(jié)合產(chǎn)生了海量的業(yè)務(wù)數(shù)據(jù),通過(guò)分析這些業(yè)務(wù)數(shù)據(jù)可以為公司制定更好的運(yùn)營(yíng)策略,從而提升公司的盈利能力。Hadoop MapReduce系統(tǒng)的出現(xiàn)簡(jiǎn)化了對(duì)海量數(shù)據(jù)的分析,其被大量公司和機(jī)構(gòu)廣泛應(yīng)用于業(yè)務(wù)數(shù)據(jù)分析工作。然而Hadoop MapReduce采用磁盤(pán)來(lái)存儲(chǔ)計(jì)算的中間結(jié)果,因此計(jì)算效率較低,而Spark分布式計(jì)算引擎采用內(nèi)存來(lái)存儲(chǔ)計(jì)算的中間結(jié)果,顯著地提高了數(shù)據(jù)分析任務(wù)的執(zhí)行速度。為了進(jìn)一步簡(jiǎn)化數(shù)據(jù)分析工作,研究人員在Hadoop MapReduce系統(tǒng)上研發(fā)了Hive數(shù)據(jù)倉(cāng)庫(kù);在Spark之上構(gòu)建了Spark SQL系統(tǒng)。相對(duì)于早期的工具使用代碼描述計(jì)算任務(wù),這些工具使用SQL描述數(shù)據(jù)分析任務(wù),使其可以根據(jù)查詢(xún)優(yōu)化理論進(jìn)行優(yōu)化,進(jìn)一步提升了執(zhí)行的效率。但是目前Spark SQL的查詢(xún)優(yōu)化功能仍然存在以下不足:1)需要操作者顯式地通過(guò)統(tǒng)計(jì)信息收集命令收集統(tǒng)計(jì)信息,在缺乏統(tǒng)計(jì)信息時(shí)無(wú)優(yōu)化,而使用者通常不了解查詢(xún)優(yōu)化理論,也不了解如何有效地收集統(tǒng)計(jì)信息。2)收集的統(tǒng)計(jì)信息不夠準(zhǔn)確,優(yōu)化效果不佳。針對(duì)以上問(wèn)題,本文提出了一個(gè)在運(yùn)行時(shí)收集統(tǒng)計(jì)信息并對(duì)查詢(xún)進(jìn)...
【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:83 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Spark工具棧SparkSQL是運(yùn)行在Spark上的SQL-on-Hadoop工具
窄依賴(lài)和寬依賴(lài)
劃分調(diào)度階段在執(zhí)行過(guò)程時(shí)窄依賴(lài)的計(jì)算不需要父RDD的所有分區(qū)都計(jì)算完成才可進(jìn)行計(jì)
【參考文獻(xiàn)】:
碩士論文
[1]基于SPARK的兩表連接基數(shù)估計(jì)算法研究[D]. 葉圣潔.華中科技大學(xué) 2018
[2]Spark SQL查詢(xún)執(zhí)行優(yōu)化技術(shù)研究[D]. 萬(wàn)雨桐.東南大學(xué) 2018
[3]SPARK SQL系統(tǒng)查詢(xún)優(yōu)化的研究與實(shí)現(xiàn)[D]. 丁凱澤.北京郵電大學(xué) 2017
[4]SQL到SPARK查詢(xún)優(yōu)化機(jī)制研究[D]. 蔡凱臻.東南大學(xué) 2016
[5]連接操作在Spark框架上的實(shí)現(xiàn)與優(yōu)化[D]. 張文虎.國(guó)防科學(xué)技術(shù)大學(xué) 2016
[6]基于代價(jià)模型的Spark SQL查詢(xún)優(yōu)化研究[D]. 劉春雷.電子科技大學(xué) 2016
本文編號(hào):3143360
【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:83 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Spark工具棧SparkSQL是運(yùn)行在Spark上的SQL-on-Hadoop工具
窄依賴(lài)和寬依賴(lài)
劃分調(diào)度階段在執(zhí)行過(guò)程時(shí)窄依賴(lài)的計(jì)算不需要父RDD的所有分區(qū)都計(jì)算完成才可進(jìn)行計(jì)
【參考文獻(xiàn)】:
碩士論文
[1]基于SPARK的兩表連接基數(shù)估計(jì)算法研究[D]. 葉圣潔.華中科技大學(xué) 2018
[2]Spark SQL查詢(xún)執(zhí)行優(yōu)化技術(shù)研究[D]. 萬(wàn)雨桐.東南大學(xué) 2018
[3]SPARK SQL系統(tǒng)查詢(xún)優(yōu)化的研究與實(shí)現(xiàn)[D]. 丁凱澤.北京郵電大學(xué) 2017
[4]SQL到SPARK查詢(xún)優(yōu)化機(jī)制研究[D]. 蔡凱臻.東南大學(xué) 2016
[5]連接操作在Spark框架上的實(shí)現(xiàn)與優(yōu)化[D]. 張文虎.國(guó)防科學(xué)技術(shù)大學(xué) 2016
[6]基于代價(jià)模型的Spark SQL查詢(xún)優(yōu)化研究[D]. 劉春雷.電子科技大學(xué) 2016
本文編號(hào):3143360
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3143360.html
最近更新
教材專(zhuān)著