基于Hadoop的SQL查詢引擎性能研究
本文關(guān)鍵詞:基于Hadoop的SQL查詢引擎性能研究
更多相關(guān)文章: 大數(shù)據(jù) SQL-on-Hadoop 數(shù)據(jù)倉(cāng)庫(kù) Spark SQL Impala Hive
【摘要】:Apache Hadoop處理超大規(guī)模數(shù)據(jù)集有非常出色的表現(xiàn),相比較于傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)和關(guān)系型數(shù)據(jù)庫(kù)有不少優(yōu)勢(shì).為了讓原有業(yè)務(wù)能夠充分利用Hadoop的優(yōu)勢(shì),SQL-on-Hadoop系統(tǒng)越來(lái)越受到工業(yè)界和學(xué)術(shù)界的關(guān)注.基于Hadoop的SQL查詢引擎種類繁多,各有優(yōu)勢(shì),其運(yùn)算引擎主要包括三種:1傳統(tǒng)的Map/Reduce引擎;2新興的Spark引擎;3基于shared-nothing架構(gòu)的MPP引擎.本文選取了其中最有代表性的三種SQL查詢引擎—Hive、Spark SQL、Impala,并使用了一種類TPC-H的測(cè)試基準(zhǔn)對(duì)它們的決策支持能力進(jìn)行測(cè)試及評(píng)估.從實(shí)驗(yàn)結(jié)果來(lái)看,Impala和Spark SQL相對(duì)于傳統(tǒng)的Hive都有較大的提高,其中Impala的部分查詢比Hive快了10倍以上,并且Impala在完成查詢所占用的集群資源也是最少的.然而若從穩(wěn)定性、易用性、兼容性和性能等多個(gè)方面進(jìn)行對(duì)比,并不存在各方面均最優(yōu)的查詢引擎,因此在構(gòu)建基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)時(shí),推薦采用Hive+Impala或者Hive+Spark SQL的混合架構(gòu).
【作者單位】: 武漢大學(xué)計(jì)算機(jī)學(xué)院;英特爾英特爾亞太研發(fā)中心;
【關(guān)鍵詞】: 大數(shù)據(jù) SQL-on-Hadoop 數(shù)據(jù)倉(cāng)庫(kù) Spark SQL Impala Hive
【基金】:國(guó)家自然科學(xué)基金項(xiàng)目(61272112;61472287) 湖北省自然科學(xué)基金重點(diǎn)項(xiàng)目(2015CFA068)
【分類號(hào)】:TP311.13
【正文快照】: 隨著數(shù)據(jù)量的急劇增長(zhǎng),傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用已經(jīng)難以滿足聯(lián)機(jī)分析處理(On-line AnalyticalProcessing,OLAP)對(duì)數(shù)據(jù)倉(cāng)庫(kù)提出的新需求,特別是大數(shù)據(jù)4V特性中,大規(guī)模(Volume)、高復(fù)雜度(Variety)兩座大山讓擴(kuò)展性不足的傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)不堪重負(fù),尋求新型的高可擴(kuò)展性數(shù)據(jù)倉(cāng)庫(kù)成為了當(dāng)
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 鄭瑋;;Hadoop釋放大數(shù)據(jù)潛能[J];軟件和信息服務(wù);2012年10期
2 劉爾凱;崔振東;;基于HADOOP技術(shù) 實(shí)現(xiàn)銀行歷史數(shù)據(jù)線上化研究[J];金融電子化;2014年01期
3 鄒群;;一種基于Hadoop的數(shù)字圖書存儲(chǔ)系統(tǒng)設(shè)計(jì)方案[J];黑龍江史志;2014年01期
4 諶章義;畢偉;向萬(wàn)紅;王國(guó)安;吳愛(ài)國(guó);;基于Hadoop的海量電費(fèi)數(shù)據(jù)處理模型[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2014年05期
5 ;大數(shù)據(jù)不等于Hadoop[J];辦公自動(dòng)化;2014年06期
6 ;保障Hadoop數(shù)據(jù)安全的十大措施[J];計(jì)算機(jī)與網(wǎng)絡(luò);2013年08期
7 蘇小會(huì);何婧媛;;Hadoop中任務(wù)調(diào)度算法的改進(jìn)[J];電子設(shè)計(jì)工程;2012年22期
8 黃德才;陳歡;;Hadoop平臺(tái)下海量數(shù)據(jù)排行榜過(guò)濾算法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2012年03期
9 周航;申秋慧;王迤冉;;基于Hadoop平臺(tái)的任務(wù)調(diào)度方案分析[J];周口師范學(xué)院學(xué)報(bào);2013年02期
10 陳吉榮;樂(lè)嘉錦;;基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J];計(jì)算機(jī)工程與科學(xué);2013年10期
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前3條
1 本報(bào)記者 郭濤;機(jī)器大數(shù)據(jù)也離不開(kāi)Hadoop[N];中國(guó)計(jì)算機(jī)報(bào);2013年
2 樂(lè)天 編譯;Hadoop:打開(kāi)大數(shù)據(jù)之門的金鑰匙[N];計(jì)算機(jī)世界;2012年
3 范范 編譯;Hadoop用戶可以使用多種搜索引擎[N];網(wǎng)絡(luò)世界;2013年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 白亮;基于Hadoop的民航高價(jià)值旅客發(fā)現(xiàn)方法研究[D];中國(guó)民航大學(xué);2015年
2 張麗云;基于Hadoop的企業(yè)知識(shí)管理系統(tǒng)的主要功能的研究與實(shí)現(xiàn)[D];東北師范大學(xué);2014年
3 夏志剛;基于Hadoop的數(shù)字大棚云系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[D];大連理工大學(xué);2014年
4 張興平;基于Hadoop的微博用戶情感分類研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2014年
5 楊寧;基于Hadoop平臺(tái)的廣告檢測(cè)系統(tǒng)研究與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2012年
6 丁青松;基于Hadoop平臺(tái)的大數(shù)據(jù)增量處理技術(shù)的研究[D];東北大學(xué);2014年
7 湯艷;基于Hadoop架構(gòu)的移動(dòng)終端云資源訪問(wèn)模式研究與應(yīng)用[D];北京工業(yè)大學(xué);2013年
8 丁鴻凱;基于Hadoop的交通視頻異常事件檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2015年
9 陸藝達(dá);基于Hadoop分布式計(jì)算框架的垃圾短信群發(fā)檢測(cè)系統(tǒng)[D];復(fù)旦大學(xué);2013年
10 李金朋;基于Hadoop平臺(tái)的重疊社區(qū)發(fā)現(xiàn)算法研究[D];吉林大學(xué);2014年
,本文編號(hào):683108
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/683108.html