數(shù)據(jù)倉(cāng)庫(kù)分布式列存儲(chǔ)技術(shù)研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-06-06 15:36
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展和互聯(lián)網(wǎng)用戶的不斷增多,互聯(lián)網(wǎng)的數(shù)據(jù)近幾年呈現(xiàn)爆炸式地增長(zhǎng)。互聯(lián)網(wǎng)數(shù)據(jù)的急驟增長(zhǎng),使得傳統(tǒng)數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)技術(shù)面臨巨大的挑戰(zhàn),單結(jié)點(diǎn)的數(shù)據(jù)庫(kù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)往往難以存儲(chǔ)和分析海量的數(shù)據(jù)。而Hadoop則可以通過(guò)將廉價(jià)的商用計(jì)算機(jī)組成分布式集群的方式,以極低的成本、極高的擴(kuò)展性,輕易地解決海量數(shù)據(jù)存儲(chǔ)和分析的難題。這也使得擅長(zhǎng)解決大數(shù)據(jù)而新興的Hadoop分布式計(jì)算平臺(tái)在兩到三年的時(shí)間里快速成長(zhǎng)、成熟并流行開(kāi)來(lái)。隨著數(shù)據(jù)規(guī)模的不斷增長(zhǎng),以Hadoop為代表的基于集群的分布式數(shù)據(jù)處理平臺(tái)必將成為未來(lái)的數(shù)據(jù)分析和處理的主流。本文分析了分布式系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)的基本原理,并對(duì)Hadoop原理進(jìn)行了詳細(xì)的研究和分析,重點(diǎn)研究了兩個(gè)核心子項(xiàng)目MapReduce和HDFS的底層的實(shí)現(xiàn)機(jī)制,并詳細(xì)分析了基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)架構(gòu)——Hive的原理、架構(gòu)及實(shí)現(xiàn)。由于Hadoop目前在數(shù)據(jù)處理時(shí)均是以行或行組的形式進(jìn)行分布式存儲(chǔ),IO瓶頸是影響Hadoop數(shù)據(jù)處理性能的主要瓶頸,CPU利用率較低,未達(dá)到充分利用。同時(shí),列存儲(chǔ)技術(shù)具有減少查詢1O數(shù)據(jù)量和易于壓縮的重要優(yōu)點(diǎn)。本文...
【文章來(lái)源】:昆明理工大學(xué)云南省
【文章頁(yè)數(shù)】:79 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 問(wèn)題與動(dòng)機(jī)
1.3 論文研究的內(nèi)容
1.4 論文的組織結(jié)構(gòu)
第二章 關(guān)鍵技術(shù)及原理分析
2.1 分布式系統(tǒng)
2.2 數(shù)據(jù)倉(cāng)庫(kù)
2.3 HADOOP平臺(tái)
2.4 HIVE
第三章 MAPREDUCE列存儲(chǔ)設(shè)計(jì)
3.1 分布式列存儲(chǔ)的優(yōu)勢(shì)
3.2 MAPREDUCE列存儲(chǔ)系統(tǒng)整體架構(gòu)
3.3 MAPREDUCE列存儲(chǔ)設(shè)計(jì)要點(diǎn)
3.4 存儲(chǔ)格式設(shè)計(jì)
3.5 冗余和數(shù)據(jù)本地化設(shè)計(jì)
3.6 多線程寫(xiě)入設(shè)計(jì)
3.7 塊內(nèi)數(shù)據(jù)壓縮
第四章 核心算法設(shè)計(jì)
4.1 分布式數(shù)據(jù)塊放置算法
4.2 塊內(nèi)數(shù)據(jù)壓縮算法
第五章 性能測(cè)試與分析
5.1 分布式列存儲(chǔ)格式性能分析
5.2 壓縮算法性能分析
第六章 數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用
6.1 數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用整體架構(gòu)
6.2 HIVE列存儲(chǔ)應(yīng)用
6.3 OLAP工具應(yīng)用
第七章 總結(jié)與展望
7.1 工作總結(jié)
7.2 進(jìn)一步研究設(shè)想
致謝
參考文獻(xiàn)
附錄A 攻讀學(xué)位期間發(fā)表的論文目錄
本文編號(hào):3214669
【文章來(lái)源】:昆明理工大學(xué)云南省
【文章頁(yè)數(shù)】:79 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 問(wèn)題與動(dòng)機(jī)
1.3 論文研究的內(nèi)容
1.4 論文的組織結(jié)構(gòu)
第二章 關(guān)鍵技術(shù)及原理分析
2.1 分布式系統(tǒng)
2.2 數(shù)據(jù)倉(cāng)庫(kù)
2.3 HADOOP平臺(tái)
2.4 HIVE
第三章 MAPREDUCE列存儲(chǔ)設(shè)計(jì)
3.1 分布式列存儲(chǔ)的優(yōu)勢(shì)
3.2 MAPREDUCE列存儲(chǔ)系統(tǒng)整體架構(gòu)
3.3 MAPREDUCE列存儲(chǔ)設(shè)計(jì)要點(diǎn)
3.4 存儲(chǔ)格式設(shè)計(jì)
3.5 冗余和數(shù)據(jù)本地化設(shè)計(jì)
3.6 多線程寫(xiě)入設(shè)計(jì)
3.7 塊內(nèi)數(shù)據(jù)壓縮
第四章 核心算法設(shè)計(jì)
4.1 分布式數(shù)據(jù)塊放置算法
4.2 塊內(nèi)數(shù)據(jù)壓縮算法
第五章 性能測(cè)試與分析
5.1 分布式列存儲(chǔ)格式性能分析
5.2 壓縮算法性能分析
第六章 數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用
6.1 數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用整體架構(gòu)
6.2 HIVE列存儲(chǔ)應(yīng)用
6.3 OLAP工具應(yīng)用
第七章 總結(jié)與展望
7.1 工作總結(jié)
7.2 進(jìn)一步研究設(shè)想
致謝
參考文獻(xiàn)
附錄A 攻讀學(xué)位期間發(fā)表的論文目錄
本文編號(hào):3214669
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3214669.html
最近更新
教材專著