HDFS數(shù)據(jù)副本存儲(chǔ)的優(yōu)化及對(duì)海量數(shù)據(jù)存儲(chǔ)方法的研究
發(fā)布時(shí)間:2017-04-21 16:04
本文關(guān)鍵詞:HDFS數(shù)據(jù)副本存儲(chǔ)的優(yōu)化及對(duì)海量數(shù)據(jù)存儲(chǔ)方法的研究,由筆耕文化傳播整理發(fā)布。
【摘要】:如今社會(huì)互聯(lián)網(wǎng)飛速發(fā)展,網(wǎng)絡(luò)上產(chǎn)生越來越多的數(shù)據(jù),這些數(shù)據(jù)具有非常重要的價(jià)值,如何存儲(chǔ)和管理這些數(shù)據(jù)非常重要,這也是一個(gè)非常具有挑戰(zhàn)的任務(wù)在大數(shù)據(jù)時(shí)代的到來。采用舊的的模式手工記錄及使用目前的關(guān)系型數(shù)據(jù)庫已經(jīng)遠(yuǎn)遠(yuǎn)不能同時(shí)滿足對(duì)大數(shù)據(jù)及時(shí)的存儲(chǔ)及管理,那么如何存儲(chǔ)大數(shù)據(jù)已經(jīng)變得非常重要也很艱難,怎么樣去管理大數(shù)據(jù)是本文要研究的主要內(nèi)容,對(duì)于大數(shù)據(jù)的價(jià)值的挖掘及其搜索是當(dāng)務(wù)之急,所以說大數(shù)據(jù)已經(jīng)變成為現(xiàn)代社會(huì)的新的挑戰(zhàn)。在因特網(wǎng)快速發(fā)展的時(shí)期,尤其是對(duì)于一些社交網(wǎng)絡(luò)、網(wǎng)上商城電子商務(wù)及移動(dòng)通信把我們帶入到了一個(gè)以PB為單位的半結(jié)構(gòu)化與非結(jié)構(gòu)化的大數(shù)據(jù)信息的新時(shí)代,而生活在這個(gè)時(shí)代每天都會(huì)有數(shù)以億計(jì)的數(shù)據(jù)產(chǎn)生,也孕育著在這個(gè)時(shí)代有著非常大的機(jī)遇。本文主要講述HDFS數(shù)據(jù)塊以多副本存儲(chǔ)存在的不足,針對(duì)不足提出了概率模型來解決該不足。該概率模型是基于數(shù)學(xué)的角度考慮來解決多副本存儲(chǔ)問題,預(yù)測(cè)副本的可用性從而計(jì)算出數(shù)據(jù)副本復(fù)制的次數(shù),求出數(shù)據(jù)塊需要復(fù)制的次數(shù)后創(chuàng)建數(shù)據(jù)副本模型,建好模型后考慮到負(fù)載均衡問題還需要對(duì)模型進(jìn)行進(jìn)一步的存放。這里采用一致性哈希算法來對(duì)數(shù)據(jù)模型放置,這樣可以達(dá)到負(fù)載均衡。在此優(yōu)化的基礎(chǔ)上我們開始對(duì)大數(shù)據(jù)存儲(chǔ)方案進(jìn)行研究。本文采用的數(shù)據(jù)庫是非關(guān)系型數(shù)據(jù)庫HBase數(shù)據(jù)庫來對(duì)大數(shù)據(jù)進(jìn)行存儲(chǔ),HBase數(shù)據(jù)庫存儲(chǔ)的優(yōu)點(diǎn)就是結(jié)構(gòu)簡(jiǎn)單按列存儲(chǔ)非常方便,不足就是自身存儲(chǔ)方案隨著數(shù)據(jù)量的不斷增大會(huì)不斷的觸發(fā)其自身的split和compaction機(jī)制這樣大大的降低了存儲(chǔ)性能,本文提出了改進(jìn)的方案就是結(jié)合HDFS來對(duì)大數(shù)據(jù)進(jìn)行存儲(chǔ),將大數(shù)據(jù)文件存儲(chǔ)在HDFS中將數(shù)據(jù)的索引存儲(chǔ)在HBase中。為了驗(yàn)證本文提出的兩種改進(jìn)方案,本實(shí)驗(yàn)采用Hadoop構(gòu)架來進(jìn)行數(shù)據(jù)存儲(chǔ),本實(shí)驗(yàn)環(huán)境采用的是Linux系統(tǒng)和8臺(tái)虛擬機(jī)搭建而成。對(duì)于實(shí)驗(yàn)結(jié)果顯示基于概率模型的HDFS副本放置策略優(yōu)于系統(tǒng)默認(rèn)的以3個(gè)副本放置的策略,對(duì)于存儲(chǔ)時(shí)間上有著明顯的提升。對(duì)于HBase改進(jìn)的存儲(chǔ)策略隨著數(shù)據(jù)集數(shù)據(jù)量不斷的增加改進(jìn)的存儲(chǔ)效率上也有著明顯的提升。
【關(guān)鍵詞】:HBASE Hadoop 大數(shù)據(jù) HDFS MapReduce
【學(xué)位授予單位】:遼寧大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP311.13;TP333
【目錄】:
- 摘要4-5
- Abstract5-12
- 第1章 緒論12-18
- 1.1 研究背景及意義12-14
- 1.1.1 研究背景12-13
- 1.1.2 研究意義13-14
- 1.2 大數(shù)據(jù)存儲(chǔ)的研究現(xiàn)狀14-15
- 1.2.1 國外的研究現(xiàn)狀14-15
- 1.2.2 國內(nèi)的研究現(xiàn)狀15
- 1.3 大數(shù)據(jù)存儲(chǔ)的特點(diǎn)及其難點(diǎn)15-16
- 1.3.1 大數(shù)據(jù)存儲(chǔ)的特點(diǎn)15
- 1.3.2 大數(shù)據(jù)存儲(chǔ)的難點(diǎn)15-16
- 1.4 論文結(jié)構(gòu)16-17
- 1.5 本章小結(jié)17-18
- 第2章 研究基礎(chǔ)18-27
- 2.1 Hadoop簡(jiǎn)介18-19
- 2.1.1 Hadoop構(gòu)架的優(yōu)勢(shì)18-19
- 2.1.2 Hadoop構(gòu)架下的項(xiàng)目19
- 2.2 分布式文件系統(tǒng)HDFS19-23
- 2.2.1 分布式文件系統(tǒng)簡(jiǎn)介19-20
- 2.2.2 HDFS的設(shè)計(jì)理念20
- 2.2.3 HDFS的構(gòu)架20-21
- 2.2.4 名字節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)簡(jiǎn)介21-23
- 2.3 MapReduce框架實(shí)現(xiàn)構(gòu)架23-26
- 2.3.1 MapReduce簡(jiǎn)介23-25
- 2.3.2 MapReduce數(shù)據(jù)處理25
- 2.3.3 執(zhí)行分配的任務(wù)25-26
- 2.4 本章小結(jié)26-27
- 第3章 HDFS對(duì)數(shù)據(jù)塊多副本復(fù)制策略的優(yōu)化27-41
- 3.1 HDFS的數(shù)據(jù)塊副本27-29
- 3.1.1 詳述分布式文件系統(tǒng)的構(gòu)架27-28
- 3.1.2 文件系統(tǒng)的存儲(chǔ)過程28-29
- 3.2 數(shù)據(jù)塊副本存在的問題29
- 3.3 對(duì)數(shù)據(jù)副本進(jìn)行優(yōu)化29-40
- 3.3.1 基于概率模型選擇副本存儲(chǔ)個(gè)數(shù)31-33
- 3.3.2 創(chuàng)建副本模型33-35
- 3.3.3 副本放置策略35-40
- 3.4 本章小結(jié)40-41
- 第4章 對(duì)海量數(shù)據(jù)存儲(chǔ)方法的研究41-53
- 4.1 基于HBase對(duì)大數(shù)據(jù)存儲(chǔ)方法的研究41-44
- 4.1.1 HBase的體系結(jié)構(gòu)42-43
- 4.1.2 HRegionServer的管理過程43-44
- 4.2 對(duì)大數(shù)據(jù)存儲(chǔ)的主要解決方案44-48
- 4.2.1 HDFS對(duì)小文件存儲(chǔ)方案的改進(jìn)46-47
- 4.2.2 對(duì)改進(jìn)的小文件存儲(chǔ)方案的實(shí)現(xiàn)47-48
- 4.3 HBase結(jié)合HDFS對(duì)大數(shù)據(jù)存儲(chǔ)的實(shí)現(xiàn)48-52
- 4.3.1 大數(shù)據(jù)存儲(chǔ)前進(jìn)行壓縮48-50
- 4.3.2 HBASE庫表50-52
- 4.4 本章小結(jié)52-53
- 第5章 實(shí)驗(yàn)結(jié)果及數(shù)據(jù)分析53-61
- 5.1 試驗(yàn)環(huán)境53
- 5.2 集群的搭建及配置53-57
- 5.2.1 Hadoop配置54-55
- 5.2.2 SSH配置55-56
- 5.2.3 HBase的配置56-57
- 5.3 實(shí)驗(yàn)結(jié)果分析57-60
- 5.3.1 副本優(yōu)化方案分析57-59
- 5.3.2 HBase與HDFS結(jié)合存儲(chǔ)方案分析59-60
- 5.4 本章總結(jié)60-61
- 第6章 總結(jié)與展望61-63
- 6.1 論文總結(jié)61-62
- 6.2 未來工作展望62-63
- 致謝63-64
- 參考文獻(xiàn)64-67
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前4條
1 郭東;杜勇;胡亮;;基于HDFS的云數(shù)據(jù)備份系統(tǒng)[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2012年01期
2 王珊;王會(huì)舉;覃雄派;周p,
本文編號(hào):320673
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/320673.html
最近更新
教材專著