基于Hadoop的大數(shù)據(jù)存儲(chǔ)關(guān)鍵技術(shù)研究
本文關(guān)鍵詞:基于Hadoop的大數(shù)據(jù)存儲(chǔ)關(guān)鍵技術(shù)研究
更多相關(guān)文章: Hadoop 大數(shù)據(jù) 存儲(chǔ)技術(shù) 存儲(chǔ)架構(gòu)
【摘要】:隨著大數(shù)據(jù)時(shí)代的到來(lái),傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)已經(jīng)不能滿(mǎn)足日益增長(zhǎng)的數(shù)據(jù)存儲(chǔ)需求,Hadoop平臺(tái)的出現(xiàn)很好的解決了這一問(wèn)題。Hadoop能夠部署在廉價(jià)的集群上,憑借其開(kāi)源、擴(kuò)展性強(qiáng)、容錯(cuò)性好等優(yōu)勢(shì),已成為目前大數(shù)據(jù)存儲(chǔ)的主流平臺(tái),國(guó)內(nèi)外的許多知名企業(yè)都在Hadoop之上搭建自己的大數(shù)據(jù)處理系統(tǒng)。大數(shù)據(jù)存儲(chǔ)是進(jìn)行大數(shù)據(jù)分析、挖掘價(jià)值信息前非常重要的一步,因此目前學(xué)術(shù)界正紛紛開(kāi)展大數(shù)據(jù)存儲(chǔ)方面的研究。本文首先對(duì)選題的背景及意義進(jìn)行了介紹,研究了目前國(guó)內(nèi)外大數(shù)據(jù)及Hadoop的發(fā)展現(xiàn)狀,指出了大數(shù)據(jù)技術(shù)方面存在的一些問(wèn)題;其次,對(duì)Hadoop的原理與運(yùn)行機(jī)制進(jìn)行了研究,介紹了Hadoop核心組件HDFS(Hadoop Distributed File System)和Map Reduce的相關(guān)知識(shí);然后采用分層的形式梳理了基于Hadoop的大數(shù)據(jù)處理架構(gòu),重點(diǎn)研究了數(shù)據(jù)存儲(chǔ)層的相關(guān)技術(shù),如大數(shù)據(jù)預(yù)處理技術(shù)和大數(shù)據(jù)容錯(cuò)技術(shù)等;之后,設(shè)計(jì)了一個(gè)基于Hadoop的兩級(jí)重復(fù)數(shù)據(jù)刪除存儲(chǔ)架構(gòu)HTDDSA,該架構(gòu)在對(duì)重復(fù)數(shù)據(jù)進(jìn)行文件級(jí)與數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除操作的同時(shí)還對(duì)HDFS小文件存儲(chǔ)性能進(jìn)行了改進(jìn)。對(duì)于HTDDSA,重點(diǎn)研究了它的組成、元數(shù)據(jù)定義、兩級(jí)重復(fù)數(shù)據(jù)刪除策略、小文件合并策略和文件讀取流程;最后,搭建了Hadoop平臺(tái),對(duì)HTDDSA性能進(jìn)行了測(cè)試,實(shí)驗(yàn)結(jié)果表明HTDDSA能夠獲得較高的重刪率,小文件寫(xiě)入、讀取時(shí)間與HDFS相比下降許多。
【關(guān)鍵詞】:Hadoop 大數(shù)據(jù) 存儲(chǔ)技術(shù) 存儲(chǔ)架構(gòu)
【學(xué)位授予單位】:華北電力大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP311.13;TP333
【目錄】:
- 摘要5-6
- Abstract6-9
- 第1章 緒論9-15
- 1.1 選題背景及意義9-10
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀10-14
- 1.2.1 大數(shù)據(jù)研究現(xiàn)狀10-12
- 1.2.2 Hadoop平臺(tái)研究現(xiàn)狀12-13
- 1.2.3 大數(shù)據(jù)技術(shù)存在的問(wèn)題13-14
- 1.3 本文的主要研究?jī)?nèi)容14
- 1.4 本文的主要結(jié)構(gòu)14-15
- 第2章 Hadoop平臺(tái)關(guān)鍵技術(shù)15-23
- 2.1 Hadoop原理與運(yùn)行機(jī)制15-16
- 2.2 Hadoop關(guān)鍵技術(shù)16-22
- 2.2.1 HDFS架構(gòu)與流程16-20
- 2.2.2 Map Reduce計(jì)算模式20-22
- 2.3 本章小結(jié)22-23
- 第3章 Hadoop大數(shù)據(jù)存儲(chǔ)關(guān)鍵技術(shù)23-32
- 3.1 大數(shù)據(jù)存儲(chǔ)方案23-24
- 3.2 Hadoop大數(shù)據(jù)存儲(chǔ)架構(gòu)24-26
- 3.3 大數(shù)據(jù)預(yù)處理技術(shù)26-28
- 3.3.1 數(shù)據(jù)清理26-27
- 3.3.2 數(shù)據(jù)集成27
- 3.3.3 數(shù)據(jù)變換27
- 3.3.4 數(shù)據(jù)歸約27-28
- 3.4 大數(shù)據(jù)存儲(chǔ)容錯(cuò)技術(shù)28-31
- 3.4.1 基于復(fù)制的數(shù)據(jù)容錯(cuò)28-30
- 3.4.2 基于糾刪碼的數(shù)據(jù)容錯(cuò)30-31
- 3.5 本章小結(jié)31-32
- 第4章 Hadoop兩級(jí)重復(fù)數(shù)據(jù)刪除存儲(chǔ)架構(gòu)設(shè)計(jì)32-43
- 4.1 重復(fù)數(shù)據(jù)刪除技術(shù)32-34
- 4.1.1 原理32-33
- 4.1.2 文件級(jí)和數(shù)據(jù)塊級(jí)重復(fù)數(shù)據(jù)刪除技術(shù)33-34
- 4.1.3 全局重復(fù)數(shù)據(jù)刪除技術(shù)34
- 4.2 HDFS小文件存儲(chǔ)34-35
- 4.3 Hadoop兩級(jí)重復(fù)數(shù)據(jù)刪除存儲(chǔ)架構(gòu)35-42
- 4.3.1 HTDDSA元數(shù)據(jù)信息定義36-38
- 4.3.2 HTDDSA兩級(jí)重復(fù)數(shù)據(jù)刪除策略38-40
- 4.3.3 HTDDSA小文件合并策略40
- 4.3.4 HTDDSA文件寫(xiě)入與讀取流程40-42
- 4.4 本章小結(jié)42-43
- 第5章 Hadoop兩級(jí)重復(fù)數(shù)據(jù)刪除存儲(chǔ)架構(gòu)性能測(cè)試43-51
- 5.1 搭建Hadoop集群43-48
- 5.1.1 配置主機(jī)名與IP地址映射43-44
- 5.1.2 配置SSH44
- 5.1.3 安裝JDK44-45
- 5.1.4 安裝Hadoop45-48
- 5.2 HTDDSA性能測(cè)試和分析48-50
- 5.2.1 參數(shù)設(shè)置48
- 5.2.2 HTDDSA兩級(jí)重復(fù)數(shù)據(jù)刪除效率48-49
- 5.2.3 HTDDSA小文件合并效率49-50
- 5.3 本章小結(jié)50-51
- 第6章 總結(jié)與展望51-53
- 參考文獻(xiàn)53-56
- 攻讀碩士學(xué)位期間發(fā)表的論文及其它成果56-57
- 致謝57
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 鄭志蘊(yùn);孟慧平;李鈍;王振飛;;基于糾刪碼的動(dòng)態(tài)副本冗余存儲(chǔ)研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2014年09期
2 李學(xué)學(xué);彭珍瑞;;橋梁健康監(jiān)測(cè)海量數(shù)據(jù)預(yù)處理及存儲(chǔ)策略研究[J];電子科技;2014年07期
3 劉晉媛;;論行政公文數(shù)據(jù)庫(kù)建設(shè)[J];安順學(xué)院學(xué)報(bào);2014年03期
4 李平榮;;大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J];重慶三峽學(xué)院學(xué)報(bào);2014年03期
5 羅錦坤;;數(shù)據(jù)預(yù)處理關(guān)鍵技術(shù)應(yīng)用研究[J];福建電腦;2014年03期
6 胡立強(qiáng);崔萌;;運(yùn)營(yíng)商發(fā)展大數(shù)據(jù)的機(jī)遇和挑戰(zhàn)[J];互聯(lián)網(wǎng)天地;2014年01期
7 馮登國(guó);張敏;李昊;;大數(shù)據(jù)安全與隱私保護(hù)[J];計(jì)算機(jī)學(xué)報(bào);2014年01期
8 柳平;李春青;姬嬋娟;;基于HDFS的云存儲(chǔ)架構(gòu)模型分析[J];電腦知識(shí)與技術(shù);2013年36期
9 汪云;;融合時(shí)代的大數(shù)據(jù)發(fā)展[J];電視技術(shù);2013年22期
10 曹剛;;大數(shù)據(jù)存儲(chǔ)管理系統(tǒng)面臨挑戰(zhàn)的探討[J];軟件產(chǎn)業(yè)與工程;2013年06期
,本文編號(hào):859201
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/859201.html