基于Hadoop的大數(shù)據(jù)存儲關(guān)鍵技術(shù)研究
本文關(guān)鍵詞:基于Hadoop的大數(shù)據(jù)存儲關(guān)鍵技術(shù)研究
更多相關(guān)文章: Hadoop 大數(shù)據(jù) 存儲技術(shù) 存儲架構(gòu)
【摘要】:隨著大數(shù)據(jù)時代的到來,傳統(tǒng)的數(shù)據(jù)倉庫已經(jīng)不能滿足日益增長的數(shù)據(jù)存儲需求,Hadoop平臺的出現(xiàn)很好的解決了這一問題。Hadoop能夠部署在廉價的集群上,憑借其開源、擴(kuò)展性強(qiáng)、容錯性好等優(yōu)勢,已成為目前大數(shù)據(jù)存儲的主流平臺,國內(nèi)外的許多知名企業(yè)都在Hadoop之上搭建自己的大數(shù)據(jù)處理系統(tǒng)。大數(shù)據(jù)存儲是進(jìn)行大數(shù)據(jù)分析、挖掘價值信息前非常重要的一步,因此目前學(xué)術(shù)界正紛紛開展大數(shù)據(jù)存儲方面的研究。本文首先對選題的背景及意義進(jìn)行了介紹,研究了目前國內(nèi)外大數(shù)據(jù)及Hadoop的發(fā)展現(xiàn)狀,指出了大數(shù)據(jù)技術(shù)方面存在的一些問題;其次,對Hadoop的原理與運行機(jī)制進(jìn)行了研究,介紹了Hadoop核心組件HDFS(Hadoop Distributed File System)和Map Reduce的相關(guān)知識;然后采用分層的形式梳理了基于Hadoop的大數(shù)據(jù)處理架構(gòu),重點研究了數(shù)據(jù)存儲層的相關(guān)技術(shù),如大數(shù)據(jù)預(yù)處理技術(shù)和大數(shù)據(jù)容錯技術(shù)等;之后,設(shè)計了一個基于Hadoop的兩級重復(fù)數(shù)據(jù)刪除存儲架構(gòu)HTDDSA,該架構(gòu)在對重復(fù)數(shù)據(jù)進(jìn)行文件級與數(shù)據(jù)塊級重復(fù)數(shù)據(jù)刪除操作的同時還對HDFS小文件存儲性能進(jìn)行了改進(jìn)。對于HTDDSA,重點研究了它的組成、元數(shù)據(jù)定義、兩級重復(fù)數(shù)據(jù)刪除策略、小文件合并策略和文件讀取流程;最后,搭建了Hadoop平臺,對HTDDSA性能進(jìn)行了測試,實驗結(jié)果表明HTDDSA能夠獲得較高的重刪率,小文件寫入、讀取時間與HDFS相比下降許多。
【關(guān)鍵詞】:Hadoop 大數(shù)據(jù) 存儲技術(shù) 存儲架構(gòu)
【學(xué)位授予單位】:華北電力大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13;TP333
【目錄】:
- 摘要5-6
- Abstract6-9
- 第1章 緒論9-15
- 1.1 選題背景及意義9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-14
- 1.2.1 大數(shù)據(jù)研究現(xiàn)狀10-12
- 1.2.2 Hadoop平臺研究現(xiàn)狀12-13
- 1.2.3 大數(shù)據(jù)技術(shù)存在的問題13-14
- 1.3 本文的主要研究內(nèi)容14
- 1.4 本文的主要結(jié)構(gòu)14-15
- 第2章 Hadoop平臺關(guān)鍵技術(shù)15-23
- 2.1 Hadoop原理與運行機(jī)制15-16
- 2.2 Hadoop關(guān)鍵技術(shù)16-22
- 2.2.1 HDFS架構(gòu)與流程16-20
- 2.2.2 Map Reduce計算模式20-22
- 2.3 本章小結(jié)22-23
- 第3章 Hadoop大數(shù)據(jù)存儲關(guān)鍵技術(shù)23-32
- 3.1 大數(shù)據(jù)存儲方案23-24
- 3.2 Hadoop大數(shù)據(jù)存儲架構(gòu)24-26
- 3.3 大數(shù)據(jù)預(yù)處理技術(shù)26-28
- 3.3.1 數(shù)據(jù)清理26-27
- 3.3.2 數(shù)據(jù)集成27
- 3.3.3 數(shù)據(jù)變換27
- 3.3.4 數(shù)據(jù)歸約27-28
- 3.4 大數(shù)據(jù)存儲容錯技術(shù)28-31
- 3.4.1 基于復(fù)制的數(shù)據(jù)容錯28-30
- 3.4.2 基于糾刪碼的數(shù)據(jù)容錯30-31
- 3.5 本章小結(jié)31-32
- 第4章 Hadoop兩級重復(fù)數(shù)據(jù)刪除存儲架構(gòu)設(shè)計32-43
- 4.1 重復(fù)數(shù)據(jù)刪除技術(shù)32-34
- 4.1.1 原理32-33
- 4.1.2 文件級和數(shù)據(jù)塊級重復(fù)數(shù)據(jù)刪除技術(shù)33-34
- 4.1.3 全局重復(fù)數(shù)據(jù)刪除技術(shù)34
- 4.2 HDFS小文件存儲34-35
- 4.3 Hadoop兩級重復(fù)數(shù)據(jù)刪除存儲架構(gòu)35-42
- 4.3.1 HTDDSA元數(shù)據(jù)信息定義36-38
- 4.3.2 HTDDSA兩級重復(fù)數(shù)據(jù)刪除策略38-40
- 4.3.3 HTDDSA小文件合并策略40
- 4.3.4 HTDDSA文件寫入與讀取流程40-42
- 4.4 本章小結(jié)42-43
- 第5章 Hadoop兩級重復(fù)數(shù)據(jù)刪除存儲架構(gòu)性能測試43-51
- 5.1 搭建Hadoop集群43-48
- 5.1.1 配置主機(jī)名與IP地址映射43-44
- 5.1.2 配置SSH44
- 5.1.3 安裝JDK44-45
- 5.1.4 安裝Hadoop45-48
- 5.2 HTDDSA性能測試和分析48-50
- 5.2.1 參數(shù)設(shè)置48
- 5.2.2 HTDDSA兩級重復(fù)數(shù)據(jù)刪除效率48-49
- 5.2.3 HTDDSA小文件合并效率49-50
- 5.3 本章小結(jié)50-51
- 第6章 總結(jié)與展望51-53
- 參考文獻(xiàn)53-56
- 攻讀碩士學(xué)位期間發(fā)表的論文及其它成果56-57
- 致謝57
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 鄭志蘊(yùn);孟慧平;李鈍;王振飛;;基于糾刪碼的動態(tài)副本冗余存儲研究[J];計算機(jī)工程與設(shè)計;2014年09期
2 李學(xué)學(xué);彭珍瑞;;橋梁健康監(jiān)測海量數(shù)據(jù)預(yù)處理及存儲策略研究[J];電子科技;2014年07期
3 劉晉媛;;論行政公文數(shù)據(jù)庫建設(shè)[J];安順學(xué)院學(xué)報;2014年03期
4 李平榮;;大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J];重慶三峽學(xué)院學(xué)報;2014年03期
5 羅錦坤;;數(shù)據(jù)預(yù)處理關(guān)鍵技術(shù)應(yīng)用研究[J];福建電腦;2014年03期
6 胡立強(qiáng);崔萌;;運營商發(fā)展大數(shù)據(jù)的機(jī)遇和挑戰(zhàn)[J];互聯(lián)網(wǎng)天地;2014年01期
7 馮登國;張敏;李昊;;大數(shù)據(jù)安全與隱私保護(hù)[J];計算機(jī)學(xué)報;2014年01期
8 柳平;李春青;姬嬋娟;;基于HDFS的云存儲架構(gòu)模型分析[J];電腦知識與技術(shù);2013年36期
9 汪云;;融合時代的大數(shù)據(jù)發(fā)展[J];電視技術(shù);2013年22期
10 曹剛;;大數(shù)據(jù)存儲管理系統(tǒng)面臨挑戰(zhàn)的探討[J];軟件產(chǎn)業(yè)與工程;2013年06期
,本文編號:859201
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/859201.html