基于Hadoop的重復(fù)數(shù)據(jù)刪除技術(shù)研究
發(fā)布時間:2017-03-20 05:07
本文關(guān)鍵詞:基于Hadoop的重復(fù)數(shù)據(jù)刪除技術(shù)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的迅速發(fā)展,數(shù)據(jù)的產(chǎn)生和復(fù)制量以一種驚人的速度增長著。這些日益增長的海量數(shù)據(jù)需要更多的存儲容量、處理能力和網(wǎng)絡(luò)帶寬。越來越多的數(shù)據(jù)被存儲在云服務(wù)器上。然而,這些數(shù)據(jù)在進(jìn)行存儲時,往往存在大量的冗余數(shù)據(jù),不僅占用了大量的存儲空間,而且降低了存儲效率。針對這些問題,重復(fù)數(shù)據(jù)刪除技術(shù)給出了很好的解決方案。它可以對存儲進(jìn)行優(yōu)化,減少對物理存儲空間的浪費,以滿足日益增長的存儲空間需求。 然而,重復(fù)數(shù)據(jù)刪除技術(shù)會產(chǎn)生額外的開銷和冗余,使存儲和讀取數(shù)據(jù)的性能降低。并且隨著數(shù)據(jù)量的增大,指紋的檢索速度會減緩,以致文件的存儲變慢。針對以上問題,本文對基于塊粒度的重復(fù)數(shù)據(jù)刪除技術(shù)進(jìn)行了改進(jìn)和優(yōu)化,在空間上和時間上都提高了存儲的效率,并將其應(yīng)用于Hadoop分布式系統(tǒng)中。 首先,本文詳細(xì)研究了重復(fù)數(shù)據(jù)刪除技術(shù)及其在分布式系統(tǒng)的應(yīng)用,分析了發(fā)展現(xiàn)狀及特點。在此基礎(chǔ)上,針對基于內(nèi)容的分塊方法的進(jìn)行了改進(jìn),提出了一種新的增量的指紋算法DRabin和改進(jìn)的TTTD算法——TDOB,分別提高了文件的分塊速度和去重率。然后,將算法改進(jìn)應(yīng)用于Hadoop分布式系統(tǒng)中,設(shè)計并搭建了基于Hadoop的去重系統(tǒng),并對系統(tǒng)進(jìn)行了性能優(yōu)化。最后,使用所搭建的系統(tǒng)對算法進(jìn)行數(shù)值實驗,通過實驗結(jié)果的對比分析,驗證了改進(jìn)的性能。
【關(guān)鍵詞】:重復(fù)數(shù)據(jù)刪除 HDFS 哈希算法 云存儲
【學(xué)位授予單位】:華東理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP333;TP311.13
【目錄】:
- 摘要5-6
- Abstract6-9
- 第1章 緒論9-12
- 1.1 課題背景及意義9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-11
- 1.3 本文主要工作11
- 1.4 本文組織結(jié)構(gòu)11-12
- 第2章 重復(fù)數(shù)據(jù)刪除技術(shù)概述12-19
- 2.1 重復(fù)數(shù)據(jù)刪除技術(shù)12
- 2.2 文件級別的重復(fù)數(shù)據(jù)刪除12-13
- 2.3 數(shù)據(jù)塊級別的重復(fù)數(shù)據(jù)刪除13-15
- 2.3.1 固定長度的分塊13
- 2.3.2 基于內(nèi)容的分塊13-15
- 2.3.3 基于滑塊的分塊15
- 2.4 重復(fù)數(shù)據(jù)刪除技術(shù)在分布式系統(tǒng)中的應(yīng)用15-17
- 2.4.1 HYDRAstor16
- 2.4.2 DEBAR16-17
- 2.5 研究點和發(fā)展方向17-18
- 2.5.1 去重率和吞吐量的權(quán)衡18
- 2.5.2 去重技術(shù)的安全性18
- 2.5.3 去重技術(shù)與云計算的結(jié)合18
- 2.6 本章小結(jié)18-19
- 第3章 基于內(nèi)容的分塊方法研究19-29
- 3.1 DRabin算法19-21
- 3.2 基于TTTD的改進(jìn)算法TDOB21-25
- 3.2.1 TTTD算法22
- 3.2.2 TDOB算法22-25
- 3.3 CubeHash算法25-28
- 3.3.1 CubeHash算法流程26-27
- 3.3.2 迭代函數(shù)f_C27
- 3.3.3 CubeHash算法性能分析27-28
- 3.4 本章小結(jié)28-29
- 第4章 重復(fù)數(shù)據(jù)刪除技術(shù)在Hadoop平臺中的應(yīng)用研究29-44
- 4.1 Hadoop關(guān)鍵技術(shù)研究29-34
- 4.1.1 Hadoop技術(shù)背景29-30
- 4.1.2 分布式文件系統(tǒng)HDFS30-33
- 4.1.3 MapReduce編程模型33-34
- 4.1.4 Hadoop數(shù)據(jù)庫HBase34
- 4.2 重復(fù)數(shù)據(jù)刪除技術(shù)在Hadoop平臺中的應(yīng)用研究34-43
- 4.2.1 系統(tǒng)架構(gòu)34-38
- 4.2.2 文件的存取操作38-40
- 4.2.3 存取性能優(yōu)化40-43
- 4.3 本章小結(jié)43-44
- 第5章 數(shù)值實驗44-53
- 5.1 實驗環(huán)境44-48
- 5.1.1 硬件描述44
- 5.1.2 軟件描述44
- 5.1.3 Hadoop平臺搭建44-48
- 5.2 實驗過程及結(jié)果分析48-52
- 5.2.1 數(shù)據(jù)集48-49
- 5.2.2 DRabin算法的正確性和高效性分析49-50
- 5.2.3 TDOB算法的性能分析50-52
- 5.3 本章小結(jié)52-53
- 第6章 總結(jié)與展望53-55
- 6.1 全文總結(jié)53
- 6.2 未來展望53-55
- 參考文獻(xiàn)55-59
- 致謝59
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前2條
1 曹寧;吳中海;劉宏志;張齊勛;;HDFS下載效率的優(yōu)化[J];計算機應(yīng)用;2010年08期
2 薛宇;吳文玲;王張宜;;SHA-3雜湊密碼候選算法簡評[J];中國科學(xué)院研究生院學(xué)報;2009年05期
本文關(guān)鍵詞:基于Hadoop的重復(fù)數(shù)據(jù)刪除技術(shù)研究,由筆耕文化傳播整理發(fā)布。
,本文編號:257205
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/257205.html
最近更新
教材專著