當(dāng)前位置：主頁(yè) > 科技論文 > 計(jì)算機(jī)論文 >

基于Hadoop的重復(fù)數(shù)據(jù)刪除技術(shù)研究

發(fā)布時(shí)間：2017-03-20 05:07

本文關(guān)鍵詞：基于Hadoop的重復(fù)數(shù)據(jù)刪除技術(shù)研究，由筆耕文化傳播整理發(fā)布。

【摘要】：隨著互聯(lián)網(wǎng)的迅速發(fā)展,數(shù)據(jù)的產(chǎn)生和復(fù)制量以一種驚人的速度增長(zhǎng)著。這些日益增長(zhǎng)的海量數(shù)據(jù)需要更多的存儲(chǔ)容量、處理能力和網(wǎng)絡(luò)帶寬。越來(lái)越多的數(shù)據(jù)被存儲(chǔ)在云服務(wù)器上。然而,這些數(shù)據(jù)在進(jìn)行存儲(chǔ)時(shí),往往存在大量的冗余數(shù)據(jù),不僅占用了大量的存儲(chǔ)空間,而且降低了存儲(chǔ)效率。針對(duì)這些問(wèn)題,重復(fù)數(shù)據(jù)刪除技術(shù)給出了很好的解決方案。它可以對(duì)存儲(chǔ)進(jìn)行優(yōu)化,減少對(duì)物理存儲(chǔ)空間的浪費(fèi),以滿足日益增長(zhǎng)的存儲(chǔ)空間需求。然而,重復(fù)數(shù)據(jù)刪除技術(shù)會(huì)產(chǎn)生額外的開(kāi)銷和冗余,使存儲(chǔ)和讀取數(shù)據(jù)的性能降低。并且隨著數(shù)據(jù)量的增大,指紋的檢索速度會(huì)減緩,以致文件的存儲(chǔ)變慢。針對(duì)以上問(wèn)題,本文對(duì)基于塊粒度的重復(fù)數(shù)據(jù)刪除技術(shù)進(jìn)行了改進(jìn)和優(yōu)化,在空間上和時(shí)間上都提高了存儲(chǔ)的效率,并將其應(yīng)用于Hadoop分布式系統(tǒng)中。首先,本文詳細(xì)研究了重復(fù)數(shù)據(jù)刪除技術(shù)及其在分布式系統(tǒng)的應(yīng)用,分析了發(fā)展現(xiàn)狀及特點(diǎn)。在此基礎(chǔ)上,針對(duì)基于內(nèi)容的分塊方法的進(jìn)行了改進(jìn),提出了一種新的增量的指紋算法DRabin和改進(jìn)的TTTD算法——TDOB,分別提高了文件的分塊速度和去重率。然后,將算法改進(jìn)應(yīng)用于Hadoop分布式系統(tǒng)中,設(shè)計(jì)并搭建了基于Hadoop的去重系統(tǒng),并對(duì)系統(tǒng)進(jìn)行了性能優(yōu)化。最后,使用所搭建的系統(tǒng)對(duì)算法進(jìn)行數(shù)值實(shí)驗(yàn),通過(guò)實(shí)驗(yàn)結(jié)果的對(duì)比分析,驗(yàn)證了改進(jìn)的性能。
【關(guān)鍵詞】：重復(fù)數(shù)據(jù)刪除 HDFS 哈希算法 云存儲(chǔ)
【學(xué)位授予單位】：華東理工大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2015
【分類號(hào)】：TP333;TP311.13
【目錄】：

摘要5-6
Abstract6-9
第1章緒論9-12
1.1 課題背景及意義9-10
1.2 國(guó)內(nèi)外研究現(xiàn)狀10-11
1.3 本文主要工作11
1.4 本文組織結(jié)構(gòu)11-12
第2章重復(fù)數(shù)據(jù)刪除技術(shù)概述12-19
2.1 重復(fù)數(shù)據(jù)刪除技術(shù)12
2.2 文件級(jí)別的重復(fù)數(shù)據(jù)刪除12-13
2.3 數(shù)據(jù)塊級(jí)別的重復(fù)數(shù)據(jù)刪除13-15
2.3.1 固定長(zhǎng)度的分塊13
2.3.2 基于內(nèi)容的分塊13-15
2.3.3 基于滑塊的分塊15
2.4 重復(fù)數(shù)據(jù)刪除技術(shù)在分布式系統(tǒng)中的應(yīng)用15-17
2.4.1 HYDRAstor16
2.4.2 DEBAR16-17
2.5 研究點(diǎn)和發(fā)展方向17-18
2.5.1 去重率和吞吐量的權(quán)衡18
2.5.2 去重技術(shù)的安全性18
2.5.3 去重技術(shù)與云計(jì)算的結(jié)合18
2.6 本章小結(jié)18-19
第3章基于內(nèi)容的分塊方法研究19-29
3.1 DRabin算法19-21
3.2 基于TTTD的改進(jìn)算法TDOB21-25
3.2.1 TTTD算法22
3.2.2 TDOB算法22-25
3.3 CubeHash算法25-28
3.3.1 CubeHash算法流程26-27
3.3.2 迭代函數(shù)f_C27
3.3.3 CubeHash算法性能分析27-28
3.4 本章小結(jié)28-29
第4章重復(fù)數(shù)據(jù)刪除技術(shù)在Hadoop平臺(tái)中的應(yīng)用研究29-44
4.1 Hadoop關(guān)鍵技術(shù)研究29-34
4.1.1 Hadoop技術(shù)背景29-30
4.1.2 分布式文件系統(tǒng)HDFS30-33
4.1.3 MapReduce編程模型33-34
4.1.4 Hadoop數(shù)據(jù)庫(kù)HBase34
4.2 重復(fù)數(shù)據(jù)刪除技術(shù)在Hadoop平臺(tái)中的應(yīng)用研究34-43
4.2.1 系統(tǒng)架構(gòu)34-38
4.2.2 文件的存取操作38-40
4.2.3 存取性能優(yōu)化40-43
4.3 本章小結(jié)43-44
第5章數(shù)值實(shí)驗(yàn)44-53
5.1 實(shí)驗(yàn)環(huán)境44-48
5.1.1 硬件描述44
5.1.2 軟件描述44
5.1.3 Hadoop平臺(tái)搭建44-48
5.2 實(shí)驗(yàn)過(guò)程及結(jié)果分析48-52
5.2.1 數(shù)據(jù)集48-49
5.2.2 DRabin算法的正確性和高效性分析49-50
5.2.3 TDOB算法的性能分析50-52
5.3 本章小結(jié)52-53
第6章總結(jié)與展望53-55
6.1 全文總結(jié)53
6.2 未來(lái)展望53-55
參考文獻(xiàn)55-59
致謝59

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條

1 曹寧;吳中海;劉宏志;張齊勛;;HDFS下載效率的優(yōu)化[J];計(jì)算機(jī)應(yīng)用;2010年08期

2 薛宇;吳文玲;王張宜;;SHA-3雜湊密碼候選算法簡(jiǎn)評(píng)[J];中國(guó)科學(xué)院研究生院學(xué)報(bào);2009年05期

本文關(guān)鍵詞：基于Hadoop的重復(fù)數(shù)據(jù)刪除技術(shù)研究，由筆耕文化傳播整理發(fā)布。

，

本文編號(hào)：257205

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/257205.html

上一篇：穿戴式心電監(jiān)護(hù)設(shè)備的低功耗技術(shù)研究
下一篇：A公司營(yíng)銷策略創(chuàng)新研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的重復(fù)數(shù)據(jù)刪除技術(shù)研究