天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的重復(fù)數(shù)據(jù)刪除技術(shù)研究

發(fā)布時(shí)間:2017-03-20 05:07

  本文關(guān)鍵詞:基于Hadoop的重復(fù)數(shù)據(jù)刪除技術(shù)研究,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)的迅速發(fā)展,數(shù)據(jù)的產(chǎn)生和復(fù)制量以一種驚人的速度增長(zhǎng)著。這些日益增長(zhǎng)的海量數(shù)據(jù)需要更多的存儲(chǔ)容量、處理能力和網(wǎng)絡(luò)帶寬。越來(lái)越多的數(shù)據(jù)被存儲(chǔ)在云服務(wù)器上。然而,這些數(shù)據(jù)在進(jìn)行存儲(chǔ)時(shí),往往存在大量的冗余數(shù)據(jù),不僅占用了大量的存儲(chǔ)空間,而且降低了存儲(chǔ)效率。針對(duì)這些問(wèn)題,重復(fù)數(shù)據(jù)刪除技術(shù)給出了很好的解決方案。它可以對(duì)存儲(chǔ)進(jìn)行優(yōu)化,減少對(duì)物理存儲(chǔ)空間的浪費(fèi),以滿足日益增長(zhǎng)的存儲(chǔ)空間需求。 然而,重復(fù)數(shù)據(jù)刪除技術(shù)會(huì)產(chǎn)生額外的開(kāi)銷和冗余,使存儲(chǔ)和讀取數(shù)據(jù)的性能降低。并且隨著數(shù)據(jù)量的增大,指紋的檢索速度會(huì)減緩,以致文件的存儲(chǔ)變慢。針對(duì)以上問(wèn)題,本文對(duì)基于塊粒度的重復(fù)數(shù)據(jù)刪除技術(shù)進(jìn)行了改進(jìn)和優(yōu)化,在空間上和時(shí)間上都提高了存儲(chǔ)的效率,并將其應(yīng)用于Hadoop分布式系統(tǒng)中。 首先,本文詳細(xì)研究了重復(fù)數(shù)據(jù)刪除技術(shù)及其在分布式系統(tǒng)的應(yīng)用,分析了發(fā)展現(xiàn)狀及特點(diǎn)。在此基礎(chǔ)上,針對(duì)基于內(nèi)容的分塊方法的進(jìn)行了改進(jìn),提出了一種新的增量的指紋算法DRabin和改進(jìn)的TTTD算法——TDOB,分別提高了文件的分塊速度和去重率。然后,將算法改進(jìn)應(yīng)用于Hadoop分布式系統(tǒng)中,設(shè)計(jì)并搭建了基于Hadoop的去重系統(tǒng),并對(duì)系統(tǒng)進(jìn)行了性能優(yōu)化。最后,使用所搭建的系統(tǒng)對(duì)算法進(jìn)行數(shù)值實(shí)驗(yàn),通過(guò)實(shí)驗(yàn)結(jié)果的對(duì)比分析,驗(yàn)證了改進(jìn)的性能。
【關(guān)鍵詞】:重復(fù)數(shù)據(jù)刪除 HDFS 哈希算法 云存儲(chǔ)
【學(xué)位授予單位】:華東理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP333;TP311.13
【目錄】:
  • 摘要5-6
  • Abstract6-9
  • 第1章 緒論9-12
  • 1.1 課題背景及意義9-10
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀10-11
  • 1.3 本文主要工作11
  • 1.4 本文組織結(jié)構(gòu)11-12
  • 第2章 重復(fù)數(shù)據(jù)刪除技術(shù)概述12-19
  • 2.1 重復(fù)數(shù)據(jù)刪除技術(shù)12
  • 2.2 文件級(jí)別的重復(fù)數(shù)據(jù)刪除12-13
  • 2.3 數(shù)據(jù)塊級(jí)別的重復(fù)數(shù)據(jù)刪除13-15
  • 2.3.1 固定長(zhǎng)度的分塊13
  • 2.3.2 基于內(nèi)容的分塊13-15
  • 2.3.3 基于滑塊的分塊15
  • 2.4 重復(fù)數(shù)據(jù)刪除技術(shù)在分布式系統(tǒng)中的應(yīng)用15-17
  • 2.4.1 HYDRAstor16
  • 2.4.2 DEBAR16-17
  • 2.5 研究點(diǎn)和發(fā)展方向17-18
  • 2.5.1 去重率和吞吐量的權(quán)衡18
  • 2.5.2 去重技術(shù)的安全性18
  • 2.5.3 去重技術(shù)與云計(jì)算的結(jié)合18
  • 2.6 本章小結(jié)18-19
  • 第3章 基于內(nèi)容的分塊方法研究19-29
  • 3.1 DRabin算法19-21
  • 3.2 基于TTTD的改進(jìn)算法TDOB21-25
  • 3.2.1 TTTD算法22
  • 3.2.2 TDOB算法22-25
  • 3.3 CubeHash算法25-28
  • 3.3.1 CubeHash算法流程26-27
  • 3.3.2 迭代函數(shù)f_C27
  • 3.3.3 CubeHash算法性能分析27-28
  • 3.4 本章小結(jié)28-29
  • 第4章 重復(fù)數(shù)據(jù)刪除技術(shù)在Hadoop平臺(tái)中的應(yīng)用研究29-44
  • 4.1 Hadoop關(guān)鍵技術(shù)研究29-34
  • 4.1.1 Hadoop技術(shù)背景29-30
  • 4.1.2 分布式文件系統(tǒng)HDFS30-33
  • 4.1.3 MapReduce編程模型33-34
  • 4.1.4 Hadoop數(shù)據(jù)庫(kù)HBase34
  • 4.2 重復(fù)數(shù)據(jù)刪除技術(shù)在Hadoop平臺(tái)中的應(yīng)用研究34-43
  • 4.2.1 系統(tǒng)架構(gòu)34-38
  • 4.2.2 文件的存取操作38-40
  • 4.2.3 存取性能優(yōu)化40-43
  • 4.3 本章小結(jié)43-44
  • 第5章 數(shù)值實(shí)驗(yàn)44-53
  • 5.1 實(shí)驗(yàn)環(huán)境44-48
  • 5.1.1 硬件描述44
  • 5.1.2 軟件描述44
  • 5.1.3 Hadoop平臺(tái)搭建44-48
  • 5.2 實(shí)驗(yàn)過(guò)程及結(jié)果分析48-52
  • 5.2.1 數(shù)據(jù)集48-49
  • 5.2.2 DRabin算法的正確性和高效性分析49-50
  • 5.2.3 TDOB算法的性能分析50-52
  • 5.3 本章小結(jié)52-53
  • 第6章 總結(jié)與展望53-55
  • 6.1 全文總結(jié)53
  • 6.2 未來(lái)展望53-55
  • 參考文獻(xiàn)55-59
  • 致謝59

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條

1 曹寧;吳中海;劉宏志;張齊勛;;HDFS下載效率的優(yōu)化[J];計(jì)算機(jī)應(yīng)用;2010年08期

2 薛宇;吳文玲;王張宜;;SHA-3雜湊密碼候選算法簡(jiǎn)評(píng)[J];中國(guó)科學(xué)院研究生院學(xué)報(bào);2009年05期


  本文關(guān)鍵詞:基于Hadoop的重復(fù)數(shù)據(jù)刪除技術(shù)研究,由筆耕文化傳播整理發(fā)布。

,

本文編號(hào):257205

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/257205.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶61e0b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com