天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機論文 >

基于Hadoop的重復(fù)數(shù)據(jù)刪除技術(shù)研究

發(fā)布時間:2017-03-20 05:07

  本文關(guān)鍵詞:基于Hadoop的重復(fù)數(shù)據(jù)刪除技術(shù)研究,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)的迅速發(fā)展,數(shù)據(jù)的產(chǎn)生和復(fù)制量以一種驚人的速度增長著。這些日益增長的海量數(shù)據(jù)需要更多的存儲容量、處理能力和網(wǎng)絡(luò)帶寬。越來越多的數(shù)據(jù)被存儲在云服務(wù)器上。然而,這些數(shù)據(jù)在進(jìn)行存儲時,往往存在大量的冗余數(shù)據(jù),不僅占用了大量的存儲空間,而且降低了存儲效率。針對這些問題,重復(fù)數(shù)據(jù)刪除技術(shù)給出了很好的解決方案。它可以對存儲進(jìn)行優(yōu)化,減少對物理存儲空間的浪費,以滿足日益增長的存儲空間需求。 然而,重復(fù)數(shù)據(jù)刪除技術(shù)會產(chǎn)生額外的開銷和冗余,使存儲和讀取數(shù)據(jù)的性能降低。并且隨著數(shù)據(jù)量的增大,指紋的檢索速度會減緩,以致文件的存儲變慢。針對以上問題,本文對基于塊粒度的重復(fù)數(shù)據(jù)刪除技術(shù)進(jìn)行了改進(jìn)和優(yōu)化,在空間上和時間上都提高了存儲的效率,并將其應(yīng)用于Hadoop分布式系統(tǒng)中。 首先,本文詳細(xì)研究了重復(fù)數(shù)據(jù)刪除技術(shù)及其在分布式系統(tǒng)的應(yīng)用,分析了發(fā)展現(xiàn)狀及特點。在此基礎(chǔ)上,針對基于內(nèi)容的分塊方法的進(jìn)行了改進(jìn),提出了一種新的增量的指紋算法DRabin和改進(jìn)的TTTD算法——TDOB,分別提高了文件的分塊速度和去重率。然后,將算法改進(jìn)應(yīng)用于Hadoop分布式系統(tǒng)中,設(shè)計并搭建了基于Hadoop的去重系統(tǒng),并對系統(tǒng)進(jìn)行了性能優(yōu)化。最后,使用所搭建的系統(tǒng)對算法進(jìn)行數(shù)值實驗,通過實驗結(jié)果的對比分析,驗證了改進(jìn)的性能。
【關(guān)鍵詞】:重復(fù)數(shù)據(jù)刪除 HDFS 哈希算法 云存儲
【學(xué)位授予單位】:華東理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP333;TP311.13
【目錄】:
  • 摘要5-6
  • Abstract6-9
  • 第1章 緒論9-12
  • 1.1 課題背景及意義9-10
  • 1.2 國內(nèi)外研究現(xiàn)狀10-11
  • 1.3 本文主要工作11
  • 1.4 本文組織結(jié)構(gòu)11-12
  • 第2章 重復(fù)數(shù)據(jù)刪除技術(shù)概述12-19
  • 2.1 重復(fù)數(shù)據(jù)刪除技術(shù)12
  • 2.2 文件級別的重復(fù)數(shù)據(jù)刪除12-13
  • 2.3 數(shù)據(jù)塊級別的重復(fù)數(shù)據(jù)刪除13-15
  • 2.3.1 固定長度的分塊13
  • 2.3.2 基于內(nèi)容的分塊13-15
  • 2.3.3 基于滑塊的分塊15
  • 2.4 重復(fù)數(shù)據(jù)刪除技術(shù)在分布式系統(tǒng)中的應(yīng)用15-17
  • 2.4.1 HYDRAstor16
  • 2.4.2 DEBAR16-17
  • 2.5 研究點和發(fā)展方向17-18
  • 2.5.1 去重率和吞吐量的權(quán)衡18
  • 2.5.2 去重技術(shù)的安全性18
  • 2.5.3 去重技術(shù)與云計算的結(jié)合18
  • 2.6 本章小結(jié)18-19
  • 第3章 基于內(nèi)容的分塊方法研究19-29
  • 3.1 DRabin算法19-21
  • 3.2 基于TTTD的改進(jìn)算法TDOB21-25
  • 3.2.1 TTTD算法22
  • 3.2.2 TDOB算法22-25
  • 3.3 CubeHash算法25-28
  • 3.3.1 CubeHash算法流程26-27
  • 3.3.2 迭代函數(shù)f_C27
  • 3.3.3 CubeHash算法性能分析27-28
  • 3.4 本章小結(jié)28-29
  • 第4章 重復(fù)數(shù)據(jù)刪除技術(shù)在Hadoop平臺中的應(yīng)用研究29-44
  • 4.1 Hadoop關(guān)鍵技術(shù)研究29-34
  • 4.1.1 Hadoop技術(shù)背景29-30
  • 4.1.2 分布式文件系統(tǒng)HDFS30-33
  • 4.1.3 MapReduce編程模型33-34
  • 4.1.4 Hadoop數(shù)據(jù)庫HBase34
  • 4.2 重復(fù)數(shù)據(jù)刪除技術(shù)在Hadoop平臺中的應(yīng)用研究34-43
  • 4.2.1 系統(tǒng)架構(gòu)34-38
  • 4.2.2 文件的存取操作38-40
  • 4.2.3 存取性能優(yōu)化40-43
  • 4.3 本章小結(jié)43-44
  • 第5章 數(shù)值實驗44-53
  • 5.1 實驗環(huán)境44-48
  • 5.1.1 硬件描述44
  • 5.1.2 軟件描述44
  • 5.1.3 Hadoop平臺搭建44-48
  • 5.2 實驗過程及結(jié)果分析48-52
  • 5.2.1 數(shù)據(jù)集48-49
  • 5.2.2 DRabin算法的正確性和高效性分析49-50
  • 5.2.3 TDOB算法的性能分析50-52
  • 5.3 本章小結(jié)52-53
  • 第6章 總結(jié)與展望53-55
  • 6.1 全文總結(jié)53
  • 6.2 未來展望53-55
  • 參考文獻(xiàn)55-59
  • 致謝59

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前2條

1 曹寧;吳中海;劉宏志;張齊勛;;HDFS下載效率的優(yōu)化[J];計算機應(yīng)用;2010年08期

2 薛宇;吳文玲;王張宜;;SHA-3雜湊密碼候選算法簡評[J];中國科學(xué)院研究生院學(xué)報;2009年05期


  本文關(guān)鍵詞:基于Hadoop的重復(fù)數(shù)據(jù)刪除技術(shù)研究,由筆耕文化傳播整理發(fā)布。

,

本文編號:257205

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/257205.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶61e0b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
日本人妻精品有码字幕| 国产欧美日产久久婷婷| 日本成人三级在线播放| 五月婷日韩中文字幕四虎| 日韩高清一区二区三区四区| 亚洲欧美日本视频一区二区| 欧美不雅视频午夜福利| 国产目拍亚洲精品区一区| 激情综合网俺也狠狠地| 我想看亚洲一级黄色录像| 久久久精品区二区三区| 亚洲欧美视频欧美视频| 亚洲乱码av中文一区二区三区| 国产老熟女乱子人伦视频| 男人和女人黄 色大片| 亚洲色图欧美另类人妻| 大香蕉精品视频一区二区| 免费在线播放一区二区| 亚洲国产精品久久综合网| 欧美一区二区在线日韩| 亚洲av日韩av高潮无打码| 一区二区三区日韩在线| 国产99久久精品果冻传媒| 亚洲乱码av中文一区二区三区| 久久精品福利在线观看| 四季av一区二区播放| 一本色道久久综合狠狠躁| 99久久精品免费精品国产| 欧美成人精品国产成人综合| 欧美日韩综合在线第一页| 99国产精品国产精品九九| 亚洲永久一区二区三区在线| 国产永久免费高清在线精品| 亚洲欧美精品伊人久久| 国产又色又爽又黄又免费| 97人妻精品一区二区三区男同| 91精品国产综合久久不卡| 欧美日韩国产另类一区二区| 日韩少妇人妻中文字幕| 久久一区内射污污内射亚洲| 亚洲欧美国产网爆精品|