天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 計算機論文 >

基于HDFS的分布式文件系統(tǒng)存儲研究與優(yōu)化

發(fā)布時間:2017-06-14 05:11

  本文關鍵詞:基于HDFS的分布式文件系統(tǒng)存儲研究與優(yōu)化,由筆耕文化傳播整理發(fā)布。


【摘要】:傳統(tǒng)的存儲系統(tǒng)無法滿足呈爆炸性增長的海量數(shù)據(jù)存儲需求,分布式文件系統(tǒng)應運而生,如今已得到廣泛應用。傳統(tǒng)的分布式文件系統(tǒng)通常采用多副本技術(shù)來保證數(shù)據(jù)的可靠性。對于副本系數(shù)為3的系統(tǒng),一份數(shù)據(jù)被切分為幾個塊,每個塊的3個副本分別存儲在不同的數(shù)據(jù)節(jié)點。這種備份方法最大的缺點是需要極大的額外存儲開銷。隨著數(shù)據(jù)量的增長,所需的存儲空間增長速度將遠遠大于硬件設備的擴展速度,存儲開銷將成為數(shù)據(jù)中心的一個主要成本瓶頸。糾刪碼技術(shù)只需要較少的額外開銷就可以獲得很高的數(shù)據(jù)可靠性。而所有的糾刪碼中,里德所羅門碼(Reed-Solomon Codes,RS碼)最為常用。糾刪碼技術(shù)應用于分布式文件系統(tǒng)能顯著降低存儲開銷、提高數(shù)據(jù)可靠性,但在修復丟失的數(shù)據(jù)時,需要付出極大的代價。就修復單個塊而言,部署了里德所羅門碼系統(tǒng)的帶寬和I/O開銷甚至達到了三副本系統(tǒng)的12倍。為此,本文提出了一個改進的RS碼方案。在RS碼的基礎上,通過添加額外的校驗塊,改善RS碼的局部性。對于RS(12,4)碼,12個數(shù)據(jù)塊生成4個校驗塊(全局校驗塊),我們僅需在這個基礎上將12個數(shù)據(jù)塊分成3組,每組4個塊,每4個塊生成一個額外校驗塊(局部校驗塊),就能使原RS碼的局部性由12降為4。這意味著原來修復單個塊需要讀取和傳輸12個塊,現(xiàn)在僅需4個塊,極大的降低了修復所需的磁盤I/O和網(wǎng)絡帶寬開銷。另外,本文證明了當丟失單個全局校驗塊時,同樣能夠利用三個局部校驗塊進行快速恢復。因為系統(tǒng)無需為全局校驗塊生成額外的校驗塊,因此提高了存儲效率。我們通過標準馬爾可夫模型估算兩種不同方案的平均數(shù)據(jù)丟失時間,來進行可靠性比較,結(jié)果表明改進后的方案可靠性達到了原RS碼將近100倍。同時,我們將優(yōu)化方案的代碼部署到了Hadoop HDFS中,并和部署了RS碼的HDFS做比較。實驗結(jié)果表明,優(yōu)化后的方案僅以19%的額外存儲空間為代價,使系統(tǒng)修復單個塊錯誤時的磁盤I/O和網(wǎng)絡開銷降為原來的39%。因為修復效率更高,所以改進后的方案同時能為系統(tǒng)提供更高的可靠性。
【關鍵詞】:分布式文件系統(tǒng) 糾刪碼 存儲
【學位授予單位】:電子科技大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP333
【目錄】:
  • 摘要5-6
  • ABSTRACT6-9
  • 第一章 緒論9-16
  • 1.1 研究背景及意義9-10
  • 1.2 國內(nèi)外研究現(xiàn)狀10-14
  • 1.2.1 HDFS存儲效率11-13
  • 1.2.2 提高修復效率13-14
  • 1.3 論文研究內(nèi)容14-16
  • 第二章 HDFS與糾刪碼16-29
  • 2.1 HDFS16-20
  • 2.1.1 HDFS架構(gòu)16-19
  • 2.1.2 糾刪碼在HDFS中的應用19-20
  • 2.2 糾刪碼20-28
  • 2.2.1 糾刪碼與有限域20-23
  • 2.2.2 Reed-solomon碼23-26
  • 2.2.3 基于異或運算的糾刪碼26-28
  • 2.3 本章小結(jié)28-29
  • 第三章 HDFS存儲優(yōu)化29-54
  • 3.1 RS碼存在的問題29-30
  • 3.2 優(yōu)化方案30-35
  • 3.2.1 添加局部校驗塊30-32
  • 3.2.2 再優(yōu)化32-35
  • 3.3 實現(xiàn)優(yōu)化方案35-47
  • 3.3.1 初始化及分組36-41
  • 3.3.2 編碼過程的實現(xiàn)41-42
  • 3.3.3 解碼過程的實現(xiàn)42-47
  • 3.4 在HDFS中部署47-52
  • 3.4.1 修改Raid源碼47-49
  • 3.4.2 配置與部署49-52
  • 3.5 本章小結(jié)52-54
  • 第四章 實驗與結(jié)果分析54-70
  • 4.1 可靠性分析54-58
  • 4.2 理論修復開銷58
  • 4.3 實驗結(jié)果分析58-69
  • 4.3.1 編碼測試59-64
  • 4.3.2 解碼測試64-69
  • 4.3.3 其他優(yōu)化69
  • 4.4 本章小結(jié)69-70
  • 第五章 全文總結(jié)與展望70-72
  • 5.1 全文總結(jié)70-71
  • 5.2 后續(xù)工作展望71-72
  • 致謝72-73
  • 參考文獻73-76

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前1條

1 羅象宏;舒繼武;;存儲系統(tǒng)中的糾刪碼研究綜述[J];計算機研究與發(fā)展;2012年01期


  本文關鍵詞:基于HDFS的分布式文件系統(tǒng)存儲研究與優(yōu)化,,由筆耕文化傳播整理發(fā)布。



本文編號:448579

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/448579.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶31c2f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com