基于HDFS的分布式文件系統(tǒng)存儲研究與優(yōu)化
發(fā)布時間:2017-06-14 05:11
本文關鍵詞:基于HDFS的分布式文件系統(tǒng)存儲研究與優(yōu)化,由筆耕文化傳播整理發(fā)布。
【摘要】:傳統(tǒng)的存儲系統(tǒng)無法滿足呈爆炸性增長的海量數(shù)據(jù)存儲需求,分布式文件系統(tǒng)應運而生,如今已得到廣泛應用。傳統(tǒng)的分布式文件系統(tǒng)通常采用多副本技術(shù)來保證數(shù)據(jù)的可靠性。對于副本系數(shù)為3的系統(tǒng),一份數(shù)據(jù)被切分為幾個塊,每個塊的3個副本分別存儲在不同的數(shù)據(jù)節(jié)點。這種備份方法最大的缺點是需要極大的額外存儲開銷。隨著數(shù)據(jù)量的增長,所需的存儲空間增長速度將遠遠大于硬件設備的擴展速度,存儲開銷將成為數(shù)據(jù)中心的一個主要成本瓶頸。糾刪碼技術(shù)只需要較少的額外開銷就可以獲得很高的數(shù)據(jù)可靠性。而所有的糾刪碼中,里德所羅門碼(Reed-Solomon Codes,RS碼)最為常用。糾刪碼技術(shù)應用于分布式文件系統(tǒng)能顯著降低存儲開銷、提高數(shù)據(jù)可靠性,但在修復丟失的數(shù)據(jù)時,需要付出極大的代價。就修復單個塊而言,部署了里德所羅門碼系統(tǒng)的帶寬和I/O開銷甚至達到了三副本系統(tǒng)的12倍。為此,本文提出了一個改進的RS碼方案。在RS碼的基礎上,通過添加額外的校驗塊,改善RS碼的局部性。對于RS(12,4)碼,12個數(shù)據(jù)塊生成4個校驗塊(全局校驗塊),我們僅需在這個基礎上將12個數(shù)據(jù)塊分成3組,每組4個塊,每4個塊生成一個額外校驗塊(局部校驗塊),就能使原RS碼的局部性由12降為4。這意味著原來修復單個塊需要讀取和傳輸12個塊,現(xiàn)在僅需4個塊,極大的降低了修復所需的磁盤I/O和網(wǎng)絡帶寬開銷。另外,本文證明了當丟失單個全局校驗塊時,同樣能夠利用三個局部校驗塊進行快速恢復。因為系統(tǒng)無需為全局校驗塊生成額外的校驗塊,因此提高了存儲效率。我們通過標準馬爾可夫模型估算兩種不同方案的平均數(shù)據(jù)丟失時間,來進行可靠性比較,結(jié)果表明改進后的方案可靠性達到了原RS碼將近100倍。同時,我們將優(yōu)化方案的代碼部署到了Hadoop HDFS中,并和部署了RS碼的HDFS做比較。實驗結(jié)果表明,優(yōu)化后的方案僅以19%的額外存儲空間為代價,使系統(tǒng)修復單個塊錯誤時的磁盤I/O和網(wǎng)絡開銷降為原來的39%。因為修復效率更高,所以改進后的方案同時能為系統(tǒng)提供更高的可靠性。
【關鍵詞】:分布式文件系統(tǒng) 糾刪碼 存儲
【學位授予單位】:電子科技大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP333
【目錄】:
- 摘要5-6
- ABSTRACT6-9
- 第一章 緒論9-16
- 1.1 研究背景及意義9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-14
- 1.2.1 HDFS存儲效率11-13
- 1.2.2 提高修復效率13-14
- 1.3 論文研究內(nèi)容14-16
- 第二章 HDFS與糾刪碼16-29
- 2.1 HDFS16-20
- 2.1.1 HDFS架構(gòu)16-19
- 2.1.2 糾刪碼在HDFS中的應用19-20
- 2.2 糾刪碼20-28
- 2.2.1 糾刪碼與有限域20-23
- 2.2.2 Reed-solomon碼23-26
- 2.2.3 基于異或運算的糾刪碼26-28
- 2.3 本章小結(jié)28-29
- 第三章 HDFS存儲優(yōu)化29-54
- 3.1 RS碼存在的問題29-30
- 3.2 優(yōu)化方案30-35
- 3.2.1 添加局部校驗塊30-32
- 3.2.2 再優(yōu)化32-35
- 3.3 實現(xiàn)優(yōu)化方案35-47
- 3.3.1 初始化及分組36-41
- 3.3.2 編碼過程的實現(xiàn)41-42
- 3.3.3 解碼過程的實現(xiàn)42-47
- 3.4 在HDFS中部署47-52
- 3.4.1 修改Raid源碼47-49
- 3.4.2 配置與部署49-52
- 3.5 本章小結(jié)52-54
- 第四章 實驗與結(jié)果分析54-70
- 4.1 可靠性分析54-58
- 4.2 理論修復開銷58
- 4.3 實驗結(jié)果分析58-69
- 4.3.1 編碼測試59-64
- 4.3.2 解碼測試64-69
- 4.3.3 其他優(yōu)化69
- 4.4 本章小結(jié)69-70
- 第五章 全文總結(jié)與展望70-72
- 5.1 全文總結(jié)70-71
- 5.2 后續(xù)工作展望71-72
- 致謝72-73
- 參考文獻73-76
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 羅象宏;舒繼武;;存儲系統(tǒng)中的糾刪碼研究綜述[J];計算機研究與發(fā)展;2012年01期
本文關鍵詞:基于HDFS的分布式文件系統(tǒng)存儲研究與優(yōu)化,,由筆耕文化傳播整理發(fā)布。
本文編號:448579
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/448579.html
最近更新
教材專著