HDFS存儲高利用率及強擴展性優(yōu)化研究
發(fā)布時間:2021-12-24 04:05
HDFS憑借其高容錯、高可靠等特性,成為了大數(shù)據(jù)存儲領(lǐng)域應(yīng)用最為廣泛的分布式文件系統(tǒng)。然而隨著大數(shù)據(jù)時代的不斷發(fā)展,數(shù)據(jù)量呈現(xiàn)井噴式增長,要求HDFS具有更高的存儲利用率及強擴展性。基于以上的需求,本文在深入分析HDFS的基礎(chǔ)上發(fā)現(xiàn)以下三個問題:(1)HDFS通過3x副本策略實現(xiàn)數(shù)據(jù)冗余,保證了文件數(shù)據(jù)的高可靠性,然而其附加的副本在正常操作期間很少被訪問,卻增加了200%的存儲空間和其他資源開銷,存儲空間利用率低下。(2)HDFS存儲海量小文件時將產(chǎn)生大量的元數(shù)據(jù)并增加Namenode的內(nèi)存消耗與負載,影響HDFS的存儲性能。(3)HDFS中的元數(shù)據(jù)存放于FSImage和EditLog兩個文件中并由Namenode加載到內(nèi)存中進行管理,這種基于文件的元數(shù)據(jù)管理策略使得Namenode成為了HDFS擴展性的瓶頸。本文以提高HDFS的存儲空間利用率與擴展性為目標,設(shè)計了一種基于HDFS的高擴展性分布式文件系統(tǒng)L-HDFS來解決以上三個問題。本文研究內(nèi)容及研究成果主要包括:(1)提出了一種基于RS碼的糾刪碼局部化算法CLRC來實現(xiàn)HDFS的數(shù)據(jù)冗余。相較于多副本策略,顯著的提高了存儲空間利用...
【文章來源】:東華理工大學江西省
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景和意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 分布式存儲數(shù)據(jù)冗余研究現(xiàn)狀
1.2.2 HDFS小文件存儲研究現(xiàn)狀
1.2.3 元數(shù)據(jù)管理研究現(xiàn)狀
1.3 本文的主要工作
1.3.1 研究目的
1.3.2 研究內(nèi)容
1.3.3 創(chuàng)新點
1.4 論文的組織結(jié)構(gòu)
第2章 高性能及強擴展性的分布式文件系統(tǒng)L-HDFS設(shè)計
2.1 研究思路
2.2 HDFS關(guān)鍵技術(shù)研究
2.2.1 HDFS架構(gòu)
2.2.2 HDFS文件讀寫流程
2.2.3 HDFS文件存放方法及冗余機制
2.2.4 HDFS元數(shù)據(jù)管理機制
2.3 L-HDFS需求分析
2.4 L-HDFS關(guān)鍵設(shè)計
2.4.1 L-HDFS數(shù)據(jù)冗余策略設(shè)計
2.4.2 L-HDFS小文件存儲優(yōu)化設(shè)計
2.4.3 L-HDFS元數(shù)據(jù)管理機制設(shè)計
2.4.4 實驗設(shè)計
2.5 本章小結(jié)
第3章 糾刪碼局部化算法CLRC設(shè)計
3.1 研究思路
3.2 Erasure Code算法
3.2.1 名詞定義與說明
3.2.2 Array Codes
3.2.3 RS碼(Reed-solomon碼)
3.3 糾刪碼局部化算法CLRC設(shè)計
3.3.1 優(yōu)化方案
3.3.2 CLRC編碼
3.3.3 CLRC解碼
3.4 實驗對比測試
3.4.1 編碼效率測試
3.4.2 重構(gòu)效率測試
3.5 本章小結(jié)
第4章 小文件編碼合并算法FEMA設(shè)計
4.1 研究思路
4.2 HDFS小文件優(yōu)化方法
4.2.1 HAR
4.2.2 SequenceFile
4.2.3 MapFile
4.3 小文件合并及文件名編碼算法FEMA設(shè)計
4.3.1 小文件合并
4.3.2 文件預取與緩存
4.3.3 FMEA的文件讀寫流程
4.4 實驗和評估
4.4.1 Namenode內(nèi)存使用對比
4.4.2 存儲性能對比
4.4.3 隨機讀取性能對比
4.5 本章小結(jié)
第5章 基于RDBMS的元數(shù)據(jù)管理擴展方案MBR設(shè)計
5.1 研究思路
5.2 MBR需求分析
5.3 基于RDBMS的元數(shù)據(jù)管理機制設(shè)計
5.3.1 MBR架構(gòu)
5.3.2 MBR的元數(shù)據(jù)關(guān)系模式
5.3.3 MBR的 RDBMS元數(shù)據(jù)庫
5.3.4 MBR性能分析
5.4 實驗及結(jié)果分析
5.4.1 魯棒性實驗
5.4.2 可用性實驗
5.4.3 可伸縮性實驗
5.5 本章小結(jié)
第6章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
致謝
參考文獻
本文編號:3549787
【文章來源】:東華理工大學江西省
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景和意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 分布式存儲數(shù)據(jù)冗余研究現(xiàn)狀
1.2.2 HDFS小文件存儲研究現(xiàn)狀
1.2.3 元數(shù)據(jù)管理研究現(xiàn)狀
1.3 本文的主要工作
1.3.1 研究目的
1.3.2 研究內(nèi)容
1.3.3 創(chuàng)新點
1.4 論文的組織結(jié)構(gòu)
第2章 高性能及強擴展性的分布式文件系統(tǒng)L-HDFS設(shè)計
2.1 研究思路
2.2 HDFS關(guān)鍵技術(shù)研究
2.2.1 HDFS架構(gòu)
2.2.2 HDFS文件讀寫流程
2.2.3 HDFS文件存放方法及冗余機制
2.2.4 HDFS元數(shù)據(jù)管理機制
2.3 L-HDFS需求分析
2.4 L-HDFS關(guān)鍵設(shè)計
2.4.1 L-HDFS數(shù)據(jù)冗余策略設(shè)計
2.4.2 L-HDFS小文件存儲優(yōu)化設(shè)計
2.4.3 L-HDFS元數(shù)據(jù)管理機制設(shè)計
2.4.4 實驗設(shè)計
2.5 本章小結(jié)
第3章 糾刪碼局部化算法CLRC設(shè)計
3.1 研究思路
3.2 Erasure Code算法
3.2.1 名詞定義與說明
3.2.2 Array Codes
3.2.3 RS碼(Reed-solomon碼)
3.3 糾刪碼局部化算法CLRC設(shè)計
3.3.1 優(yōu)化方案
3.3.2 CLRC編碼
3.3.3 CLRC解碼
3.4 實驗對比測試
3.4.1 編碼效率測試
3.4.2 重構(gòu)效率測試
3.5 本章小結(jié)
第4章 小文件編碼合并算法FEMA設(shè)計
4.1 研究思路
4.2 HDFS小文件優(yōu)化方法
4.2.1 HAR
4.2.2 SequenceFile
4.2.3 MapFile
4.3 小文件合并及文件名編碼算法FEMA設(shè)計
4.3.1 小文件合并
4.3.2 文件預取與緩存
4.3.3 FMEA的文件讀寫流程
4.4 實驗和評估
4.4.1 Namenode內(nèi)存使用對比
4.4.2 存儲性能對比
4.4.3 隨機讀取性能對比
4.5 本章小結(jié)
第5章 基于RDBMS的元數(shù)據(jù)管理擴展方案MBR設(shè)計
5.1 研究思路
5.2 MBR需求分析
5.3 基于RDBMS的元數(shù)據(jù)管理機制設(shè)計
5.3.1 MBR架構(gòu)
5.3.2 MBR的元數(shù)據(jù)關(guān)系模式
5.3.3 MBR的 RDBMS元數(shù)據(jù)庫
5.3.4 MBR性能分析
5.4 實驗及結(jié)果分析
5.4.1 魯棒性實驗
5.4.2 可用性實驗
5.4.3 可伸縮性實驗
5.5 本章小結(jié)
第6章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
致謝
參考文獻
本文編號:3549787
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3549787.html
最近更新
教材專著