HDFS存儲高利用率及強擴展性優(yōu)化研究

發(fā)布時間：2021-12-24 04:05

　　HDFS憑借其高容錯、高可靠等特性,成為了大數(shù)據(jù)存儲領域應用最為廣泛的分布式文件系統(tǒng)。然而隨著大數(shù)據(jù)時代的不斷發(fā)展,數(shù)據(jù)量呈現(xiàn)井噴式增長,要求HDFS具有更高的存儲利用率及強擴展性。基于以上的需求,本文在深入分析HDFS的基礎上發(fā)現(xiàn)以下三個問題:（1）HDFS通過3x副本策略實現(xiàn)數(shù)據(jù)冗余,保證了文件數(shù)據(jù)的高可靠性,然而其附加的副本在正常操作期間很少被訪問,卻增加了200%的存儲空間和其他資源開銷,存儲空間利用率低下。（2）HDFS存儲海量小文件時將產(chǎn)生大量的元數(shù)據(jù)并增加Namenode的內(nèi)存消耗與負載,影響HDFS的存儲性能。（3）HDFS中的元數(shù)據(jù)存放于FSImage和EditLog兩個文件中并由Namenode加載到內(nèi)存中進行管理,這種基于文件的元數(shù)據(jù)管理策略使得Namenode成為了HDFS擴展性的瓶頸。本文以提高HDFS的存儲空間利用率與擴展性為目標,設計了一種基于HDFS的高擴展性分布式文件系統(tǒng)L-HDFS來解決以上三個問題。本文研究內(nèi)容及研究成果主要包括:（1）提出了一種基于RS碼的糾刪碼局部化算法CLRC來實現(xiàn)HDFS的數(shù)據(jù)冗余。相較于多副本策略,顯著的提高了存儲空間利用...

【文章來源】：東華理工大學江西省

【文章頁數(shù)】：75 頁

【學位級別】：碩士

【文章目錄】：
摘要
Abstract
第1章緒論
    1.1 研究背景和意義
        1.1.1 研究背景
        1.1.2 研究意義
    1.2 國內(nèi)外研究現(xiàn)狀
        1.2.1 分布式存儲數(shù)據(jù)冗余研究現(xiàn)狀
        1.2.2 HDFS小文件存儲研究現(xiàn)狀
        1.2.3 元數(shù)據(jù)管理研究現(xiàn)狀
    1.3 本文的主要工作
        1.3.1 研究目的
        1.3.2 研究內(nèi)容
        1.3.3 創(chuàng)新點
    1.4 論文的組織結(jié)構(gòu)
第2章高性能及強擴展性的分布式文件系統(tǒng)L-HDFS設計
    2.1 研究思路
    2.2 HDFS關鍵技術研究
        2.2.1 HDFS架構(gòu)
        2.2.2 HDFS文件讀寫流程
        2.2.3 HDFS文件存放方法及冗余機制
        2.2.4 HDFS元數(shù)據(jù)管理機制
    2.3 L-HDFS需求分析
    2.4 L-HDFS關鍵設計
        2.4.1 L-HDFS數(shù)據(jù)冗余策略設計
        2.4.2 L-HDFS小文件存儲優(yōu)化設計
        2.4.3 L-HDFS元數(shù)據(jù)管理機制設計
        2.4.4 實驗設計
    2.5 本章小結(jié)
第3章糾刪碼局部化算法CLRC設計
    3.1 研究思路
    3.2 Erasure Code算法
        3.2.1 名詞定義與說明
        3.2.2 Array Codes
        3.2.3 RS碼(Reed-solomon碼)
    3.3 糾刪碼局部化算法CLRC設計
        3.3.1 優(yōu)化方案
        3.3.2 CLRC編碼
        3.3.3 CLRC解碼
    3.4 實驗對比測試
        3.4.1 編碼效率測試
        3.4.2 重構(gòu)效率測試
    3.5 本章小結(jié)
第4章小文件編碼合并算法FEMA設計
    4.1 研究思路
    4.2 HDFS小文件優(yōu)化方法
        4.2.1 HAR
        4.2.2 SequenceFile
        4.2.3 MapFile
    4.3 小文件合并及文件名編碼算法FEMA設計
        4.3.1 小文件合并
        4.3.2 文件預取與緩存
        4.3.3 FMEA的文件讀寫流程
    4.4 實驗和評估
        4.4.1 Namenode內(nèi)存使用對比
        4.4.2 存儲性能對比
        4.4.3 隨機讀取性能對比
    4.5 本章小結(jié)
第5章基于RDBMS的元數(shù)據(jù)管理擴展方案MBR設計
    5.1 研究思路
    5.2 MBR需求分析
    5.3 基于RDBMS的元數(shù)據(jù)管理機制設計
        5.3.1 MBR架構(gòu)
        5.3.2 MBR的元數(shù)據(jù)關系模式
        5.3.3 MBR的 RDBMS元數(shù)據(jù)庫
        5.3.4 MBR性能分析
    5.4 實驗及結(jié)果分析
        5.4.1 魯棒性實驗
        5.4.2 可用性實驗
        5.4.3 可伸縮性實驗
    5.5 本章小結(jié)
第6章總結(jié)與展望
    6.1 總結(jié)
    6.2 展望
致謝
參考文獻

本文編號：3549787

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3549787.html

上一篇：NAND Flash糾錯策略優(yōu)化研究
下一篇：基于圖形處理器的數(shù)據(jù)流并行處理方法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

HDFS存儲高利用率及強擴展性優(yōu)化研究