Hadoop平臺下基于HDFS的小文件存儲問題的優(yōu)化與實現(xiàn)

發(fā)布時間：2021-03-05 02:03

　　大數(shù)據(jù)技術(shù)隨著互聯(lián)網(wǎng)的發(fā)展及信息量爆炸增長的趨勢應(yīng)運而生。面對異常龐大的數(shù)據(jù),多種分布式文件系統(tǒng)為大數(shù)據(jù)的存儲提供了解決方案。其中Hadoop由于自身高擴展性、高可靠性等優(yōu)點被業(yè)界廣泛使用。HDFS作為Hadoop的核心組件,為處理大數(shù)據(jù)提供了文件存儲服務(wù)。然而HDFS更擅長處理流式的大文件,面對海量小文件存儲時的表現(xiàn)不佳。本文為了解決HDFS存儲小文件效率低下的問題,對Hadoop架構(gòu)和HDFS存儲文件的流程進行詳細分析,提出了引入多級處理模塊MPM（Multilevel Processing Module for Small Files）的方案。該方案首先通過文件預處理模塊,對系統(tǒng)中發(fā)出操作請求的文件進行過濾,篩選4.35MB以下的文件為小文件,并將其按文件擴展名進行初步分類。隨后文件合并模塊會將預處理后的小文件合并成盡可能少的大文件,以減少系統(tǒng)NameNode內(nèi)存負載。為了提高小文件的查詢速度,方案中除了利用小文件創(chuàng)建時間和小文件擴展名建立的二級索引模塊,還引入了基于用戶常用文件的預取和緩存模塊。最后,針對系統(tǒng)長時間運行導致的碎片問題,當系統(tǒng)滿足設(shè)定條件時,碎片整理模塊會對合并文...

【文章來源】：華中科技大學湖北省 211工程院校 985工程院校教育部直屬院校

【文章頁數(shù)】：63 頁

【學位級別】：碩士

【部分圖文】：

Hadoop生態(tài)系統(tǒng)

系統(tǒng)架構(gòu)

Hadoop 會根據(jù)各個節(jié)點當下的實際負載情況進行動態(tài)分配各節(jié)點負載的均衡性。同時，實現(xiàn)了集群整體的高效運行。4）容錯性高。Hadoop 可以自動保存數(shù)據(jù)副本。當某一任務(wù)沒有成功，復數(shù)據(jù)，并且被重新執(zhí)行。5）低成本。與其他的商用大數(shù)據(jù)處理系統(tǒng)相比，Hadoop 是開源的。且要求不高，用戶可以利用價格便宜的普通計算機搭建一個完整的計算行數(shù)據(jù)處理。項目的軟、硬件成本大大降低。布式文件系統(tǒng) HDFSHDFS 架構(gòu)DFS 是 Hadoop 項目的核心組成，是存儲和管理文件數(shù)據(jù)的基礎(chǔ)。采r/Slave 的系統(tǒng)結(jié)構(gòu)，NameNode、SecondaryNameNode[38]、Client、Data組成部分。HDFS 的系統(tǒng)結(jié)構(gòu)如圖 2-2 所示。

過程圖,文件讀取,過程,文件

華中科技大學碩士學位論文于一個基礎(chǔ)存儲空間的大�。ㄍǔ� 64MB），存儲空間通常不會被文件占滿，有節(jié)點內(nèi)存無法承載海量的小文件帶來的內(nèi)存浪費。因此在面對海量小文件時，HD存儲性能并不盡如人意。.2.3 HDFS 讀寫過程在 HDFS 存儲文件的機制中，得益于 FSDataInputStream 類提供的兩個接口ositionReadable 接口和 Seekable 接口，系統(tǒng)可以支持的文件操作方式十分豐富。常文件操作指令有新建文件、刪除文件、修改文件、查詢文件等，其中新建文件和文件是分布式文件系統(tǒng)中更加常用的請求。分別對應(yīng)于文件的讀取過程[40]和寫入[40]，接下來將對這兩個操作過程進行詳細的介紹。（1）文件讀取過程用戶通過客戶端讀取數(shù)據(jù)過程如圖 2-3 所示。

本文編號：3064371

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3064371.html

上一篇：基于嵌入式行李箱的智能鎖設(shè)計
下一篇：計算機電磁兼容技術(shù)的研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

Hadoop平臺下基于HDFS的小文件存儲問題的優(yōu)化與實現(xiàn)