Hadoop平臺下基于HDFS的小文件存儲問題的優(yōu)化與實現(xiàn)
發(fā)布時間:2021-03-05 02:03
大數據技術隨著互聯(lián)網的發(fā)展及信息量爆炸增長的趨勢應運而生。面對異常龐大的數據,多種分布式文件系統(tǒng)為大數據的存儲提供了解決方案。其中Hadoop由于自身高擴展性、高可靠性等優(yōu)點被業(yè)界廣泛使用。HDFS作為Hadoop的核心組件,為處理大數據提供了文件存儲服務。然而HDFS更擅長處理流式的大文件,面對海量小文件存儲時的表現(xiàn)不佳。本文為了解決HDFS存儲小文件效率低下的問題,對Hadoop架構和HDFS存儲文件的流程進行詳細分析,提出了引入多級處理模塊MPM(Multilevel Processing Module for Small Files)的方案。該方案首先通過文件預處理模塊,對系統(tǒng)中發(fā)出操作請求的文件進行過濾,篩選4.35MB以下的文件為小文件,并將其按文件擴展名進行初步分類。隨后文件合并模塊會將預處理后的小文件合并成盡可能少的大文件,以減少系統(tǒng)NameNode內存負載。為了提高小文件的查詢速度,方案中除了利用小文件創(chuàng)建時間和小文件擴展名建立的二級索引模塊,還引入了基于用戶常用文件的預取和緩存模塊。最后,針對系統(tǒng)長時間運行導致的碎片問題,當系統(tǒng)滿足設定條件時,碎片整理模塊會對合并文...
【文章來源】:華中科技大學湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:63 頁
【學位級別】:碩士
【部分圖文】:
Hadoop生態(tài)系統(tǒng)
Hadoop 會根據各個節(jié)點當下的實際負載情況進行動態(tài)分配各節(jié)點負載的均衡性。同時,實現(xiàn)了集群整體的高效運行。4)容錯性高。Hadoop 可以自動保存數據副本。當某一任務沒有成功,復數據,并且被重新執(zhí)行。5)低成本。與其他的商用大數據處理系統(tǒng)相比,Hadoop 是開源的。且要求不高,用戶可以利用價格便宜的普通計算機搭建一個完整的計算行數據處理。項目的軟、硬件成本大大降低。布式文件系統(tǒng) HDFSHDFS 架構DFS 是 Hadoop 項目的核心組成,是存儲和管理文件數據的基礎。采r/Slave 的系統(tǒng)結構,NameNode、SecondaryNameNode[38]、Client、Data組成部分。HDFS 的系統(tǒng)結構如圖 2-2 所示。
華 中 科 技 大 學 碩 士 學 位 論 文于一個基礎存儲空間的大小(通常為 64MB),存儲空間通常不會被文件占滿,有節(jié)點內存無法承載海量的小文件帶來的內存浪費。因此在面對海量小文件時,HD存儲性能并不盡如人意。.2.3 HDFS 讀寫過程在 HDFS 存儲文件的機制中,得益于 FSDataInputStream 類提供的兩個接口ositionReadable 接口和 Seekable 接口,系統(tǒng)可以支持的文件操作方式十分豐富。常文件操作指令有新建文件、刪除文件、修改文件、查詢文件等,其中新建文件和文件是分布式文件系統(tǒng)中更加常用的請求。分別對應于文件的讀取過程[40]和寫入[40],接下來將對這兩個操作過程進行詳細的介紹。(1) 文件讀取過程用戶通過客戶端讀取數據過程如圖 2-3 所示。
本文編號:3064371
【文章來源】:華中科技大學湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:63 頁
【學位級別】:碩士
【部分圖文】:
Hadoop生態(tài)系統(tǒng)
Hadoop 會根據各個節(jié)點當下的實際負載情況進行動態(tài)分配各節(jié)點負載的均衡性。同時,實現(xiàn)了集群整體的高效運行。4)容錯性高。Hadoop 可以自動保存數據副本。當某一任務沒有成功,復數據,并且被重新執(zhí)行。5)低成本。與其他的商用大數據處理系統(tǒng)相比,Hadoop 是開源的。且要求不高,用戶可以利用價格便宜的普通計算機搭建一個完整的計算行數據處理。項目的軟、硬件成本大大降低。布式文件系統(tǒng) HDFSHDFS 架構DFS 是 Hadoop 項目的核心組成,是存儲和管理文件數據的基礎。采r/Slave 的系統(tǒng)結構,NameNode、SecondaryNameNode[38]、Client、Data組成部分。HDFS 的系統(tǒng)結構如圖 2-2 所示。
華 中 科 技 大 學 碩 士 學 位 論 文于一個基礎存儲空間的大小(通常為 64MB),存儲空間通常不會被文件占滿,有節(jié)點內存無法承載海量的小文件帶來的內存浪費。因此在面對海量小文件時,HD存儲性能并不盡如人意。.2.3 HDFS 讀寫過程在 HDFS 存儲文件的機制中,得益于 FSDataInputStream 類提供的兩個接口ositionReadable 接口和 Seekable 接口,系統(tǒng)可以支持的文件操作方式十分豐富。常文件操作指令有新建文件、刪除文件、修改文件、查詢文件等,其中新建文件和文件是分布式文件系統(tǒng)中更加常用的請求。分別對應于文件的讀取過程[40]和寫入[40],接下來將對這兩個操作過程進行詳細的介紹。(1) 文件讀取過程用戶通過客戶端讀取數據過程如圖 2-3 所示。
本文編號:3064371
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3064371.html