Hadoop平臺下基于HDFS的小文件存儲問題的優(yōu)化與實現(xiàn)
發(fā)布時間:2021-03-05 02:03
大數(shù)據(jù)技術(shù)隨著互聯(lián)網(wǎng)的發(fā)展及信息量爆炸增長的趨勢應(yīng)運而生。面對異常龐大的數(shù)據(jù),多種分布式文件系統(tǒng)為大數(shù)據(jù)的存儲提供了解決方案。其中Hadoop由于自身高擴展性、高可靠性等優(yōu)點被業(yè)界廣泛使用。HDFS作為Hadoop的核心組件,為處理大數(shù)據(jù)提供了文件存儲服務(wù)。然而HDFS更擅長處理流式的大文件,面對海量小文件存儲時的表現(xiàn)不佳。本文為了解決HDFS存儲小文件效率低下的問題,對Hadoop架構(gòu)和HDFS存儲文件的流程進行詳細分析,提出了引入多級處理模塊MPM(Multilevel Processing Module for Small Files)的方案。該方案首先通過文件預處理模塊,對系統(tǒng)中發(fā)出操作請求的文件進行過濾,篩選4.35MB以下的文件為小文件,并將其按文件擴展名進行初步分類。隨后文件合并模塊會將預處理后的小文件合并成盡可能少的大文件,以減少系統(tǒng)NameNode內(nèi)存負載。為了提高小文件的查詢速度,方案中除了利用小文件創(chuàng)建時間和小文件擴展名建立的二級索引模塊,還引入了基于用戶常用文件的預取和緩存模塊。最后,針對系統(tǒng)長時間運行導致的碎片問題,當系統(tǒng)滿足設(shè)定條件時,碎片整理模塊會對合并文...
【文章來源】:華中科技大學湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【部分圖文】:
Hadoop生態(tài)系統(tǒng)
Hadoop 會根據(jù)各個節(jié)點當下的實際負載情況進行動態(tài)分配各節(jié)點負載的均衡性。同時,實現(xiàn)了集群整體的高效運行。4)容錯性高。Hadoop 可以自動保存數(shù)據(jù)副本。當某一任務(wù)沒有成功,復數(shù)據(jù),并且被重新執(zhí)行。5)低成本。與其他的商用大數(shù)據(jù)處理系統(tǒng)相比,Hadoop 是開源的。且要求不高,用戶可以利用價格便宜的普通計算機搭建一個完整的計算行數(shù)據(jù)處理。項目的軟、硬件成本大大降低。布式文件系統(tǒng) HDFSHDFS 架構(gòu)DFS 是 Hadoop 項目的核心組成,是存儲和管理文件數(shù)據(jù)的基礎(chǔ)。采r/Slave 的系統(tǒng)結(jié)構(gòu),NameNode、SecondaryNameNode[38]、Client、Data組成部分。HDFS 的系統(tǒng)結(jié)構(gòu)如圖 2-2 所示。
華 中 科 技 大 學 碩 士 學 位 論 文于一個基礎(chǔ)存儲空間的大。ㄍǔ 64MB),存儲空間通常不會被文件占滿,有節(jié)點內(nèi)存無法承載海量的小文件帶來的內(nèi)存浪費。因此在面對海量小文件時,HD存儲性能并不盡如人意。.2.3 HDFS 讀寫過程在 HDFS 存儲文件的機制中,得益于 FSDataInputStream 類提供的兩個接口ositionReadable 接口和 Seekable 接口,系統(tǒng)可以支持的文件操作方式十分豐富。常文件操作指令有新建文件、刪除文件、修改文件、查詢文件等,其中新建文件和文件是分布式文件系統(tǒng)中更加常用的請求。分別對應(yīng)于文件的讀取過程[40]和寫入[40],接下來將對這兩個操作過程進行詳細的介紹。(1) 文件讀取過程用戶通過客戶端讀取數(shù)據(jù)過程如圖 2-3 所示。
本文編號:3064371
【文章來源】:華中科技大學湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【部分圖文】:
Hadoop生態(tài)系統(tǒng)
Hadoop 會根據(jù)各個節(jié)點當下的實際負載情況進行動態(tài)分配各節(jié)點負載的均衡性。同時,實現(xiàn)了集群整體的高效運行。4)容錯性高。Hadoop 可以自動保存數(shù)據(jù)副本。當某一任務(wù)沒有成功,復數(shù)據(jù),并且被重新執(zhí)行。5)低成本。與其他的商用大數(shù)據(jù)處理系統(tǒng)相比,Hadoop 是開源的。且要求不高,用戶可以利用價格便宜的普通計算機搭建一個完整的計算行數(shù)據(jù)處理。項目的軟、硬件成本大大降低。布式文件系統(tǒng) HDFSHDFS 架構(gòu)DFS 是 Hadoop 項目的核心組成,是存儲和管理文件數(shù)據(jù)的基礎(chǔ)。采r/Slave 的系統(tǒng)結(jié)構(gòu),NameNode、SecondaryNameNode[38]、Client、Data組成部分。HDFS 的系統(tǒng)結(jié)構(gòu)如圖 2-2 所示。
華 中 科 技 大 學 碩 士 學 位 論 文于一個基礎(chǔ)存儲空間的大。ㄍǔ 64MB),存儲空間通常不會被文件占滿,有節(jié)點內(nèi)存無法承載海量的小文件帶來的內(nèi)存浪費。因此在面對海量小文件時,HD存儲性能并不盡如人意。.2.3 HDFS 讀寫過程在 HDFS 存儲文件的機制中,得益于 FSDataInputStream 類提供的兩個接口ositionReadable 接口和 Seekable 接口,系統(tǒng)可以支持的文件操作方式十分豐富。常文件操作指令有新建文件、刪除文件、修改文件、查詢文件等,其中新建文件和文件是分布式文件系統(tǒng)中更加常用的請求。分別對應(yīng)于文件的讀取過程[40]和寫入[40],接下來將對這兩個操作過程進行詳細的介紹。(1) 文件讀取過程用戶通過客戶端讀取數(shù)據(jù)過程如圖 2-3 所示。
本文編號:3064371
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3064371.html
最近更新
教材專著