面向海量小文件存取的HDFS優(yōu)化研究
發(fā)布時間:2017-10-05 05:24
本文關鍵詞:面向海量小文件存取的HDFS優(yōu)化研究
更多相關文章: HDFS 分布式文件系統(tǒng) 小文件 文件合并 預取緩存
【摘要】:Hadoop是近幾年發(fā)展比較成熟的云計算平臺之一,憑借其可靠,高效,可伸縮的特性在互聯(lián)網(wǎng)領域得到了廣泛應用,比如Yahoo、Amazon、Facebook等公司成功地應用了Hadoop,同時也得到了學術界的普遍關注。HDFS作為Hadoop的分布式文件系統(tǒng)有著高可用的特性,但它是為大文件的存儲與計算而設計,卻忽略了對小文件處理的優(yōu)化,當大量的小文件存儲到HDFS中就會產生大量的元數(shù)據(jù),因而占用NameNode大量的內存。而對海量小文件高并發(fā)的訪問使得HDFS的NameNode和DataNode都負載過大。這使得HDFS不適合存儲小文件。 針對HDFS在小文件處理的不足,本文提出了一個基于HDFS的中間件HMFS來解決HDFS的小文件問題。它由用戶接口層、任務層和存儲層組成。能夠很好的實現(xiàn)對小文件的上傳、下載、修改、刪除操作。并且它所有的任務都在后臺運行,通過讀寫分離機制大大地提高文件的上傳效率,通過緩存預取機制提高了文件的下載效率。 在小文件合并的優(yōu)化方面,本文提出了SmartFS。SmartFS通過分析小文件訪問日志,獲取用戶訪問行為,建立文件關聯(lián)概率模型,并根據(jù)基于文件關聯(lián)關系的合并算法將小文件組裝成大文件后存至HDFS;當從HDFS獲取文件時,根據(jù)基于文件關聯(lián)關系的預取算法來提高文件訪問效率,同時采用基于預取的緩存替換算法Prefetching-LFU來管理緩存空間,提高文件的命中率。 最后,本文將HMFS與SmartFS的優(yōu)點相結合,設計并實現(xiàn)一個基于HDFS的通用高效的小文件系統(tǒng),該系統(tǒng)使用HMFS進行在線的文件處理,如文件上傳、下載、更新及刪除。并使用SmartFS來分析歷史的訪問日志得到文件關聯(lián),再將相關聯(lián)的文件重新合并上傳到HDFS中。在預取與緩存策略上,它結合HMFS與SmartFS兩種情況進行預取與緩存,保證了各種情況的高效運行。 實驗表明該系統(tǒng)的上傳,下載速度相對HDFS有極大的提升,且減少了HDFS元數(shù)據(jù)量,使得HDFS能夠支持海量的小文件處理,并且它能將相關聯(lián)的文件合并提高了預取與緩存的效率。綜上,該系統(tǒng)是一種通用且高效的HDFS小文件解決方案。
【關鍵詞】:HDFS 分布式文件系統(tǒng) 小文件 文件合并 預取緩存
【學位授予單位】:東華大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP333
【目錄】:
- 摘要4-6
- ABSTRACT6-10
- 第1章 引言10-13
- 1.1 課題研究背景10
- 1.2 課題研究意義10-11
- 1.3 課題研究內容11
- 1.4 論文組織結構11-13
- 第2章 HDFS 深入研究13-22
- 2.1 HDFS 架構13-17
- 2.2 HDFS 主要流程17-20
- 2.3 本章小結20-22
- 第3章 HDFS 小文件問題及現(xiàn)有解決方案22-33
- 3.1 小文件的定義22-23
- 3.2 HDFS 小文件性能23
- 3.3 HDFS 小文件問題原因分析23-24
- 3.4 HDFS 小文件處理現(xiàn)有優(yōu)化方法24-31
- 3.5 當前優(yōu)化方法的不足31-32
- 3.6 本章小結32-33
- 第4章 基于 HDFS 的中間件設計33-42
- 4.1 HMFS 架構33-34
- 4.2 文件操作接口34-37
- 4.3 文件合并37-40
- 4.4 文件預取與緩存40-41
- 4.5 本章小結41-42
- 第5章 關聯(lián)文件合并及緩存優(yōu)化42-52
- 5.1 SmartFS 架構42-43
- 5.2 基于關聯(lián)的小文件合并43-48
- 5.3 基于文件關聯(lián)的小文件預取與緩存48-51
- 5.4 本章小結51-52
- 第6章 系統(tǒng)實現(xiàn)與實驗分析52-61
- 6.1 系統(tǒng)設計與實現(xiàn)52-55
- 6.2 實驗分析55-60
- 6.3 本章小結60-61
- 第7章 總結及展望61-64
- 7.1 總結61-62
- 7.2 展望62-64
- 參考文獻64-66
- 致謝66-67
- 攻讀碩士學位期間發(fā)表的論文67
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前5條
1 付松齡;廖湘科;黃辰林;王蕾;李姍姍;;FlatLFS:一種面向海量小文件處理優(yōu)化的輕量級文件系統(tǒng)[J];國防科技大學學報;2013年02期
2 金志剛,張鋼,舒炎泰;基于網(wǎng)絡性能的智能Web加速技術——緩存與預取[J];計算機研究與發(fā)展;2001年08期
3 石磊;孟彩霞;韓英杰;;基于預測的Web緩存替換策略[J];計算機應用;2007年08期
4 趙曉永;楊揚;孫莉莉;陳宇;;基于Hadoop的海量MP3文件存儲架構[J];計算機應用;2012年06期
5 張春明;芮建武;何婷婷;;一種Hadoop小文件存儲和讀取的方法[J];計算機應用與軟件;2012年11期
,本文編號:975023
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/975023.html
最近更新
教材專著