天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 計算機論文 >

面向海量小文件存取的HDFS優(yōu)化研究

發(fā)布時間:2017-10-05 05:24

  本文關鍵詞:面向海量小文件存取的HDFS優(yōu)化研究


  更多相關文章: HDFS 分布式文件系統(tǒng) 小文件 文件合并 預取緩存


【摘要】:Hadoop是近幾年發(fā)展比較成熟的云計算平臺之一,憑借其可靠,高效,可伸縮的特性在互聯(lián)網(wǎng)領域得到了廣泛應用,比如Yahoo、Amazon、Facebook等公司成功地應用了Hadoop,同時也得到了學術界的普遍關注。HDFS作為Hadoop的分布式文件系統(tǒng)有著高可用的特性,但它是為大文件的存儲與計算而設計,卻忽略了對小文件處理的優(yōu)化,當大量的小文件存儲到HDFS中就會產生大量的元數(shù)據(jù),因而占用NameNode大量的內存。而對海量小文件高并發(fā)的訪問使得HDFS的NameNode和DataNode都負載過大。這使得HDFS不適合存儲小文件。 針對HDFS在小文件處理的不足,本文提出了一個基于HDFS的中間件HMFS來解決HDFS的小文件問題。它由用戶接口層、任務層和存儲層組成。能夠很好的實現(xiàn)對小文件的上傳、下載、修改、刪除操作。并且它所有的任務都在后臺運行,通過讀寫分離機制大大地提高文件的上傳效率,通過緩存預取機制提高了文件的下載效率。 在小文件合并的優(yōu)化方面,本文提出了SmartFS。SmartFS通過分析小文件訪問日志,獲取用戶訪問行為,建立文件關聯(lián)概率模型,并根據(jù)基于文件關聯(lián)關系的合并算法將小文件組裝成大文件后存至HDFS;當從HDFS獲取文件時,根據(jù)基于文件關聯(lián)關系的預取算法來提高文件訪問效率,同時采用基于預取的緩存替換算法Prefetching-LFU來管理緩存空間,提高文件的命中率。 最后,本文將HMFS與SmartFS的優(yōu)點相結合,設計并實現(xiàn)一個基于HDFS的通用高效的小文件系統(tǒng),該系統(tǒng)使用HMFS進行在線的文件處理,如文件上傳、下載、更新及刪除。并使用SmartFS來分析歷史的訪問日志得到文件關聯(lián),再將相關聯(lián)的文件重新合并上傳到HDFS中。在預取與緩存策略上,它結合HMFS與SmartFS兩種情況進行預取與緩存,保證了各種情況的高效運行。 實驗表明該系統(tǒng)的上傳,下載速度相對HDFS有極大的提升,且減少了HDFS元數(shù)據(jù)量,使得HDFS能夠支持海量的小文件處理,并且它能將相關聯(lián)的文件合并提高了預取與緩存的效率。綜上,該系統(tǒng)是一種通用且高效的HDFS小文件解決方案。
【關鍵詞】:HDFS 分布式文件系統(tǒng) 小文件 文件合并 預取緩存
【學位授予單位】:東華大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP333
【目錄】:
  • 摘要4-6
  • ABSTRACT6-10
  • 第1章 引言10-13
  • 1.1 課題研究背景10
  • 1.2 課題研究意義10-11
  • 1.3 課題研究內容11
  • 1.4 論文組織結構11-13
  • 第2章 HDFS 深入研究13-22
  • 2.1 HDFS 架構13-17
  • 2.2 HDFS 主要流程17-20
  • 2.3 本章小結20-22
  • 第3章 HDFS 小文件問題及現(xiàn)有解決方案22-33
  • 3.1 小文件的定義22-23
  • 3.2 HDFS 小文件性能23
  • 3.3 HDFS 小文件問題原因分析23-24
  • 3.4 HDFS 小文件處理現(xiàn)有優(yōu)化方法24-31
  • 3.5 當前優(yōu)化方法的不足31-32
  • 3.6 本章小結32-33
  • 第4章 基于 HDFS 的中間件設計33-42
  • 4.1 HMFS 架構33-34
  • 4.2 文件操作接口34-37
  • 4.3 文件合并37-40
  • 4.4 文件預取與緩存40-41
  • 4.5 本章小結41-42
  • 第5章 關聯(lián)文件合并及緩存優(yōu)化42-52
  • 5.1 SmartFS 架構42-43
  • 5.2 基于關聯(lián)的小文件合并43-48
  • 5.3 基于文件關聯(lián)的小文件預取與緩存48-51
  • 5.4 本章小結51-52
  • 第6章 系統(tǒng)實現(xiàn)與實驗分析52-61
  • 6.1 系統(tǒng)設計與實現(xiàn)52-55
  • 6.2 實驗分析55-60
  • 6.3 本章小結60-61
  • 第7章 總結及展望61-64
  • 7.1 總結61-62
  • 7.2 展望62-64
  • 參考文獻64-66
  • 致謝66-67
  • 攻讀碩士學位期間發(fā)表的論文67

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前5條

1 付松齡;廖湘科;黃辰林;王蕾;李姍姍;;FlatLFS:一種面向海量小文件處理優(yōu)化的輕量級文件系統(tǒng)[J];國防科技大學學報;2013年02期

2 金志剛,張鋼,舒炎泰;基于網(wǎng)絡性能的智能Web加速技術——緩存與預取[J];計算機研究與發(fā)展;2001年08期

3 石磊;孟彩霞;韓英杰;;基于預測的Web緩存替換策略[J];計算機應用;2007年08期

4 趙曉永;楊揚;孫莉莉;陳宇;;基于Hadoop的海量MP3文件存儲架構[J];計算機應用;2012年06期

5 張春明;芮建武;何婷婷;;一種Hadoop小文件存儲和讀取的方法[J];計算機應用與軟件;2012年11期



本文編號:975023

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/975023.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶42f2f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com