天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計(jì)算機(jī)論文 >

基于HDFS的海量小文件處理性能的研究與優(yōu)化

發(fā)布時(shí)間:2017-10-25 00:28

  本文關(guān)鍵詞:基于HDFS的海量小文件處理性能的研究與優(yōu)化


  更多相關(guān)文章: 海量小文件 HDFS 合并 索引 緩存


【摘要】:當(dāng)前,隨著計(jì)算機(jī)和信息處理技術(shù)的迅猛發(fā)展,應(yīng)用系統(tǒng)的規(guī)模迅速擴(kuò)大,行業(yè)應(yīng)用所產(chǎn)生的數(shù)據(jù)呈爆炸性增長。傳統(tǒng)的存儲技術(shù)在面對海量數(shù)據(jù)的挑戰(zhàn)時(shí)顯得愈加的乏力。由Apache基金會研發(fā)的分布式計(jì)算平臺Hadoop,迅速成為了大部分科研機(jī)構(gòu)和企業(yè)進(jìn)行大數(shù)據(jù)研究的首選。與此同時(shí),隨著互聯(lián)網(wǎng)行業(yè)的強(qiáng)勢崛起和快速發(fā)展,催生出了海量的不同類型的小文件,而Hadoop最初的設(shè)計(jì)主要是針對大文件的存儲,而對海量小文件的存儲并未多加考慮。如果將海量的小文件不經(jīng)任何預(yù)處理直接上傳至HDFS,將會造成NameNode內(nèi)存中元數(shù)據(jù)臃腫和文件訪問效率低下的問題。利用Hadoop在大文件處理方面的優(yōu)勢,基于合并的思想對小文件進(jìn)行優(yōu)化處理,可以使得Hadoop同樣適用于海量小文件的存儲。在海量小文件優(yōu)化方案實(shí)施之前,本文首先對NameNode的內(nèi)存消耗和訪問效率進(jìn)行了量化分析,得出了可以從減少NameNode所管理的文件數(shù)量,減少DataNode從磁盤上獲取數(shù)據(jù)塊的時(shí)間消耗等方面著手的結(jié)論。本文的合并方案是基于MapFile實(shí)現(xiàn),在進(jìn)行小文件合并操作的同時(shí)為其創(chuàng)建索引,并將索引信息存放至HBase中,同時(shí)為了加快文件的檢索效率,引入了緩存功能模塊,針對小文件的特性采用了改進(jìn)的緩存置換策略。鑒于HDFS提供的Hadoop Shell和Http訪問方式并不能為用戶帶來直觀清晰的體驗(yàn),對文件的操作也不是很方便,本文中設(shè)計(jì)實(shí)現(xiàn)了一個基于CBFS的虛擬文件系統(tǒng)。通過該文件系統(tǒng)將遠(yuǎn)端的HDFS虛擬化為本地Windows文件系統(tǒng)中的一個磁盤,給用戶帶來直觀體驗(yàn)的同時(shí),大大方便了用戶的操作。最后通過將本文提出的優(yōu)化方案,與原始HDFS和Sequence file進(jìn)行測試對比,發(fā)現(xiàn)不論是NameNode的內(nèi)存高消耗還是文件訪問的高延遲問題都有所改善,證明了本文提出的小文件優(yōu)化方案的可行性和有效性。
【關(guān)鍵詞】:海量小文件 HDFS 合并 索引 緩存
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP333
【目錄】:
  • 摘要5-6
  • ABSTRACT6-10
  • 第一章 緒論10-18
  • 1.1 課題背景10-14
  • 1.1.1 大數(shù)據(jù)的出現(xiàn)10-11
  • 1.1.2 云計(jì)算與云存儲11-13
  • 1.1.3 Hadoop海量小文件問題13-14
  • 1.2 研究現(xiàn)狀14-16
  • 1.3 文章的研究內(nèi)容與意義16
  • 1.4 文章的組織結(jié)構(gòu)16-18
  • 第二章 相關(guān)技術(shù)研究18-28
  • 2.1 分布式集群Hadoop18-19
  • 2.2 分布式文件系統(tǒng)HDFS19-24
  • 2.2.1 HDFS綜述19-21
  • 2.2.2 節(jié)點(diǎn)間通信協(xié)議21-22
  • 2.2.3 HDFS讀寫流程22-24
  • 2.3 HBase24-27
  • 2.4 本章小結(jié)27-28
  • 第三章 小文件優(yōu)化處理方案的設(shè)計(jì)28-54
  • 3.1 總體設(shè)計(jì)28-29
  • 3.2 小文件優(yōu)化存儲預(yù)處理29-35
  • 3.2.1 HDFS小文件處理量化分析29-31
  • 3.2.2 小文件的定義與檢測31-32
  • 3.2.3 小文件合并方法32-35
  • 3.3 小文件合并35-37
  • 3.4 小文件索引設(shè)計(jì)37-39
  • 3.5 緩存設(shè)計(jì)39-43
  • 3.5.1 緩存詳細(xì)設(shè)計(jì)40
  • 3.5.2 緩存數(shù)據(jù)表的容器40-41
  • 3.5.3 緩存替換算法41-43
  • 3.6 ARC算法43-53
  • 3.6.1 ARC算法介紹43-46
  • 3.6.2 ARC算法的改進(jìn)依據(jù)46-47
  • 3.6.3 ARC算法改進(jìn)思路47-49
  • 3.6.4 改進(jìn)的實(shí)現(xiàn)49-50
  • 3.6.5 緩存技術(shù)的測試與分析50-53
  • 3.7 本章小結(jié)53-54
  • 第四章 虛擬文件系統(tǒng)的實(shí)現(xiàn)54-70
  • 4.1 系統(tǒng)整體設(shè)計(jì)54-56
  • 4.1.1 文件上傳流程54-55
  • 4.1.2 文件讀取流程55-56
  • 4.2 基于CBFS的虛擬文件系統(tǒng)56-60
  • 4.3 文件安全傳輸60-66
  • 4.3.1 用戶認(rèn)證協(xié)議60-62
  • 4.3.2 文件壓縮傳輸62-66
  • 4.4 網(wǎng)絡(luò)文件系統(tǒng)NFS66-67
  • 4.5 系統(tǒng)整體實(shí)現(xiàn)67-69
  • 4.6 本章小結(jié)69-70
  • 第五章 測試與分析70-77
  • 5.1 環(huán)境搭建70-73
  • 5.1.1 集群搭建70-71
  • 5.1.2 集群參數(shù)配置71-73
  • 5.1.3 網(wǎng)絡(luò)文件系統(tǒng)配置73
  • 5.2 系統(tǒng)整體測試與分析73-76
  • 5.2.1 NameNode內(nèi)存占用測試74
  • 5.2.2 文件寫入測試74-75
  • 5.2.3 文件訪問性能測試75-76
  • 5.3 本章小結(jié)76-77
  • 第六章 總結(jié)與展望77-79
  • 6.1 總結(jié)77-78
  • 6.2 展望78-79
  • 致謝79-80
  • 參考文獻(xiàn)80-83

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前4條

1 陳吉榮;樂嘉錦;;基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J];計(jì)算機(jī)工程與科學(xué);2013年10期

2 洪旭升;林世平;;基于MapFile的HDFS小文件存儲效率問題[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2012年11期

3 曹寧;吳中海;劉宏志;張齊勛;;HDFS下載效率的優(yōu)化[J];計(jì)算機(jī)應(yīng)用;2010年08期

4 陳康;鄭緯民;;云計(jì)算:系統(tǒng)實(shí)例與研究現(xiàn)狀[J];軟件學(xué)報(bào);2009年05期



本文編號:1091270

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1091270.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9095a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com