天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計(jì)算機(jī)論文 >

Hadoop小文件存儲管理的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-08-03 03:20

  本文關(guān)鍵詞:Hadoop小文件存儲管理的研究與實(shí)現(xiàn)


  更多相關(guān)文章: Hadoop HDFS 小文件 存儲 檢索 合并 索引


【摘要】:當(dāng)前,大數(shù)據(jù)時(shí)代中的數(shù)據(jù)信息呈爆炸式的增長,傳統(tǒng)的技術(shù)架構(gòu)已經(jīng)不能滿足處理海量數(shù)據(jù)的需求。Apache基金研發(fā)的Hadoop平臺迅速被應(yīng)用到各個(gè)領(lǐng)域中,成為了許多企業(yè)的首選。Hadoop作為一種海量數(shù)據(jù)分析處理平臺,具有高容錯(cuò)、易擴(kuò)展、廉價(jià)存儲等特點(diǎn),被設(shè)計(jì)用來存儲大文件的存儲系統(tǒng)。但伴隨著網(wǎng)絡(luò)社交和移動互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,產(chǎn)生了海量小文件,于是在研究應(yīng)用中HDFS也被應(yīng)用于小文件的存儲。由于HDFS采用主從式的架構(gòu)模式,海量的小文件產(chǎn)生的元數(shù)據(jù)給主節(jié)點(diǎn)帶來了沉重的內(nèi)存壓力,致使系統(tǒng)讀取效率低下,形成了性能瓶頸。 針對Hadoop平臺處理海量小文件問題具有的節(jié)點(diǎn)內(nèi)存消耗和讀取緩慢等缺點(diǎn),通過現(xiàn)有基于小文件合并的策略和量化分析,可以得到部分解決。但是相關(guān)處理方案的索引設(shè)計(jì)缺陷以及未考慮文件相關(guān)性,造成了小文件的讀取緩慢,NameNode負(fù)載過重,實(shí)用性不足等問題。論文針對Hadoop平臺處理海量小文件時(shí)NameNode內(nèi)存消耗過度和文件檢索效率低下的問題,在吸取其他研究者優(yōu)秀策略的基礎(chǔ)之上和在內(nèi)存消耗、訪問性能量化方法的基礎(chǔ)分析之上,提出了基于分鐘時(shí)間段的合并算法和多級索引的Hadoop處理小文件的優(yōu)化方案,該方案主要思想是依據(jù)小文件的創(chuàng)建時(shí)間,選擇對應(yīng)分鐘時(shí)間段內(nèi)的小文件進(jìn)行合并存儲,并且依據(jù)小文件創(chuàng)建時(shí)間到合并文件名稱之間的映射關(guān)系創(chuàng)建小文件到Block和Block所在的DataNode之間的全局索引。另外依據(jù)小文件名稱和擴(kuò)展名建立小文件到具體Block以及Block內(nèi)地址信息的Trie樹索引,并按照擴(kuò)展名對索引進(jìn)行分片,建立局部雙層索引機(jī)制,放置在DataNode內(nèi)存中以加快HDFS系統(tǒng)小文件檢索性能。論文給出了該優(yōu)化方案在Hadoop集群的具體實(shí)現(xiàn),包括小文件合并、MapReduce自定義輸入分片、全局索引和局部雙層索引的建立等相關(guān)算法的實(shí)現(xiàn),以及主從節(jié)點(diǎn)設(shè)置等技術(shù)問題的解決,此外,還對提出的小文件處理優(yōu)化方案進(jìn)行了量化分析。 通過對本文提出的小文件優(yōu)化方案與HAR歸檔技術(shù)進(jìn)行節(jié)點(diǎn)內(nèi)存消耗,小文件讀取速率和小文件合并寫入等指標(biāo)數(shù)據(jù)的對比測試與分析,實(shí)驗(yàn)結(jié)果表明,本文提出的小文件合并算法跟HAR歸檔技術(shù)一樣有效的降低了Hadoop處理小文件時(shí)的NameNode內(nèi)存消耗過多的問題。另外,多級索引機(jī)制則比HAR歸檔技術(shù)所具有的雙層索引更有效地減輕了檢索小文件時(shí)NameNode的內(nèi)存消耗,提高了系統(tǒng)檢索小文件的效率。
【關(guān)鍵詞】:Hadoop HDFS 小文件 存儲 檢索 合并 索引
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP333
【目錄】:
  • 致謝5-6
  • 摘要6-7
  • ABSTRACT7-12
  • 1 引言12-18
  • 1.1 研究背景12-13
  • 1.2 研究現(xiàn)狀13-15
  • 1.2.1 Hadoop處理小文件的問題13
  • 1.2.2 國內(nèi)外研究現(xiàn)狀13-15
  • 1.3 研究內(nèi)容與意義15-16
  • 1.4 本文的組織結(jié)構(gòu)16-18
  • 2 相關(guān)技術(shù)研究18-28
  • 2.1 Hadoop分布式平臺18-19
  • 2.2 分布式文件系統(tǒng)HDFS19-25
  • 2.2.1 名稱節(jié)點(diǎn)NameNode20-21
  • 2.2.2 DataNode和Client21-22
  • 2.2.3 節(jié)點(diǎn)間通信協(xié)議22-23
  • 2.2.4 HDFS讀寫流程23-25
  • 2.3 MapReduce編程模型25-26
  • 2.4 Trie索引樹26-27
  • 2.5 本章小結(jié)27-28
  • 3 小文件處理優(yōu)化方案的設(shè)計(jì)28-38
  • 3.1 HAR歸檔技術(shù)28-29
  • 3.2 Hadoop小文件處理性能量化29-31
  • 3.2.1 NameNode內(nèi)存消耗29-30
  • 3.2.2 小文件訪問時(shí)間30-31
  • 3.3 小文件存儲優(yōu)化設(shè)計(jì)31-33
  • 3.3.1 小文件合并策略31-32
  • 3.3.2 存儲流程設(shè)計(jì)32-33
  • 3.4 小文件檢索優(yōu)化設(shè)計(jì)33-34
  • 3.4.1 多級索引策略33
  • 3.4.2 檢索流程設(shè)計(jì)33-34
  • 3.5 小文件處理優(yōu)化方案的量化分析34-36
  • 3.5.1 NameNode內(nèi)存消耗35-36
  • 3.5.2 小文件讀寫性能36
  • 3.6 本章小結(jié)36-38
  • 4 小文件處理優(yōu)化方案的實(shí)現(xiàn)38-53
  • 4.1 小文件合并38-42
  • 4.1.1 小文件定義與檢測38-39
  • 4.1.2 小文件合并算法39-40
  • 4.1.3 MapReduce輸入分片自定義40-42
  • 4.2 多級索引42-50
  • 4.2.1 全局索引42-44
  • 4.2.2 局部一級索引44-48
  • 4.2.3 局部二級索引48-50
  • 4.3 HDFS節(jié)點(diǎn)改進(jìn)50-52
  • 4.3.1 局部索引的放置50-51
  • 4.3.2 主從節(jié)點(diǎn)的修改51-52
  • 4.4 本章小結(jié)52-53
  • 5 測試與分析53-64
  • 5.1 Hadoop平臺搭建53-56
  • 5.1.1 集群搭建53-54
  • 5.1.2 配置集群參數(shù)54-56
  • 5.2 測試設(shè)計(jì)與準(zhǔn)備56-57
  • 5.2.1 測試設(shè)計(jì)56-57
  • 5.2.2 測試數(shù)據(jù)57
  • 5.3 對比測試57-62
  • 5.3.1 小文件合并寫入測試57-58
  • 5.3.2 節(jié)點(diǎn)內(nèi)存消耗測試58-60
  • 5.3.3 小文件訪問性能測試60-62
  • 5.4 測試分析62-63
  • 5.5 本章小結(jié)63-64
  • 6 總結(jié)與展望64-66
  • 6.1 工作總結(jié)64-65
  • 6.2 研究展望65-66
  • 參考文獻(xiàn)66-69
  • 作者簡歷及攻讀碩士學(xué)位期間取得的研究成果69-71
  • 學(xué)位論文數(shù)據(jù)集71

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前6條

1 董世曉;;云計(jì)算開源先鋒Hadoop——第四屆Hadoop中國云計(jì)算大會紀(jì)實(shí)[J];程序員;2010年10期

2 袁玉;崔超遠(yuǎn);烏云;陳祝紅;;單機(jī)下Hadoop小文件處理性能分析[J];計(jì)算機(jī)工程與應(yīng)用;2013年03期

3 張春明;芮建武;何婷婷;;一種Hadoop小文件存儲和讀取的方法[J];計(jì)算機(jī)應(yīng)用與軟件;2012年11期

4 陳吉榮;樂嘉錦;;基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J];計(jì)算機(jī)工程與科學(xué);2013年10期

5 王鈴惠;李小勇;張軼彬;;海量小文件存儲文件系統(tǒng)研究綜述[J];計(jì)算機(jī)應(yīng)用與軟件;2012年08期

6 陳康;鄭緯民;;云計(jì)算:系統(tǒng)實(shí)例與研究現(xiàn)狀[J];軟件學(xué)報(bào);2009年05期

,

本文編號:612445

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/612445.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7fda6***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com