Hadoop小文件存儲管理的研究與實現(xiàn)
發(fā)布時間:2017-08-03 03:20
本文關(guān)鍵詞:Hadoop小文件存儲管理的研究與實現(xiàn)
更多相關(guān)文章: Hadoop HDFS 小文件 存儲 檢索 合并 索引
【摘要】:當前,大數(shù)據(jù)時代中的數(shù)據(jù)信息呈爆炸式的增長,傳統(tǒng)的技術(shù)架構(gòu)已經(jīng)不能滿足處理海量數(shù)據(jù)的需求。Apache基金研發(fā)的Hadoop平臺迅速被應用到各個領(lǐng)域中,成為了許多企業(yè)的首選。Hadoop作為一種海量數(shù)據(jù)分析處理平臺,具有高容錯、易擴展、廉價存儲等特點,被設(shè)計用來存儲大文件的存儲系統(tǒng)。但伴隨著網(wǎng)絡社交和移動互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,產(chǎn)生了海量小文件,于是在研究應用中HDFS也被應用于小文件的存儲。由于HDFS采用主從式的架構(gòu)模式,海量的小文件產(chǎn)生的元數(shù)據(jù)給主節(jié)點帶來了沉重的內(nèi)存壓力,致使系統(tǒng)讀取效率低下,形成了性能瓶頸。 針對Hadoop平臺處理海量小文件問題具有的節(jié)點內(nèi)存消耗和讀取緩慢等缺點,通過現(xiàn)有基于小文件合并的策略和量化分析,可以得到部分解決。但是相關(guān)處理方案的索引設(shè)計缺陷以及未考慮文件相關(guān)性,造成了小文件的讀取緩慢,NameNode負載過重,實用性不足等問題。論文針對Hadoop平臺處理海量小文件時NameNode內(nèi)存消耗過度和文件檢索效率低下的問題,在吸取其他研究者優(yōu)秀策略的基礎(chǔ)之上和在內(nèi)存消耗、訪問性能量化方法的基礎(chǔ)分析之上,提出了基于分鐘時間段的合并算法和多級索引的Hadoop處理小文件的優(yōu)化方案,該方案主要思想是依據(jù)小文件的創(chuàng)建時間,選擇對應分鐘時間段內(nèi)的小文件進行合并存儲,并且依據(jù)小文件創(chuàng)建時間到合并文件名稱之間的映射關(guān)系創(chuàng)建小文件到Block和Block所在的DataNode之間的全局索引。另外依據(jù)小文件名稱和擴展名建立小文件到具體Block以及Block內(nèi)地址信息的Trie樹索引,并按照擴展名對索引進行分片,建立局部雙層索引機制,放置在DataNode內(nèi)存中以加快HDFS系統(tǒng)小文件檢索性能。論文給出了該優(yōu)化方案在Hadoop集群的具體實現(xiàn),包括小文件合并、MapReduce自定義輸入分片、全局索引和局部雙層索引的建立等相關(guān)算法的實現(xiàn),以及主從節(jié)點設(shè)置等技術(shù)問題的解決,此外,還對提出的小文件處理優(yōu)化方案進行了量化分析。 通過對本文提出的小文件優(yōu)化方案與HAR歸檔技術(shù)進行節(jié)點內(nèi)存消耗,小文件讀取速率和小文件合并寫入等指標數(shù)據(jù)的對比測試與分析,實驗結(jié)果表明,本文提出的小文件合并算法跟HAR歸檔技術(shù)一樣有效的降低了Hadoop處理小文件時的NameNode內(nèi)存消耗過多的問題。另外,多級索引機制則比HAR歸檔技術(shù)所具有的雙層索引更有效地減輕了檢索小文件時NameNode的內(nèi)存消耗,提高了系統(tǒng)檢索小文件的效率。
【關(guān)鍵詞】:Hadoop HDFS 小文件 存儲 檢索 合并 索引
【學位授予單位】:北京交通大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP333
【目錄】:
- 致謝5-6
- 摘要6-7
- ABSTRACT7-12
- 1 引言12-18
- 1.1 研究背景12-13
- 1.2 研究現(xiàn)狀13-15
- 1.2.1 Hadoop處理小文件的問題13
- 1.2.2 國內(nèi)外研究現(xiàn)狀13-15
- 1.3 研究內(nèi)容與意義15-16
- 1.4 本文的組織結(jié)構(gòu)16-18
- 2 相關(guān)技術(shù)研究18-28
- 2.1 Hadoop分布式平臺18-19
- 2.2 分布式文件系統(tǒng)HDFS19-25
- 2.2.1 名稱節(jié)點NameNode20-21
- 2.2.2 DataNode和Client21-22
- 2.2.3 節(jié)點間通信協(xié)議22-23
- 2.2.4 HDFS讀寫流程23-25
- 2.3 MapReduce編程模型25-26
- 2.4 Trie索引樹26-27
- 2.5 本章小結(jié)27-28
- 3 小文件處理優(yōu)化方案的設(shè)計28-38
- 3.1 HAR歸檔技術(shù)28-29
- 3.2 Hadoop小文件處理性能量化29-31
- 3.2.1 NameNode內(nèi)存消耗29-30
- 3.2.2 小文件訪問時間30-31
- 3.3 小文件存儲優(yōu)化設(shè)計31-33
- 3.3.1 小文件合并策略31-32
- 3.3.2 存儲流程設(shè)計32-33
- 3.4 小文件檢索優(yōu)化設(shè)計33-34
- 3.4.1 多級索引策略33
- 3.4.2 檢索流程設(shè)計33-34
- 3.5 小文件處理優(yōu)化方案的量化分析34-36
- 3.5.1 NameNode內(nèi)存消耗35-36
- 3.5.2 小文件讀寫性能36
- 3.6 本章小結(jié)36-38
- 4 小文件處理優(yōu)化方案的實現(xiàn)38-53
- 4.1 小文件合并38-42
- 4.1.1 小文件定義與檢測38-39
- 4.1.2 小文件合并算法39-40
- 4.1.3 MapReduce輸入分片自定義40-42
- 4.2 多級索引42-50
- 4.2.1 全局索引42-44
- 4.2.2 局部一級索引44-48
- 4.2.3 局部二級索引48-50
- 4.3 HDFS節(jié)點改進50-52
- 4.3.1 局部索引的放置50-51
- 4.3.2 主從節(jié)點的修改51-52
- 4.4 本章小結(jié)52-53
- 5 測試與分析53-64
- 5.1 Hadoop平臺搭建53-56
- 5.1.1 集群搭建53-54
- 5.1.2 配置集群參數(shù)54-56
- 5.2 測試設(shè)計與準備56-57
- 5.2.1 測試設(shè)計56-57
- 5.2.2 測試數(shù)據(jù)57
- 5.3 對比測試57-62
- 5.3.1 小文件合并寫入測試57-58
- 5.3.2 節(jié)點內(nèi)存消耗測試58-60
- 5.3.3 小文件訪問性能測試60-62
- 5.4 測試分析62-63
- 5.5 本章小結(jié)63-64
- 6 總結(jié)與展望64-66
- 6.1 工作總結(jié)64-65
- 6.2 研究展望65-66
- 參考文獻66-69
- 作者簡歷及攻讀碩士學位期間取得的研究成果69-71
- 學位論文數(shù)據(jù)集71
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前6條
1 董世曉;;云計算開源先鋒Hadoop——第四屆Hadoop中國云計算大會紀實[J];程序員;2010年10期
2 袁玉;崔超遠;烏云;陳祝紅;;單機下Hadoop小文件處理性能分析[J];計算機工程與應用;2013年03期
3 張春明;芮建武;何婷婷;;一種Hadoop小文件存儲和讀取的方法[J];計算機應用與軟件;2012年11期
4 陳吉榮;樂嘉錦;;基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J];計算機工程與科學;2013年10期
5 王鈴惠;李小勇;張軼彬;;海量小文件存儲文件系統(tǒng)研究綜述[J];計算機應用與軟件;2012年08期
6 陳康;鄭緯民;;云計算:系統(tǒng)實例與研究現(xiàn)狀[J];軟件學報;2009年05期
,本文編號:612445
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/612445.html
最近更新
教材專著