Hadoop小文件存儲管理的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2017-08-03 03:20
本文關(guān)鍵詞:Hadoop小文件存儲管理的研究與實(shí)現(xiàn)
更多相關(guān)文章: Hadoop HDFS 小文件 存儲 檢索 合并 索引
【摘要】:當(dāng)前,大數(shù)據(jù)時(shí)代中的數(shù)據(jù)信息呈爆炸式的增長,傳統(tǒng)的技術(shù)架構(gòu)已經(jīng)不能滿足處理海量數(shù)據(jù)的需求。Apache基金研發(fā)的Hadoop平臺迅速被應(yīng)用到各個(gè)領(lǐng)域中,成為了許多企業(yè)的首選。Hadoop作為一種海量數(shù)據(jù)分析處理平臺,具有高容錯(cuò)、易擴(kuò)展、廉價(jià)存儲等特點(diǎn),被設(shè)計(jì)用來存儲大文件的存儲系統(tǒng)。但伴隨著網(wǎng)絡(luò)社交和移動互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,產(chǎn)生了海量小文件,于是在研究應(yīng)用中HDFS也被應(yīng)用于小文件的存儲。由于HDFS采用主從式的架構(gòu)模式,海量的小文件產(chǎn)生的元數(shù)據(jù)給主節(jié)點(diǎn)帶來了沉重的內(nèi)存壓力,致使系統(tǒng)讀取效率低下,形成了性能瓶頸。 針對Hadoop平臺處理海量小文件問題具有的節(jié)點(diǎn)內(nèi)存消耗和讀取緩慢等缺點(diǎn),通過現(xiàn)有基于小文件合并的策略和量化分析,可以得到部分解決。但是相關(guān)處理方案的索引設(shè)計(jì)缺陷以及未考慮文件相關(guān)性,造成了小文件的讀取緩慢,NameNode負(fù)載過重,實(shí)用性不足等問題。論文針對Hadoop平臺處理海量小文件時(shí)NameNode內(nèi)存消耗過度和文件檢索效率低下的問題,在吸取其他研究者優(yōu)秀策略的基礎(chǔ)之上和在內(nèi)存消耗、訪問性能量化方法的基礎(chǔ)分析之上,提出了基于分鐘時(shí)間段的合并算法和多級索引的Hadoop處理小文件的優(yōu)化方案,該方案主要思想是依據(jù)小文件的創(chuàng)建時(shí)間,選擇對應(yīng)分鐘時(shí)間段內(nèi)的小文件進(jìn)行合并存儲,并且依據(jù)小文件創(chuàng)建時(shí)間到合并文件名稱之間的映射關(guān)系創(chuàng)建小文件到Block和Block所在的DataNode之間的全局索引。另外依據(jù)小文件名稱和擴(kuò)展名建立小文件到具體Block以及Block內(nèi)地址信息的Trie樹索引,并按照擴(kuò)展名對索引進(jìn)行分片,建立局部雙層索引機(jī)制,放置在DataNode內(nèi)存中以加快HDFS系統(tǒng)小文件檢索性能。論文給出了該優(yōu)化方案在Hadoop集群的具體實(shí)現(xiàn),包括小文件合并、MapReduce自定義輸入分片、全局索引和局部雙層索引的建立等相關(guān)算法的實(shí)現(xiàn),以及主從節(jié)點(diǎn)設(shè)置等技術(shù)問題的解決,此外,還對提出的小文件處理優(yōu)化方案進(jìn)行了量化分析。 通過對本文提出的小文件優(yōu)化方案與HAR歸檔技術(shù)進(jìn)行節(jié)點(diǎn)內(nèi)存消耗,小文件讀取速率和小文件合并寫入等指標(biāo)數(shù)據(jù)的對比測試與分析,實(shí)驗(yàn)結(jié)果表明,本文提出的小文件合并算法跟HAR歸檔技術(shù)一樣有效的降低了Hadoop處理小文件時(shí)的NameNode內(nèi)存消耗過多的問題。另外,多級索引機(jī)制則比HAR歸檔技術(shù)所具有的雙層索引更有效地減輕了檢索小文件時(shí)NameNode的內(nèi)存消耗,提高了系統(tǒng)檢索小文件的效率。
【關(guān)鍵詞】:Hadoop HDFS 小文件 存儲 檢索 合并 索引
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP333
【目錄】:
- 致謝5-6
- 摘要6-7
- ABSTRACT7-12
- 1 引言12-18
- 1.1 研究背景12-13
- 1.2 研究現(xiàn)狀13-15
- 1.2.1 Hadoop處理小文件的問題13
- 1.2.2 國內(nèi)外研究現(xiàn)狀13-15
- 1.3 研究內(nèi)容與意義15-16
- 1.4 本文的組織結(jié)構(gòu)16-18
- 2 相關(guān)技術(shù)研究18-28
- 2.1 Hadoop分布式平臺18-19
- 2.2 分布式文件系統(tǒng)HDFS19-25
- 2.2.1 名稱節(jié)點(diǎn)NameNode20-21
- 2.2.2 DataNode和Client21-22
- 2.2.3 節(jié)點(diǎn)間通信協(xié)議22-23
- 2.2.4 HDFS讀寫流程23-25
- 2.3 MapReduce編程模型25-26
- 2.4 Trie索引樹26-27
- 2.5 本章小結(jié)27-28
- 3 小文件處理優(yōu)化方案的設(shè)計(jì)28-38
- 3.1 HAR歸檔技術(shù)28-29
- 3.2 Hadoop小文件處理性能量化29-31
- 3.2.1 NameNode內(nèi)存消耗29-30
- 3.2.2 小文件訪問時(shí)間30-31
- 3.3 小文件存儲優(yōu)化設(shè)計(jì)31-33
- 3.3.1 小文件合并策略31-32
- 3.3.2 存儲流程設(shè)計(jì)32-33
- 3.4 小文件檢索優(yōu)化設(shè)計(jì)33-34
- 3.4.1 多級索引策略33
- 3.4.2 檢索流程設(shè)計(jì)33-34
- 3.5 小文件處理優(yōu)化方案的量化分析34-36
- 3.5.1 NameNode內(nèi)存消耗35-36
- 3.5.2 小文件讀寫性能36
- 3.6 本章小結(jié)36-38
- 4 小文件處理優(yōu)化方案的實(shí)現(xiàn)38-53
- 4.1 小文件合并38-42
- 4.1.1 小文件定義與檢測38-39
- 4.1.2 小文件合并算法39-40
- 4.1.3 MapReduce輸入分片自定義40-42
- 4.2 多級索引42-50
- 4.2.1 全局索引42-44
- 4.2.2 局部一級索引44-48
- 4.2.3 局部二級索引48-50
- 4.3 HDFS節(jié)點(diǎn)改進(jìn)50-52
- 4.3.1 局部索引的放置50-51
- 4.3.2 主從節(jié)點(diǎn)的修改51-52
- 4.4 本章小結(jié)52-53
- 5 測試與分析53-64
- 5.1 Hadoop平臺搭建53-56
- 5.1.1 集群搭建53-54
- 5.1.2 配置集群參數(shù)54-56
- 5.2 測試設(shè)計(jì)與準(zhǔn)備56-57
- 5.2.1 測試設(shè)計(jì)56-57
- 5.2.2 測試數(shù)據(jù)57
- 5.3 對比測試57-62
- 5.3.1 小文件合并寫入測試57-58
- 5.3.2 節(jié)點(diǎn)內(nèi)存消耗測試58-60
- 5.3.3 小文件訪問性能測試60-62
- 5.4 測試分析62-63
- 5.5 本章小結(jié)63-64
- 6 總結(jié)與展望64-66
- 6.1 工作總結(jié)64-65
- 6.2 研究展望65-66
- 參考文獻(xiàn)66-69
- 作者簡歷及攻讀碩士學(xué)位期間取得的研究成果69-71
- 學(xué)位論文數(shù)據(jù)集71
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前6條
1 董世曉;;云計(jì)算開源先鋒Hadoop——第四屆Hadoop中國云計(jì)算大會紀(jì)實(shí)[J];程序員;2010年10期
2 袁玉;崔超遠(yuǎn);烏云;陳祝紅;;單機(jī)下Hadoop小文件處理性能分析[J];計(jì)算機(jī)工程與應(yīng)用;2013年03期
3 張春明;芮建武;何婷婷;;一種Hadoop小文件存儲和讀取的方法[J];計(jì)算機(jī)應(yīng)用與軟件;2012年11期
4 陳吉榮;樂嘉錦;;基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J];計(jì)算機(jī)工程與科學(xué);2013年10期
5 王鈴惠;李小勇;張軼彬;;海量小文件存儲文件系統(tǒng)研究綜述[J];計(jì)算機(jī)應(yīng)用與軟件;2012年08期
6 陳康;鄭緯民;;云計(jì)算:系統(tǒng)實(shí)例與研究現(xiàn)狀[J];軟件學(xué)報(bào);2009年05期
,本文編號:612445
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/612445.html
最近更新
教材專著