Hadoop小文件存儲管理的研究與實(shí)現(xiàn)

發(fā)布時(shí)間：2017-08-03 03:20

本文關(guān)鍵詞：Hadoop小文件存儲管理的研究與實(shí)現(xiàn)

更多相關(guān)文章： Hadoop HDFS 小文件 存儲檢索合并索引

【摘要】：當(dāng)前,大數(shù)據(jù)時(shí)代中的數(shù)據(jù)信息呈爆炸式的增長,傳統(tǒng)的技術(shù)架構(gòu)已經(jīng)不能滿足處理海量數(shù)據(jù)的需求。Apache基金研發(fā)的Hadoop平臺迅速被應(yīng)用到各個(gè)領(lǐng)域中,成為了許多企業(yè)的首選。Hadoop作為一種海量數(shù)據(jù)分析處理平臺,具有高容錯(cuò)、易擴(kuò)展、廉價(jià)存儲等特點(diǎn),被設(shè)計(jì)用來存儲大文件的存儲系統(tǒng)。但伴隨著網(wǎng)絡(luò)社交和移動互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,產(chǎn)生了海量小文件,于是在研究應(yīng)用中HDFS也被應(yīng)用于小文件的存儲。由于HDFS采用主從式的架構(gòu)模式,海量的小文件產(chǎn)生的元數(shù)據(jù)給主節(jié)點(diǎn)帶來了沉重的內(nèi)存壓力,致使系統(tǒng)讀取效率低下,形成了性能瓶頸。針對Hadoop平臺處理海量小文件問題具有的節(jié)點(diǎn)內(nèi)存消耗和讀取緩慢等缺點(diǎn),通過現(xiàn)有基于小文件合并的策略和量化分析,可以得到部分解決。但是相關(guān)處理方案的索引設(shè)計(jì)缺陷以及未考慮文件相關(guān)性,造成了小文件的讀取緩慢,NameNode負(fù)載過重,實(shí)用性不足等問題。論文針對Hadoop平臺處理海量小文件時(shí)NameNode內(nèi)存消耗過度和文件檢索效率低下的問題,在吸取其他研究者優(yōu)秀策略的基礎(chǔ)之上和在內(nèi)存消耗、訪問性能量化方法的基礎(chǔ)分析之上,提出了基于分鐘時(shí)間段的合并算法和多級索引的Hadoop處理小文件的優(yōu)化方案,該方案主要思想是依據(jù)小文件的創(chuàng)建時(shí)間,選擇對應(yīng)分鐘時(shí)間段內(nèi)的小文件進(jìn)行合并存儲,并且依據(jù)小文件創(chuàng)建時(shí)間到合并文件名稱之間的映射關(guān)系創(chuàng)建小文件到Block和Block所在的DataNode之間的全局索引。另外依據(jù)小文件名稱和擴(kuò)展名建立小文件到具體Block以及Block內(nèi)地址信息的Trie樹索引,并按照擴(kuò)展名對索引進(jìn)行分片,建立局部雙層索引機(jī)制,放置在DataNode內(nèi)存中以加快HDFS系統(tǒng)小文件檢索性能。論文給出了該優(yōu)化方案在Hadoop集群的具體實(shí)現(xiàn),包括小文件合并、MapReduce自定義輸入分片、全局索引和局部雙層索引的建立等相關(guān)算法的實(shí)現(xiàn),以及主從節(jié)點(diǎn)設(shè)置等技術(shù)問題的解決,此外,還對提出的小文件處理優(yōu)化方案進(jìn)行了量化分析。通過對本文提出的小文件優(yōu)化方案與HAR歸檔技術(shù)進(jìn)行節(jié)點(diǎn)內(nèi)存消耗,小文件讀取速率和小文件合并寫入等指標(biāo)數(shù)據(jù)的對比測試與分析,實(shí)驗(yàn)結(jié)果表明,本文提出的小文件合并算法跟HAR歸檔技術(shù)一樣有效的降低了Hadoop處理小文件時(shí)的NameNode內(nèi)存消耗過多的問題。另外,多級索引機(jī)制則比HAR歸檔技術(shù)所具有的雙層索引更有效地減輕了檢索小文件時(shí)NameNode的內(nèi)存消耗,提高了系統(tǒng)檢索小文件的效率。
【關(guān)鍵詞】：Hadoop HDFS 小文件 存儲檢索合并索引
【學(xué)位授予單位】：北京交通大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2015
【分類號】：TP333
【目錄】：

致謝5-6
摘要6-7
ABSTRACT7-12
1 引言12-18
1.1 研究背景12-13
1.2 研究現(xiàn)狀13-15
1.2.1 Hadoop處理小文件的問題13
1.2.2 國內(nèi)外研究現(xiàn)狀13-15
1.3 研究內(nèi)容與意義15-16
1.4 本文的組織結(jié)構(gòu)16-18
2 相關(guān)技術(shù)研究18-28
2.1 Hadoop分布式平臺18-19
2.2 分布式文件系統(tǒng)HDFS19-25
2.2.1 名稱節(jié)點(diǎn)NameNode20-21
2.2.2 DataNode和Client21-22
2.2.3 節(jié)點(diǎn)間通信協(xié)議22-23
2.2.4 HDFS讀寫流程23-25
2.3 MapReduce編程模型25-26
2.4 Trie索引樹26-27
2.5 本章小結(jié)27-28
3 小文件處理優(yōu)化方案的設(shè)計(jì)28-38
3.1 HAR歸檔技術(shù)28-29
3.2 Hadoop小文件處理性能量化29-31
3.2.1 NameNode內(nèi)存消耗29-30
3.2.2 小文件訪問時(shí)間30-31
3.3 小文件存儲優(yōu)化設(shè)計(jì)31-33
3.3.1 小文件合并策略31-32
3.3.2 存儲流程設(shè)計(jì)32-33
3.4 小文件檢索優(yōu)化設(shè)計(jì)33-34
3.4.1 多級索引策略33
3.4.2 檢索流程設(shè)計(jì)33-34
3.5 小文件處理優(yōu)化方案的量化分析34-36
3.5.1 NameNode內(nèi)存消耗35-36
3.5.2 小文件讀寫性能36
3.6 本章小結(jié)36-38
4 小文件處理優(yōu)化方案的實(shí)現(xiàn)38-53
4.1 小文件合并38-42
4.1.1 小文件定義與檢測38-39
4.1.2 小文件合并算法39-40
4.1.3 MapReduce輸入分片自定義40-42
4.2 多級索引42-50
4.2.1 全局索引42-44
4.2.2 局部一級索引44-48
4.2.3 局部二級索引48-50
4.3 HDFS節(jié)點(diǎn)改進(jìn)50-52
4.3.1 局部索引的放置50-51
4.3.2 主從節(jié)點(diǎn)的修改51-52
4.4 本章小結(jié)52-53
5 測試與分析53-64
5.1 Hadoop平臺搭建53-56
5.1.1 集群搭建53-54
5.1.2 配置集群參數(shù)54-56
5.2 測試設(shè)計(jì)與準(zhǔn)備56-57
5.2.1 測試設(shè)計(jì)56-57
5.2.2 測試數(shù)據(jù)57
5.3 對比測試57-62
5.3.1 小文件合并寫入測試57-58
5.3.2 節(jié)點(diǎn)內(nèi)存消耗測試58-60
5.3.3 小文件訪問性能測試60-62
5.4 測試分析62-63
5.5 本章小結(jié)63-64
6 總結(jié)與展望64-66
6.1 工作總結(jié)64-65
6.2 研究展望65-66
參考文獻(xiàn)66-69
作者簡歷及攻讀碩士學(xué)位期間取得的研究成果69-71
學(xué)位論文數(shù)據(jù)集71

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前6條

1 董世曉;;云計(jì)算開源先鋒Hadoop——第四屆Hadoop中國云計(jì)算大會紀(jì)實(shí)[J];程序員;2010年10期

2 袁玉;崔超遠(yuǎn);烏云;陳祝紅;;單機(jī)下Hadoop小文件處理性能分析[J];計(jì)算機(jī)工程與應(yīng)用;2013年03期

3 張春明;芮建武;何婷婷;;一種Hadoop小文件存儲和讀取的方法[J];計(jì)算機(jī)應(yīng)用與軟件;2012年11期

4 陳吉榮;樂嘉錦;;基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J];計(jì)算機(jī)工程與科學(xué);2013年10期

5 王鈴惠;李小勇;張軼彬;;海量小文件存儲文件系統(tǒng)研究綜述[J];計(jì)算機(jī)應(yīng)用與軟件;2012年08期

6 陳康;鄭緯民;;云計(jì)算:系統(tǒng)實(shí)例與研究現(xiàn)狀[J];軟件學(xué)報(bào);2009年05期

，

本文編號：612445

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/612445.html

上一篇：基于概率模型檢測的動態(tài)系統(tǒng)領(lǐng)導(dǎo)者選舉協(xié)議分析與驗(yàn)證
下一篇：基于單片機(jī)和RS485總線的溫度監(jiān)測系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

Hadoop小文件存儲管理的研究與實(shí)現(xiàn)