基于HDFS的云存儲(chǔ)系統(tǒng)的實(shí)現(xiàn)與優(yōu)化
本文關(guān)鍵詞:基于HDFS的云存儲(chǔ)系統(tǒng)的實(shí)現(xiàn)與優(yōu)化
更多相關(guān)文章: 云存儲(chǔ) HDFS 小文件存儲(chǔ) 高可用性 B/S NFS
【摘要】:隨著互聯(lián)網(wǎng)的高速發(fā)展,數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng),海量數(shù)據(jù)的存儲(chǔ)與分析已成為非常熱門的研究領(lǐng)域。Hadoop分布式文件系統(tǒng)HDFS是一個(gè)可擴(kuò)展的分布式文件系統(tǒng),可以在廉價(jià)的硬件上運(yùn)行,并具有可靠的容錯(cuò)能力,正受到越來(lái)越多的企業(yè)和科研機(jī)構(gòu)青睞。目前,基于HDFS研發(fā)云存儲(chǔ)系統(tǒng)、解決大規(guī)模數(shù)據(jù)存儲(chǔ)的需求也越來(lái)越多。本文研究的正是基于HDFS設(shè)計(jì)“合肥城市云”存儲(chǔ)系統(tǒng)。然而,由于HDFS本身的架構(gòu)設(shè)計(jì),大量的小文件存儲(chǔ)會(huì)給名字節(jié)點(diǎn)Namenode造成巨大的內(nèi)存壓力,從而限制了集群的文件存儲(chǔ)數(shù)量和讀寫效率。Namenode的單點(diǎn)故障問(wèn)題也會(huì)影響到HDFS的高可用性。為了解決以上問(wèn)題,在進(jìn)行大量調(diào)研和學(xué)習(xí)]HDFS系統(tǒng)架構(gòu)和內(nèi)部流程的實(shí)現(xiàn)機(jī)制的基礎(chǔ)上,提出有效解決方案。本文的主要工作如下:1、針對(duì)小文件存儲(chǔ)問(wèn)題,提出了ABFM優(yōu)化方案。根據(jù)文件之間的相關(guān)性按優(yōu)先級(jí)高低合并后再上傳,并生成索引記錄。加入隨機(jī)化思想,采用兩級(jí)緩存策略,將預(yù)提取的小文件緩存在內(nèi)存池中。系統(tǒng)會(huì)定期查詢?cè)L問(wèn)日志,動(dòng)態(tài)調(diào)整預(yù)提取概率。和默認(rèn)方案、系統(tǒng)自帶的HAR方案進(jìn)行實(shí)驗(yàn)對(duì)比,結(jié)果表明,ABFM策略能有效提高小文件訪問(wèn)效率,降低名字節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)的內(nèi)存開(kāi)銷。2、針對(duì)Namenode單點(diǎn)故障問(wèn)題,調(diào)研了幾種主流的解決方案,最終選取基于QJM的Namenode高可用方案。深入學(xué)習(xí)該方案的系統(tǒng)架構(gòu)和內(nèi)部原理,詳細(xì)描述了搭建過(guò)程,并給出了搭建成功后的系統(tǒng)界面效果展示。3、結(jié)合企業(yè)需求,設(shè)計(jì)并實(shí)現(xiàn)了基于高可用HDFS的“合肥城市云”存儲(chǔ)系統(tǒng)。系統(tǒng)共有三個(gè)模塊,分別是加入了小文件優(yōu)化方案的B/S訪問(wèn)模塊、NFS訪問(wèn)模塊和后臺(tái)管理系統(tǒng)模塊。用戶可以通過(guò)B/S模式和NFS模式訪問(wèn)云存儲(chǔ)系統(tǒng)。系統(tǒng)管理員能夠?qū)τ脩暨M(jìn)行安全認(rèn)證、配額管理、凍結(jié)和解凍以及處理擴(kuò)容請(qǐng)求等操作,有效彌補(bǔ)了]HDFS這些方面的不足,方便企業(yè)、用戶使用和管理。4、采用黑盒測(cè)試方法,對(duì)“合肥城市云”系統(tǒng)的B/S訪問(wèn)模式和NFS訪問(wèn)模式進(jìn)行功能測(cè)試和性能測(cè)試,保證系統(tǒng)能夠滿足設(shè)計(jì)需求。分析這兩者在文件上傳和文件下載性能差異的原因,證實(shí)作者的優(yōu)化策略的有效性。綜上,本文提出了ABFM優(yōu)化方案,有效解決]HDFS存儲(chǔ)海量小文件的性能問(wèn)題;搭建基于QJM的Namenode高可用方案,保證HDFS的高可用性;并基于此設(shè)計(jì)和實(shí)現(xiàn)了“合肥城市云”存儲(chǔ)系統(tǒng),為科大國(guó)禎(城市云數(shù)據(jù)中心)提供高效、穩(wěn)定地?cái)?shù)據(jù)存儲(chǔ)和管理服務(wù)。
【關(guān)鍵詞】:云存儲(chǔ) HDFS 小文件存儲(chǔ) 高可用性 B/S NFS
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP333
【目錄】:
- 摘要5-6
- ABSTRACT6-15
- 第1章 緒論15-21
- 1.1 研究背景15-17
- 1.1.1 云存儲(chǔ)的概念15
- 1.1.2 云存儲(chǔ)的優(yōu)勢(shì)15-17
- 1.2 研究?jī)?nèi)容和意義17-18
- 1.2.1 研究?jī)?nèi)容17
- 1.2.2 研究意義17-18
- 1.3 研究現(xiàn)狀18-19
- 1.4 本文結(jié)構(gòu)安排19-21
- 第2章 HDFS系統(tǒng)介紹21-31
- 2.1 HDFS系統(tǒng)概述21-24
- 2.1.1 體系結(jié)構(gòu)21-22
- 2.1.2 模塊介紹22-23
- 2.1.3 主要特性23-24
- 2.2 要流程分析24-28
- 2.2.1 客戶端元數(shù)據(jù)操作24
- 2.2.2 客戶端讀文件24-25
- 2.2.3 客戶端寫文件25-27
- 2.2.4 Datanode的啟動(dòng)和心跳機(jī)制27
- 2.2.5 Secondary Namenode合并元數(shù)據(jù)27-28
- 2.3 存儲(chǔ)技術(shù)分析28-30
- 2.3.1 HDFS的備份策略28-29
- 2.3.2 HDFS的容錯(cuò)機(jī)制29
- 2.3.3 HDFS的負(fù)載均衡29-30
- 2.4 HDFS存在的缺陷30
- 2.4.1 Namenode內(nèi)存限制問(wèn)題30
- 2.4.2 Namenode單點(diǎn)故障問(wèn)題30
- 2.5 本章小結(jié)30-31
- 第3章 小文件存儲(chǔ)問(wèn)題優(yōu)化31-45
- 3.1 小文件存儲(chǔ)問(wèn)題31
- 3.2 Hadoop自帶的方案31-33
- 3.2.1 Hadoop Archive31-32
- 3.2.2 Sequence File和Map File32-33
- 3.3 ABFM優(yōu)化方案33-40
- 3.3.1 文件合并策略33
- 3.3.2 索引文件33-34
- 3.3.3 緩存策略34-35
- 3.3.4 動(dòng)態(tài)調(diào)整策略35-36
- 3.3.5 系統(tǒng)實(shí)現(xiàn)36-40
- 3.4 實(shí)驗(yàn)結(jié)果對(duì)比及分析40-45
- 3.4.1 實(shí)驗(yàn)環(huán)境40
- 3.4.2 實(shí)驗(yàn)數(shù)據(jù)集40-41
- 3.4.3 實(shí)驗(yàn)結(jié)果對(duì)比41-43
- 3.4.4 總結(jié)分析43-45
- 第4章 Namenode高可用方案45-55
- 4.1 Namenode單一故障問(wèn)題45-46
- 4.1.1 問(wèn)題分析45
- 4.1.2 解決方案對(duì)比45-46
- 4.2 基于QJM的Namenode高可用方案46-51
- 4.2.1 集群架構(gòu)介紹46-47
- 4.2.2 QJM共享存儲(chǔ)結(jié)構(gòu)介紹47-48
- 4.2.3 Namenode主備切換實(shí)現(xiàn)分析48-49
- 4.2.4 QJM共享存儲(chǔ)實(shí)現(xiàn)分析49-51
- 4.3 集群搭建與效果展示51-54
- 4.4 本章小結(jié)54-55
- 第5章 “合肥城市云”系統(tǒng)設(shè)計(jì)與展示55-73
- 5.1 云存儲(chǔ)平臺(tái)架構(gòu)設(shè)計(jì)55-57
- 5.1.1 總體框架55-56
- 5.1.2 B/S模式對(duì)比NFS模式56-57
- 5.2 云存儲(chǔ)平臺(tái)環(huán)境搭建57-58
- 5.2.1 Hadoop集群搭建57
- 5.2.2 Web服務(wù)器集群搭建57-58
- 5.3 B/S模式的功能及實(shí)現(xiàn)58-64
- 5.3.1 功能列表58-60
- 5.3.2 文件上傳60-61
- 5.3.3 文件下載61-62
- 5.3.4 文件共享62-63
- 5.3.5 文件搜索63-64
- 5.3.6 文件的其他操作64
- 5.4 NFS模式的功能及實(shí)現(xiàn)64-65
- 5.4.1 功能列表64
- 5.4.2 用戶目錄掛載64-65
- 5.4.3 文件操作65
- 5.5 云存儲(chǔ)平臺(tái)系統(tǒng)展示65-71
- 5.5.1 B/S模式云存儲(chǔ)平臺(tái)展示65-68
- 5.5.2 B/S模式管理系統(tǒng)展示68-69
- 5.5.3 NFS模式云存儲(chǔ)平臺(tái)展示69-71
- 5.6 本章小結(jié)71-73
- 第6章 系統(tǒng)測(cè)試與分析73-79
- 6.1 測(cè)試方法介紹73
- 6.2 功能測(cè)試與分析73-74
- 6.2.1 登陸功能測(cè)試73
- 6.2.2 文件上傳功能測(cè)試73-74
- 6.2.3 文件下載功能測(cè)試74
- 6.3 性能測(cè)試與分析74-77
- 6.3.1 文件上傳性能測(cè)試75-76
- 6.3.2 文件下載性能測(cè)試76-77
- 6.4 本章小結(jié)77-79
- 第7章 總結(jié)與展望79-81
- 7.1 論文總結(jié)79-80
- 7.2 工作展望80-81
- 參考文獻(xiàn)81-85
- 致謝85-87
- 在讀期間發(fā)表的學(xué)術(shù)論文與取得的研究成果87
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前7條
1 洪旭升;林世平;;基于MapFile的HDFS小文件存儲(chǔ)效率問(wèn)題[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2012年11期
2 張春明;芮建武;何婷婷;;一種Hadoop小文件存儲(chǔ)和讀取的方法[J];計(jì)算機(jī)應(yīng)用與軟件;2012年11期
3 鄧鵬;李枚毅;何誠(chéng);;Namenode單點(diǎn)故障解決方案研究[J];計(jì)算機(jī)工程;2012年21期
4 劉金芝;余丹;朱率率;;一種新的云存儲(chǔ)服務(wù)模型研究[J];計(jì)算機(jī)應(yīng)用研究;2011年05期
5 劉貝;湯斌;;云存儲(chǔ)原理及發(fā)展趨勢(shì)[J];科技信息;2011年05期
6 謝謙 ,張立強(qiáng) ,吳健 ,孫玉芳;Linux標(biāo)準(zhǔn)化國(guó)際動(dòng)態(tài)[J];信息技術(shù)與標(biāo)準(zhǔn)化;2004年12期
7 向華;關(guān)于白盒測(cè)試基本方法的分析[J];江漢大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年01期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前7條
1 王勇濤;基于POSIX語(yǔ)義的分布式文件系統(tǒng)客戶端設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2013年
2 王永洲;基于HDFS的存儲(chǔ)技術(shù)的研究[D];南京郵電大學(xué);2013年
3 邰建華;Hadoop平臺(tái)下的海量數(shù)據(jù)存儲(chǔ)技術(shù)研究[D];東北石油大學(xué);2012年
4 陳虎;基于HDFS的云存儲(chǔ)平臺(tái)的優(yōu)化與實(shí)現(xiàn)[D];華南理工大學(xué);2012年
5 付東華;基于HDFS的海量分布式文件系統(tǒng)的研究與優(yōu)化[D];北京郵電大學(xué);2012年
6 童明;基于HDFS的分布式存儲(chǔ)研究與應(yīng)用[D];華中科技大學(xué);2012年
7 阮航;基于NAS的網(wǎng)絡(luò)文件安全存儲(chǔ)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];東北大學(xué);2011年
,本文編號(hào):597411
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/597411.html