HDFS存儲機制的分析與研究
發(fā)布時間:2017-04-27 00:07
本文關(guān)鍵詞:HDFS存儲機制的分析與研究,由筆耕文化傳播整理發(fā)布。
【摘要】:近年來,互聯(lián)網(wǎng)中數(shù)據(jù)量激增,一般的文件系統(tǒng)無法存儲海量數(shù)據(jù),為解決這個問題,研究人員提出了分布式文件系統(tǒng)的概念。目前國內(nèi)外眾多知名企業(yè)使用Hadoop處理海量數(shù)據(jù)。Hadoop是一個可以處理和存儲海量數(shù)據(jù)的云計算平臺,它自行實現(xiàn)一個分布式文件系統(tǒng)HDFS。在HDFS中,存在一種稱為NameNode的元數(shù)據(jù)服務(wù)器用于存放整個HDFS的元數(shù)據(jù)信息,還有一種稱為DataNode的數(shù)據(jù)節(jié)點用于存放具體的文件數(shù)據(jù)。一個文件在HDFS中會有多個備份用于保證數(shù)據(jù)的可靠性,當數(shù)據(jù)損壞時,可以使用備份數(shù)據(jù)。 本文對HDFS的存儲機制進行了分析與研究,主要是分析和研究HDFS中存在的兩個問題:大量小文件處理問題和元數(shù)據(jù)服務(wù)器的單點失效問題。 針對小文件問題,本文首先分析了Archive歸檔工具和SequenceFile方案的優(yōu)點與不足,然后設(shè)計一種新的方案Multi-NameNode Cluster。Multi-NameNode不存在單個NameNode的內(nèi)存性能瓶頸,并且不同的NameNode處理不同的文件請求,因此每個NameNode內(nèi)存中存放不同文件的元數(shù)據(jù),NameNode之間相互獨立,且一臺NameNode失效不影響其他NameNode的正常工作。最后對該方案進行了模擬實現(xiàn),并將該方案和Archive方案進行對比實驗和結(jié)果分析。 針對單點失效問題,,本文先對Hadoop1.x中的解決方案進行了介紹分析,然后著重分析Hadoop2.x中的QJM方案。QJM的原理在于集群中啟動兩個元數(shù)據(jù)服務(wù)器和一組日志服務(wù)器,處于活躍狀態(tài)的NameNode把日志寫入到日志服務(wù)器中,而處于等待狀態(tài)的NameNode則從日志服務(wù)器中讀取日志,從而兩者中的元數(shù)據(jù)可以達成一致。在一個NameNode失效后,另外一個NameNode可以快速的接管工作。最后提出RAID方案,在QJM方案的基礎(chǔ)上增加一個對日志存儲的保護措施,使用獨立磁盤陣列對Active NN寫入本地的日志進行備份,使得在發(fā)生主從切換時能最大程度的恢復(fù)日志。
【關(guān)鍵詞】:分布式文件系統(tǒng) 單點失效 雙機熱備 大量小文件處理
【學位授予單位】:武漢理工大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP333
【目錄】:
- 摘要4-5
- Abstract5-9
- 第1章 緒論9-17
- 1.1 課題的研究背景及意義9-12
- 1.1.1 研究背景9-11
- 1.1.2 選題意義11-12
- 1.2 研究現(xiàn)狀及存在的問題12-15
- 1.2.1 HDFS 存儲機制的研究現(xiàn)狀12-14
- 1.2.2 存在問題的分析14-15
- 1.3 主要研究內(nèi)容15
- 1.4 論文組織結(jié)構(gòu)15-17
- 第2章 HDFS 中小文件處理方案17-31
- 2.1 小文件導(dǎo)致的問題17-18
- 2.2 傳統(tǒng)解決方法的分析18-22
- 2.2.1 Hadoop Archive 方法18-19
- 2.2.2 SequenceFile 方法19-22
- 2.3 Multi-NameNode Cluster 方案的設(shè)計22-30
- 2.3.1 Multi-NameNode 的總體設(shè)計22-26
- 2.3.2 集群中節(jié)點的抽象描述26-28
- 2.3.3 NameNode 內(nèi)存中元數(shù)據(jù)結(jié)構(gòu)的改進28-29
- 2.3.4 Multi-NameNode 性能的理論分析29-30
- 2.4 小結(jié)30-31
- 第3章 HDFS 集群單點失效問題的分析31-43
- 3.1 Secondary NameNode 的功能31-32
- 3.2 QJM 方案的原理分析32-37
- 3.2.1 QJM 方案中 NameNode 的啟動分析33
- 3.2.2 fsimage 與 edits 的文件名形式33-34
- 3.2.3 主從切換時的日志恢復(fù)34-37
- 3.3 基于 QJM 的獨立磁盤陣列方案的探討37-42
- 3.3.1 QJM 方案的不足之處37
- 3.3.2 基于 QJM 的獨立磁盤陣列方案的設(shè)計37-41
- 3.3.3 RAID1 磁盤陣列備份機制的模擬41-42
- 3.4 小結(jié)42-43
- 第4章 實驗結(jié)果與分析43-58
- 4.1 實驗環(huán)境的配置和 Hadoop 的部署43-47
- 4.2 Multi-NameNode Cluster 的實驗結(jié)果和分析47-54
- 4.2.1 使用多線程模擬客戶端的并發(fā)請求47-48
- 4.2.2 模擬實現(xiàn)的正確性驗證48-50
- 4.2.3 對比實驗和結(jié)果分析50-54
- 4.3 基于 QJM 的 RAID 方案的實驗和結(jié)果分析54-57
- 4.3.1 確定 QJM 日志恢復(fù)失敗的標準54
- 4.3.2 實驗結(jié)果和分析54-57
- 4.4 小結(jié)57-58
- 第5章 總結(jié)與展望58-60
- 5.1 總結(jié)58-59
- 5.2 展望59-60
- 致謝60-61
- 參考文獻61-63
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 陳康;鄭緯民;;云計算:系統(tǒng)實例與研究現(xiàn)狀[J];軟件學報;2009年05期
2 王意潔;孫偉東;周松;裴曉強;李小勇;;云計算環(huán)境下的分布存儲關(guān)鍵技術(shù)[J];軟件學報;2012年04期
本文關(guān)鍵詞:HDFS存儲機制的分析與研究,由筆耕文化傳播整理發(fā)布。
本文編號:329498
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/329498.html
最近更新
教材專著