HDFS存儲機制的分析與研究

發(fā)布時間：2017-04-27 00:07

本文關鍵詞：HDFS存儲機制的分析與研究，由筆耕文化傳播整理發(fā)布。

【摘要】：近年來，互聯網中數據量激增，一般的文件系統(tǒng)無法存儲海量數據，為解決這個問題，研究人員提出了分布式文件系統(tǒng)的概念。目前國內外眾多知名企業(yè)使用Hadoop處理海量數據。Hadoop是一個可以處理和存儲海量數據的云計算平臺，它自行實現一個分布式文件系統(tǒng)HDFS。在HDFS中，存在一種稱為NameNode的元數據服務器用于存放整個HDFS的元數據信息，還有一種稱為DataNode的數據節(jié)點用于存放具體的文件數據。一個文件在HDFS中會有多個備份用于保證數據的可靠性，當數據損壞時，可以使用備份數據。本文對HDFS的存儲機制進行了分析與研究，主要是分析和研究HDFS中存在的兩個問題：大量小文件處理問題和元數據服務器的單點失效問題。針對小文件問題，本文首先分析了Archive歸檔工具和SequenceFile方案的優(yōu)點與不足，然后設計一種新的方案Multi-NameNode Cluster。Multi-NameNode不存在單個NameNode的內存性能瓶頸，并且不同的NameNode處理不同的文件請求，因此每個NameNode內存中存放不同文件的元數據，NameNode之間相互獨立，且一臺NameNode失效不影響其他NameNode的正常工作。最后對該方案進行了模擬實現，并將該方案和Archive方案進行對比實驗和結果分析。針對單點失效問題，，本文先對Hadoop1.x中的解決方案進行了介紹分析，然后著重分析Hadoop2.x中的QJM方案。QJM的原理在于集群中啟動兩個元數據服務器和一組日志服務器，處于活躍狀態(tài)的NameNode把日志寫入到日志服務器中，而處于等待狀態(tài)的NameNode則從日志服務器中讀取日志，從而兩者中的元數據可以達成一致。在一個NameNode失效后，另外一個NameNode可以快速的接管工作。最后提出RAID方案，在QJM方案的基礎上增加一個對日志存儲的保護措施，使用獨立磁盤陣列對Active NN寫入本地的日志進行備份，使得在發(fā)生主從切換時能最大程度的恢復日志。
【關鍵詞】：分布式文件系統(tǒng) 單點失效 雙機熱備 大量小文件處理
【學位授予單位】：武漢理工大學
【學位級別】：碩士
【學位授予年份】：2014
【分類號】：TP333
【目錄】：

摘要4-5
Abstract5-9
第1章緒論9-17
1.1 課題的研究背景及意義9-12
1.1.1 研究背景9-11
1.1.2 選題意義11-12
1.2 研究現狀及存在的問題12-15
1.2.1 HDFS 存儲機制的研究現狀12-14
1.2.2 存在問題的分析14-15
1.3 主要研究內容15
1.4 論文組織結構15-17
第2章 HDFS 中小文件處理方案17-31
2.1 小文件導致的問題17-18
2.2 傳統(tǒng)解決方法的分析18-22
2.2.1 Hadoop Archive 方法18-19
2.2.2 SequenceFile 方法19-22
2.3 Multi-NameNode Cluster 方案的設計22-30
2.3.1 Multi-NameNode 的總體設計22-26
2.3.2 集群中節(jié)點的抽象描述26-28
2.3.3 NameNode 內存中元數據結構的改進28-29
2.3.4 Multi-NameNode 性能的理論分析29-30
2.4 小結30-31
第3章 HDFS 集群單點失效問題的分析31-43
3.1 Secondary NameNode 的功能31-32
3.2 QJM 方案的原理分析32-37
3.2.1 QJM 方案中 NameNode 的啟動分析33
3.2.2 fsimage 與 edits 的文件名形式33-34
3.2.3 主從切換時的日志恢復34-37
3.3 基于 QJM 的獨立磁盤陣列方案的探討37-42
3.3.1 QJM 方案的不足之處37
3.3.2 基于 QJM 的獨立磁盤陣列方案的設計37-41
3.3.3 RAID1 磁盤陣列備份機制的模擬41-42
3.4 小結42-43
第4章實驗結果與分析43-58
4.1 實驗環(huán)境的配置和 Hadoop 的部署43-47
4.2 Multi-NameNode Cluster 的實驗結果和分析47-54
4.2.1 使用多線程模擬客戶端的并發(fā)請求47-48
4.2.2 模擬實現的正確性驗證48-50
4.2.3 對比實驗和結果分析50-54
4.3 基于 QJM 的 RAID 方案的實驗和結果分析54-57
4.3.1 確定 QJM 日志恢復失敗的標準54
4.3.2 實驗結果和分析54-57
4.4 小結57-58
第5章總結與展望58-60
5.1 總結58-59
5.2 展望59-60
致謝60-61
參考文獻61-63

【參考文獻】

中國期刊全文數據庫前2條

1 陳康;鄭緯民;;云計算:系統(tǒng)實例與研究現狀[J];軟件學報;2009年05期

2 王意潔;孫偉東;周松;裴曉強;李小勇;;云計算環(huán)境下的分布存儲關鍵技術[J];軟件學報;2012年04期

本文關鍵詞：HDFS存儲機制的分析與研究，由筆耕文化傳播整理發(fā)布。

本文編號：329498

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/329498.html

上一篇：戴爾中國公司發(fā)展戰(zhàn)略研究
下一篇：基于SWP接口的NFC-SIM芯片的測試方法及驗證

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

HDFS存儲機制的分析與研究