基于HDFS的分布式存儲研究與實現(xiàn)
發(fā)布時間:2017-09-27 10:19
本文關鍵詞:基于HDFS的分布式存儲研究與實現(xiàn)
更多相關文章: HDFS 分布式存儲 動態(tài)副本 副本放置
【摘要】:隨著信息化社會的快速發(fā)展,互聯(lián)網中的數(shù)據(jù)急劇膨脹。大規(guī)模的數(shù)據(jù)生產就必然伴隨著大規(guī)模的數(shù)據(jù)存儲,但傳統(tǒng)存儲方式很難突破其存儲限制,分布式存儲系統(tǒng)應運而生。Hadoop是由Apache軟件基金會開發(fā)的一個分布式計算框架,目前已廣泛應用于各大互聯(lián)網公司。Hadoop的核心是Map Reduce和HDFS,分別為數(shù)據(jù)提供計算和存儲服務。HDFS是Hadoop的分布式文件系統(tǒng),也是Google公司設計的GFS的一種開源實現(xiàn),所以其基本結構與GFS一致,都屬于主從模式。目前,由于Hadoop在云計算領域被越來越廣泛地使用,以及HDFS本身優(yōu)秀的存儲能力,HDFS受到了廣泛關注,許多公司和科研單位紛紛開展HDFS的研究工作。但是,HDFS仍有許多不完善的地方,它仍在不停地改進和更新。本文深入分析了HDFS的結構和運行機制,指出了其部分設計缺陷,針對HDFS的副本策略進行改進,主要工作如下:(1)HDFS默認的靜態(tài)副本冗余策略并不能區(qū)分熱點數(shù)據(jù),導致存放這些數(shù)據(jù)的節(jié)點成為集群的一個瓶頸。針對這一問題,本文提出了一種基于數(shù)據(jù)熱度的動態(tài)冗余策略。該策略統(tǒng)計并預測每個文件的訪問情況,并且每個文件的統(tǒng)計周期隨其訪問頻率的變化而變化,這樣能快速反映出數(shù)據(jù)熱度的趨勢,及時增加或減少副本。使用該策略能加快系統(tǒng)響應速度,提高集群的吞吐量,減少作業(yè)時間。(2)HDFS沒有考慮Data Node的異構性,如果性能差的節(jié)點存放了更多的數(shù)據(jù),那么讀取、處理數(shù)據(jù)時低性能節(jié)點需要承擔更多的負載,閑置了高性能節(jié)點的處理能力,負載分配不均衡。針對這一問題,本文提出了一種基于節(jié)點性能評價和網絡距離的放置策略。首先提供一個接口讓用戶自定義節(jié)點狀態(tài)信息并配置其權重,然后使用改進的TOPSIS算法評價節(jié)點,最后綜合網絡距離選擇節(jié)點放置副本。該策略允許用戶自行設置關注點,并且在此基礎上均衡各節(jié)點的負載,提高系統(tǒng)整體性能。(3)進行大量仿真和實驗,并且基于改進的HDFS集群開發(fā)了C/S模型的云存儲系統(tǒng),用HDFS默認策略對比本文的改進策略,實驗證明本文的改進策略能較好地提升集群性能。
【關鍵詞】:HDFS 分布式存儲 動態(tài)副本 副本放置
【學位授予單位】:電子科技大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP333
【目錄】:
- 摘要5-6
- ABSTRACT6-10
- 第一章 緒論10-16
- 1.1 研究背景10-12
- 1.2 國內外研究現(xiàn)狀以及意義12-14
- 1.3 論文主要工作內容14
- 1.4 論文組織結構14-16
- 第二章 分布式存儲關鍵技術16-25
- 2.1 網絡存儲技術簡介16-17
- 2.2 分布式存儲系統(tǒng)概述17
- 2.3 HDFS分布式文件系統(tǒng)17-24
- 2.3.1 HDFS的設計理念17-18
- 2.3.2 HDFS的體系結構18
- 2.3.3 Name Node與Data Node18-19
- 2.3.4 HDFS相關技術簡介19-24
- 2.4 本章小結24-25
- 第三章 一種基于熱點數(shù)據(jù)的動態(tài)副本策略25-41
- 3.1 HDFS的靜態(tài)副本策略25-26
- 3.2 典型的動態(tài)副本策略26-28
- 3.3 基于熱點的動態(tài)副本策略28-35
- 3.3.1 訪問增長率29-30
- 3.3.2 訪問比30-31
- 3.3.3 動態(tài)時間窗31-33
- 3.3.4 動態(tài)副本數(shù)33-34
- 3.3.5 副本選擇34-35
- 3.4 仿真實驗35-40
- 3.4.1 Optor Sim模擬測試35-38
- 3.4.2 副本選擇仿真38-39
- 3.4.3 小型集群環(huán)境39-40
- 3.5 本章小結40-41
- 第四章 一種基于節(jié)點狀態(tài)和節(jié)點距離的副本放置策略41-58
- 4.1 HDFS的副本放置策略41-44
- 4.1.1 HDFS網絡拓撲41-42
- 4.1.2 心跳機制42-43
- 4.1.3 機架感知43-44
- 4.2 改進算法描述44-53
- 4.2.1 設計思想44-46
- 4.2.2 更改心跳協(xié)議46-47
- 4.2.3 節(jié)點評價算法47-51
- 4.2.4 節(jié)點選擇51-53
- 4.3 仿真實驗53-57
- 4.3.1 算法性能測試53-54
- 4.3.2 單機架仿真54-55
- 4.3.3 多機架仿真55-57
- 4.4 本章小結57-58
- 第五章 基于HDFS的分布式存儲系統(tǒng)的設計與實現(xiàn)58-73
- 5.1 系統(tǒng)環(huán)境和結構58-61
- 5.1.1 總體結構介紹58-60
- 5.1.2 系統(tǒng)相關技術60-61
- 5.1.3 系統(tǒng)環(huán)境61
- 5.2 系統(tǒng)部署61-64
- 5.2.1 HDFS集群部署61-63
- 5.2.2 數(shù)據(jù)庫部署63
- 5.2.3 PROXY SERVER部署63-64
- 5.3 系統(tǒng)功能展示64-69
- 5.4 實驗驗證與分析69-72
- 5.4.1 動態(tài)副本實驗69-70
- 5.4.2 副本放置實驗70-72
- 5.5 本章小結72-73
- 第六章 總結與展望73-75
- 6.1 全文總結73
- 6.2 未來展望73-75
- 致謝75-76
- 參考文獻76-80
- 攻碩期間的研究成果80-81
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 朱媛媛;王曉京;;基于GE碼的HDFS優(yōu)化方案[J];計算機應用;2013年03期
2 李曉愷;代翔;李文杰;崔U,
本文編號:929127
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/929127.html
最近更新
教材專著