HDFS分布式文件系統(tǒng)存儲策略研究
發(fā)布時間:2017-05-20 10:07
本文關(guān)鍵詞:HDFS分布式文件系統(tǒng)存儲策略研究,由筆耕文化傳播整理發(fā)布。
【摘要】:互聯(lián)網(wǎng)技術(shù)的高速發(fā)展和應(yīng)用,帶來了數(shù)據(jù)規(guī)模的爆炸式增長,使得大規(guī)模數(shù)據(jù)存儲和處理成為目前高性能計算領(lǐng)域的研究熱點(diǎn)。傳統(tǒng)的數(shù)據(jù)處理模式多用于計算密集型作業(yè)。分布式存儲的出現(xiàn)為海量的數(shù)據(jù)存儲提供了全新的解決方案,它以“按需付費(fèi)”的獨(dú)特模式,為用戶提供低成本、高可靠性、高性能的在線數(shù)據(jù)存儲和訪問服務(wù)。因此,如何在保證數(shù)據(jù)可用性和可靠性前提下高效存儲和訪問數(shù)據(jù),成為分布式存儲系統(tǒng)中尤為關(guān)鍵的一個問題。現(xiàn)有的數(shù)據(jù)副本決策算法主要是基于整個文件訪問情況進(jìn)行動態(tài)調(diào)整,然而,很多時候用戶僅僅對文件中的部分?jǐn)?shù)據(jù)塊感興趣,如果單純的基于整個文件進(jìn)行副本系數(shù)動態(tài)調(diào)整,有可能降低集群存儲資源利用率和增加數(shù)據(jù)副本一致性維護(hù)開銷。同時,在某些應(yīng)用場景下,如視頻點(diǎn)播應(yīng)用中,HDFS并沒有針對那些被用戶頻繁訪問的熱點(diǎn)數(shù)據(jù)進(jìn)行讀取優(yōu)化。重復(fù)數(shù)據(jù)的頻繁訪問會使得DataNode節(jié)點(diǎn)產(chǎn)生頻繁的磁盤I/O操作,增加數(shù)據(jù)訪問延遲。同時,由于數(shù)據(jù)的重復(fù)傳輸大大浪費(fèi)了集群系統(tǒng)網(wǎng)絡(luò)流量。針對上述問題,本文在HDFS分布式文件系統(tǒng)的數(shù)據(jù)副本管理策略和數(shù)據(jù)訪問流程兩方面展開深入研究。本文完成的主要工作如下:1.在深入分析現(xiàn)有分布式存儲系統(tǒng)數(shù)據(jù)副本管理技術(shù)的基礎(chǔ)上,提出了基于數(shù)據(jù)塊的副本系數(shù)動態(tài)調(diào)整策略。該策略基于數(shù)據(jù)塊而非整個文件實(shí)現(xiàn),首先,在數(shù)據(jù)訪問具有時間局部性原則下,通過為數(shù)據(jù)塊的各個歷史訪問周期賦予不同的權(quán)重,預(yù)測出數(shù)據(jù)塊下一周期的訪問頻率。然后,根據(jù)HDFS中數(shù)據(jù)訪問規(guī)律近似二八定律這一事實(shí)確定熱點(diǎn)數(shù)據(jù)塊閾值,從而對數(shù)據(jù)塊進(jìn)行熱點(diǎn)判定,根據(jù)判定結(jié)果動態(tài)調(diào)整數(shù)據(jù)塊副本系數(shù)。最后,通過實(shí)驗(yàn)對該策略的有效性進(jìn)行驗(yàn)證。2.在對HDFS文件讀取過程進(jìn)行深入分析后,針對HDFS中頻繁訪問的熱點(diǎn)數(shù)據(jù)提出了一種基于熱點(diǎn)數(shù)據(jù)塊的DataNode本地二級緩存策略。該策略通過在DataNode節(jié)點(diǎn)設(shè)置基于本地內(nèi)存和本地磁盤的二級緩存機(jī)制,分別用于緩存HDFS中那些被頻繁訪問的熱點(diǎn)小文件和熱點(diǎn)大文件。該策略一定程度上提高了數(shù)據(jù)訪問效率,減少了DataNode磁盤I/O負(fù)載以及節(jié)省了集群系統(tǒng)的網(wǎng)絡(luò)帶寬。最后,通過實(shí)驗(yàn)對該策略的有效性進(jìn)行驗(yàn)證。
【關(guān)鍵詞】:分布式存儲 HDFS 熱點(diǎn)數(shù)據(jù) 副本系數(shù)決策 Localcache
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP333
【目錄】:
- 摘要5-6
- ABSTRACT6-10
- 第一章 緒論10-16
- 1.1 研究背景及意義10-11
- 1.2 國內(nèi)外研究現(xiàn)狀11-13
- 1.3 課題來源和主要研究內(nèi)容13-14
- 1.4 論文組織結(jié)構(gòu)14-15
- 1.5 本章小結(jié)15-16
- 第二章 分布式存儲及副本管理相關(guān)技術(shù)16-29
- 2.1 分布式存儲概述16-20
- 2.1.1 分布式存儲概念16-17
- 2.1.2 分布式存儲架構(gòu)模型17
- 2.1.3 分布式存儲分層結(jié)構(gòu)模型17-19
- 2.1.4 典型的分布式存儲系統(tǒng)19-20
- 2.2 HDFS分布式文件系統(tǒng)架構(gòu)分析20-24
- 2.2.1 HDFS整體架構(gòu)20-21
- 2.2.2 HDFS關(guān)鍵實(shí)體21-22
- 2.2.3 HDFS數(shù)據(jù)讀寫機(jī)制22-23
- 2.2.4 HDFS健壯性23-24
- 2.3 數(shù)據(jù)副本管理技術(shù)24-27
- 2.3.1 數(shù)據(jù)副本技術(shù)概念24
- 2.3.2 數(shù)據(jù)副本管理策略分類24-26
- 2.3.3 數(shù)據(jù)副本管理技術(shù)優(yōu)點(diǎn)26
- 2.3.4 數(shù)據(jù)副本管理技術(shù)要點(diǎn)26-27
- 2.4 本章小結(jié)27-29
- 第三章 基于數(shù)據(jù)塊的動態(tài)副本調(diào)整策略29-52
- 3.1 現(xiàn)有副本系數(shù)決策算法29-30
- 3.2 基于數(shù)據(jù)塊的動態(tài)副本調(diào)整策略30-42
- 3.2.1 設(shè)計思想31-32
- 3.2.2 數(shù)據(jù)塊訪問頻率計算32-34
- 3.2.3 數(shù)據(jù)塊副本系數(shù)范圍34-38
- 3.2.4 數(shù)據(jù)塊副本數(shù)量的動態(tài)調(diào)整38-42
- 3.3 實(shí)驗(yàn)與結(jié)果分析42-51
- 3.3.1 實(shí)驗(yàn)?zāi)康?/span>42-43
- 3.3.2 實(shí)驗(yàn)環(huán)境43-44
- 3.3.3 實(shí)驗(yàn)設(shè)計與結(jié)果分析44-51
- 3.4 本章小結(jié)51-52
- 第四章 基于熱點(diǎn)數(shù)據(jù)塊的本地緩存策略52-75
- 4.1 HDFS數(shù)據(jù)讀取原理52-56
- 4.1.1 HDFS讀數(shù)據(jù)流程52-53
- 4.1.2 HDFS讀數(shù)據(jù)之獲取Block位置信息53-54
- 4.1.3 HDFS讀數(shù)據(jù)之讀取Block數(shù)據(jù)54-56
- 4.2 基于熱點(diǎn)數(shù)據(jù)塊的本地緩存策略56-67
- 4.2.1 HDFS數(shù)據(jù)訪問不足之處56-58
- 4.2.2 基于熱點(diǎn)數(shù)據(jù)塊的本地內(nèi)存緩存策略58-60
- 4.2.3 基于熱點(diǎn)數(shù)據(jù)塊的本地磁盤緩存策略60-63
- 4.2.4 基于熱點(diǎn)數(shù)據(jù)塊的本地二級緩存策略63-67
- 4.3 實(shí)驗(yàn)與結(jié)果分析67-73
- 4.3.1 實(shí)驗(yàn)?zāi)康?/span>67
- 4.3.2 實(shí)驗(yàn)環(huán)境67
- 4.3.3 實(shí)驗(yàn)設(shè)計與結(jié)果分析67-73
- 4.4 本章小結(jié)73-75
- 第五章 總結(jié)與展望75-77
- 5.1 全文總結(jié)75-76
- 5.2 未來工作展望76-77
- 致謝77-78
- 參考文獻(xiàn)78-82
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 何公明;張?jiān)獫?;面向數(shù)字媒體的高性能分布式存儲系統(tǒng)的研究與應(yīng)用[J];廣播電視信息;2009年10期
2 范劍波,郭建康;分布式存儲系統(tǒng)性能模型的建立與應(yīng)用[J];計算機(jī)工程與應(yīng)用;2001年13期
3 范劍波,徐利浩;分布式存儲系統(tǒng)可靠性的研究[J];計算機(jī)工程;2001年06期
4 吳英;謝廣軍;劉t,
本文編號:381303
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/381303.html
最近更新
教材專著