基于冗余機(jī)制的分布式存儲系統(tǒng)性能優(yōu)化研究
發(fā)布時間:2017-05-08 14:27
本文關(guān)鍵詞:基于冗余機(jī)制的分布式存儲系統(tǒng)性能優(yōu)化研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,我們已經(jīng)步入了大數(shù)據(jù)時代。在與日俱增的數(shù)據(jù)規(guī)模面前,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫顯得無能無力,而分布式計算和分布式存儲技術(shù)受到廣泛關(guān)注。分布式存儲是分布式計算的存儲部分,是易于擴(kuò)展的、虛擬化的存儲資源池。為了滿足大規(guī)模存儲應(yīng)用的需求,提供可靠的海量數(shù)據(jù)存儲服務(wù),分布式存儲系統(tǒng)使用冗余機(jī)制來保障數(shù)據(jù)的高可用性和可靠性。副本和編碼是分布式存儲系統(tǒng)目前主要的兩種冗余機(jī)制。副本即對文件進(jìn)行拷貝,而編碼是通過對文件塊進(jìn)行線性或非線性處理生成編碼塊的冗余技術(shù)。由于數(shù)據(jù)規(guī)模異常龐大,采用副本冗余機(jī)制導(dǎo)致分布式存儲系統(tǒng)需要付出巨大的存儲空間開銷。雖然編碼冗余機(jī)制可以降低存儲空間開銷,但它需要額外的編解碼時間對數(shù)據(jù)進(jìn)行修復(fù)。面對這些高昂而又無法避免的額外開銷,我們可以利用不同的冗余機(jī)制來優(yōu)化分布式存儲系統(tǒng)其他方面的性能,如通過副本降低分布式系統(tǒng)能耗和利用編碼冗余機(jī)制減少文件修復(fù)時間。本文主要研究了分布式存儲系統(tǒng)的副本和編碼兩種冗余機(jī)制。針對使用副本作為冗余機(jī)制的分布式文件系統(tǒng)HDFS,我們設(shè)計了一種節(jié)能策略來降低分布式存儲系統(tǒng)的能耗。這部分的工作主要包含兩部分:節(jié)能的文件備份策略(EFR)和節(jié)能的作業(yè)調(diào)度策略(EJS)。為了讓EJS達(dá)到降低能耗的目的,EFR使用了一種簡單又有效的方式去放置文件的文件塊。針對使用編碼作為冗余機(jī)制的網(wǎng)絡(luò)異構(gòu)環(huán)境下的分布式存儲系統(tǒng),我們提出了一種能夠降低文件修復(fù)時間的彈性樹形結(jié)構(gòu)再生碼算法FTR。為了驗證FTR算法的可用性和有效性,我們開發(fā)了一個實(shí)際的基于再生碼的分布式文件存儲系統(tǒng)RCDFS,并對RCDFS的設(shè)計和實(shí)現(xiàn)細(xì)節(jié)進(jìn)行了詳細(xì)的描述。通過實(shí)驗表明,Hadoop使用EJS和EFR結(jié)合的策略可以讓系統(tǒng)節(jié)約50-60%的能量,另一方面,FTR算法能夠有效的在RCDFS上運(yùn)行及其在網(wǎng)絡(luò)環(huán)境異構(gòu)性明顯的情況下,其數(shù)據(jù)修復(fù)時間低于STAR算法。
【關(guān)鍵詞】:大數(shù)據(jù) 分布式存儲系統(tǒng) Hadoop 副本 再生碼 節(jié)能 網(wǎng)絡(luò)編碼 修復(fù)時間
【學(xué)位授予單位】:復(fù)旦大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP333
【目錄】:
- 摘要2-3
- ABSTRACT3-8
- 第一章 引言8-10
- 1.1 分布式存儲系統(tǒng)中冗余機(jī)制的必要性以及額外的開銷8
- 1.2 本文研究工作概述8-9
- 1.3 本文的組織結(jié)構(gòu)9-10
- 第二章 背景及其相關(guān)工作10-24
- 2.1 分布式存儲系統(tǒng)10
- 2.2 副本和編碼10-17
- 2.2.1 副本10-12
- 2.2.2 編碼12-17
- 2.3 通過副本策略降低Hadoop集群的能耗17-20
- 2.4 異構(gòu)網(wǎng)絡(luò)環(huán)境下的再生碼20-23
- 2.5 本章小結(jié)23-24
- 第三章 通過副本策略降低Hadoop集群能耗24-41
- 3.1 節(jié)能的備份策略24-29
- 3.1.1 HDFS備份策略24
- 3.1.2 節(jié)能的備份策略24-29
- 3.2 節(jié)能的調(diào)度策略29-34
- 3.2.1 節(jié)能調(diào)度策略的設(shè)計29-30
- 3.2.2 問題描述30-32
- 3.2.3 近似算法32-34
- 3.2.4 可靠性和可用性34
- 3.3 實(shí)驗和性能評估34-40
- 3.3.1 實(shí)驗環(huán)境35-36
- 3.3.2 節(jié)點(diǎn)文件比率36
- 3.3.3 數(shù)據(jù)本地化36-37
- 3.3.4 能量消耗37-39
- 3.3.5 作業(yè)執(zhí)行時間39-40
- 3.4 本章小結(jié)40-41
- 第四章 通過再生碼降低數(shù)據(jù)修復(fù)時間41-65
- 4.1 系統(tǒng)總設(shè)計41-44
- 4.2 存儲框架44-47
- 4.2.1 存儲模塊45-46
- 4.2.2 存儲控制模塊46-47
- 4.3 計算框架47-50
- 4.3.1 計算控制模塊48
- 4.3.2 計算模塊48-49
- 4.3.3 監(jiān)控模塊49-50
- 4.4 客戶端框架50-51
- 4.5 編解碼框架51-57
- 4.5.1 算法設(shè)計51-54
- 4.5.2 伽羅華域54
- 4.5.3 編碼模塊54-56
- 4.5.4 解碼模塊56-57
- 4.6 性能測試57-64
- 4.6.1 實(shí)驗環(huán)境和配置57-58
- 4.6.2 網(wǎng)絡(luò)環(huán)境異構(gòu)58-59
- 4.6.3 編碼任務(wù)等待時間59-62
- 4.6.4 移植到HDFS62-64
- 4.7 本章小結(jié)64-65
- 第五章 總結(jié)與展望65-67
- 5.1 總結(jié)65-66
- 5.2 展望66-67
- 參考文獻(xiàn)67-71
- 致謝71-72
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄72-73
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 何公明;張元濤;;面向數(shù)字媒體的高性能分布式存儲系統(tǒng)的研究與應(yīng)用[J];廣播電視信息;2009年10期
2 范劍波,郭建康;分布式存儲系統(tǒng)性能模型的建立與應(yīng)用[J];計算機(jī)工程與應(yīng)用;2001年13期
3 范劍波,徐利浩;分布式存儲系統(tǒng)可靠性的研究[J];計算機(jī)工程;2001年06期
4 吳英;謝廣軍;劉t
本文編號:351316
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/351316.html
最近更新
教材專著