一種混合局部恢復(fù)碼及Hitchhiker碼的存儲策略
發(fā)布時間:2021-08-21 12:31
我們正處于一個大數(shù)據(jù)的時代.如今一個分布式存儲系統(tǒng)需要存放PB數(shù)量級數(shù)據(jù)的情況越來越常見.這些系統(tǒng)一般由普通商用組件構(gòu)成,其出錯率相對較高.由此,分布式存儲系統(tǒng)需要保證數(shù)據(jù)的可靠性和可用性.多副本和糾刪碼是現(xiàn)在最為常用的技術(shù).相比多副本技術(shù),采用糾刪碼能在同等容錯能力下大幅降低存儲開銷.然而,在進(jìn)行數(shù)據(jù)恢復(fù)時,使用傳統(tǒng)的糾刪碼(如Reed-Solomon碼)會導(dǎo)致系統(tǒng)中產(chǎn)生大量的網(wǎng)絡(luò)帶寬消耗及磁盤讀寫操作,進(jìn)而導(dǎo)致退化讀延遲過高.注意到在系統(tǒng)中數(shù)據(jù)的訪問頻率呈Zipf分布,大多數(shù)數(shù)據(jù)訪問只涉及到少量數(shù)據(jù),而絕大多數(shù)數(shù)據(jù)的被訪頻率很低.根據(jù)這種數(shù)據(jù)訪問的偏斜性,本文提出如下存儲策略以解決采用糾刪碼的系統(tǒng)退化讀延遲過高的問題:對被訪頻率高的熱數(shù)據(jù)采用低恢復(fù)延遲的糾刪碼(如局部恢復(fù)碼Local Reconstruction Code,LRC)進(jìn)行編碼,而對被訪頻率低的冷數(shù)據(jù)采用保證最小存儲開銷的糾刪碼(如Hitchhiker碼)進(jìn)行編碼.由于熱數(shù)據(jù)占據(jù)了絕大多數(shù)的數(shù)據(jù)訪問,因此絕大多數(shù)的退化讀也將應(yīng)用在這些熱數(shù)據(jù)上,這樣這一策略就能在整個系統(tǒng)的角度獲取低恢復(fù)開銷的優(yōu)勢.同時,冷數(shù)據(jù)占據(jù)了系統(tǒng)...
【文章來源】:計算機學(xué)報. 2020,43(04)北大核心EICSCD
【文章頁數(shù)】:13 頁
【部分圖文】:
5個HDFS集群的數(shù)據(jù)訪問頻率分布圖[15],CC{1,2,3,4}表示4個不同的Cloudera上的集群,F(xiàn)B表示Facebook的一個實際集群
(6,2,2)LRC(例)[11]
圖3展示了一個(10,4)RS碼應(yīng)用于Piggybacki‐ng框架的例子,圖4給出了圖3對應(yīng)的HH碼.在圖4中,如果要恢復(fù)第一個數(shù)據(jù)塊,即a1和b1,可以先利用b2、b3、…、b10和f1(b)恢復(fù)b1,進(jìn)而求得f2(b).在讀取a2、a3以及子條帶b中的第12個子塊f2(b)⊕a1⊕a2⊕a3后,進(jìn)行異或運算即可恢復(fù)得到a1.圖4(10,4)Hitchhiker碼(例)[12]
本文編號:3355607
【文章來源】:計算機學(xué)報. 2020,43(04)北大核心EICSCD
【文章頁數(shù)】:13 頁
【部分圖文】:
5個HDFS集群的數(shù)據(jù)訪問頻率分布圖[15],CC{1,2,3,4}表示4個不同的Cloudera上的集群,F(xiàn)B表示Facebook的一個實際集群
(6,2,2)LRC(例)[11]
圖3展示了一個(10,4)RS碼應(yīng)用于Piggybacki‐ng框架的例子,圖4給出了圖3對應(yīng)的HH碼.在圖4中,如果要恢復(fù)第一個數(shù)據(jù)塊,即a1和b1,可以先利用b2、b3、…、b10和f1(b)恢復(fù)b1,進(jìn)而求得f2(b).在讀取a2、a3以及子條帶b中的第12個子塊f2(b)⊕a1⊕a2⊕a3后,進(jìn)行異或運算即可恢復(fù)得到a1.圖4(10,4)Hitchhiker碼(例)[12]
本文編號:3355607
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3355607.html
最近更新
教材專著