面向分布式的重復(fù)數(shù)據(jù)刪除技術(shù)研究
發(fā)布時(shí)間:2020-10-24 06:50
隨著互聯(lián)網(wǎng)及物聯(lián)網(wǎng)的迅速發(fā)展,越來越多的數(shù)據(jù)被存儲(chǔ)在云存儲(chǔ)系統(tǒng)中。然而,在對(duì)這些數(shù)據(jù)進(jìn)行存儲(chǔ)過程中,往往伴隨著大量的冗余數(shù)據(jù),這樣不僅占用了大量的存儲(chǔ)空間,而且降低了云存儲(chǔ)系統(tǒng)的存儲(chǔ)效率。針對(duì)這些問題,重復(fù)數(shù)據(jù)刪除技術(shù)給出了很好的解決方法。它可以有效地對(duì)存儲(chǔ)系統(tǒng)進(jìn)行優(yōu)化,并且提高數(shù)據(jù)在網(wǎng)絡(luò)傳輸中的效率。本文對(duì)重復(fù)數(shù)據(jù)刪除系統(tǒng)的幾個(gè)關(guān)鍵技術(shù)進(jìn)行了分析和研究,并對(duì)影響重復(fù)數(shù)據(jù)刪除技術(shù)的關(guān)鍵部分進(jìn)行了相關(guān)的改進(jìn)和優(yōu)化。本文的主要?jiǎng)?chuàng)新包括以下幾項(xiàng)內(nèi)容:(1)針對(duì)傳統(tǒng)的重復(fù)數(shù)據(jù)刪除系統(tǒng)中出現(xiàn)的分塊效率低下的問題,提出了一種非對(duì)稱最大值的去重分塊方法(DAM)。DAM算法利用固定大小的窗口和可變大小的窗口來查找作為分割點(diǎn)的最大值字節(jié),算法首先在固定窗口中尋找最大字節(jié)值,如果緊接固定窗口的字節(jié)比固定窗口所有值都要大,則該值便作為最大值字節(jié),同時(shí)切點(diǎn)也被確定。否則,算法繼續(xù)移動(dòng)到下個(gè)字節(jié)到找到最大值為止。(2)針對(duì)傳統(tǒng)的數(shù)據(jù)塊指紋算法出現(xiàn)的哈希沖突問題,采用SHA-3標(biāo)準(zhǔn)的Keccak算法作為重復(fù)數(shù)據(jù)分塊中數(shù)據(jù)塊的指紋生成方案和指紋匹配,以此取代了傳統(tǒng)的SHA-2算法來計(jì)算數(shù)據(jù)塊的指紋值。(3)針對(duì)傳統(tǒng)重復(fù)數(shù)據(jù)刪除系統(tǒng)去重效率低下的問題,將改進(jìn)的內(nèi)容分塊算法-基于非對(duì)稱最大值的分塊算法和基于Keccak的數(shù)據(jù)塊指紋生成算法應(yīng)用在分布式平臺(tái)上,設(shè)計(jì)并搭建了基于Hadoop的重復(fù)數(shù)據(jù)刪除系統(tǒng),并對(duì)系統(tǒng)進(jìn)行了性能優(yōu)化。
【學(xué)位單位】:湖南工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP333
【部分圖文】:
面向分布式的重復(fù)數(shù)據(jù)刪除技術(shù)研究級(jí)的重復(fù)數(shù)據(jù)刪除是最為廣泛的數(shù)據(jù)消冗技術(shù)。重復(fù)數(shù)據(jù)刪除已經(jīng)成為各大企業(yè)的焦點(diǎn)。它解決了對(duì)存儲(chǔ)容量日益增長(zhǎng)的需求。Amazon S3,Bitcasa icrosoft Azure 等許多云存儲(chǔ)提供商以及 Dropbox 和 Memopal[6]等備份服務(wù)正用重復(fù)數(shù)據(jù)刪除技術(shù)[8]來提高存儲(chǔ)效率。
1.基于局部的指紋索引基于局部的方法是指在在備份數(shù)據(jù)流中類似或相同的文件在大量完整備份中具有非常高的概率出現(xiàn)[64],特別是相鄰數(shù)據(jù)之間。通過將已經(jīng)過去重處理的局部的數(shù)據(jù)塊的索引置于高速閃存中來增加內(nèi)存利用率,減少了對(duì)磁盤索引的訪問,從而緩解了磁盤瓶頸。DDFS[64]中提出了一種基于局部性的重復(fù)數(shù)據(jù)刪除技術(shù)(Locality PreservedCaching,LPC),如圖 2-2 所示。在存儲(chǔ)系統(tǒng)中存儲(chǔ)著文件 A 的指紋{3b,a7,2f,5c}、文件 B 的指紋{a9,3b,…}等等,根據(jù)基于數(shù)據(jù)流局部性的特征,當(dāng)需要查詢文件C 中 3b 的指紋時(shí),LPC 預(yù)先將文件 A 的指紋{3b,a7,2f,5c}保存在 DAM 中,就可以先與 DAM 中的指紋相匹配,從而減少對(duì)磁盤索引的訪問。DDFS 也使用Bloom 濾波器[65]來快速識(shí)別新的(即非重復(fù)的)塊,避免已知不存在的塊的索引查找;這有助于彌補(bǔ)沒有或很少地方的情況。 Bloom 濾波器[65]是一種空間有效的數(shù)據(jù)結(jié)構(gòu),它使用一個(gè)具有多個(gè)獨(dú)立散列函數(shù)的位陣列來表示一組項(xiàng)目(例如指紋)的成員資格。
DDFS 的一半一下。SAM[67]首先將全局文件級(jí)重復(fù)數(shù)據(jù)刪除和本地塊級(jí)重復(fù)數(shù)據(jù)刪除相結(jié)合,然后利用文件大小、類型、局部性等文件語義來優(yōu)化指紋索引。MAD2[68]使用濾鏡陣列作為重復(fù)數(shù)據(jù)刪除的快速索引,同時(shí)還保留了指紋在緩存中的位置。HPDS[61]利用逐步采樣索引,通過備份流的固有局部性,進(jìn)一步減少指紋索引的內(nèi)存開銷。DDFS 通過存儲(chǔ)和預(yù)取容器中存儲(chǔ)的唯一塊的順序來捕獲局部性。而 Block Locality Caching(BLC)[69]是通過利用長(zhǎng)期備份系統(tǒng)中最新備份的局部性來提高索引性能。2.基于相似性的指紋索引對(duì)于局部性很弱的數(shù)據(jù)集,一些研究提出了利用上下文中之間存在相似性的特點(diǎn)來提高指紋索引效率。一個(gè)常見的相似性檢索技術(shù)是用一組數(shù)據(jù)塊中指紋的最大值或者最小值表示一整個(gè)文件[70],因此,選定的指紋可用于構(gòu)建主索引,并將重復(fù)數(shù)據(jù)刪除索引的 DAM 的開銷降至最低,特別是對(duì)于位置很少或者不存在的數(shù)據(jù)集。Extreme Binning[70]是一種基于相似性的方法,首先通過利用文件的相似性作為索引,然后在對(duì)相似性高的文件進(jìn)行分塊,再以 chunk 為單位進(jìn)行索引。
【參考文獻(xiàn)】
本文編號(hào):2854151
【學(xué)位單位】:湖南工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP333
【部分圖文】:
面向分布式的重復(fù)數(shù)據(jù)刪除技術(shù)研究級(jí)的重復(fù)數(shù)據(jù)刪除是最為廣泛的數(shù)據(jù)消冗技術(shù)。重復(fù)數(shù)據(jù)刪除已經(jīng)成為各大企業(yè)的焦點(diǎn)。它解決了對(duì)存儲(chǔ)容量日益增長(zhǎng)的需求。Amazon S3,Bitcasa icrosoft Azure 等許多云存儲(chǔ)提供商以及 Dropbox 和 Memopal[6]等備份服務(wù)正用重復(fù)數(shù)據(jù)刪除技術(shù)[8]來提高存儲(chǔ)效率。
1.基于局部的指紋索引基于局部的方法是指在在備份數(shù)據(jù)流中類似或相同的文件在大量完整備份中具有非常高的概率出現(xiàn)[64],特別是相鄰數(shù)據(jù)之間。通過將已經(jīng)過去重處理的局部的數(shù)據(jù)塊的索引置于高速閃存中來增加內(nèi)存利用率,減少了對(duì)磁盤索引的訪問,從而緩解了磁盤瓶頸。DDFS[64]中提出了一種基于局部性的重復(fù)數(shù)據(jù)刪除技術(shù)(Locality PreservedCaching,LPC),如圖 2-2 所示。在存儲(chǔ)系統(tǒng)中存儲(chǔ)著文件 A 的指紋{3b,a7,2f,5c}、文件 B 的指紋{a9,3b,…}等等,根據(jù)基于數(shù)據(jù)流局部性的特征,當(dāng)需要查詢文件C 中 3b 的指紋時(shí),LPC 預(yù)先將文件 A 的指紋{3b,a7,2f,5c}保存在 DAM 中,就可以先與 DAM 中的指紋相匹配,從而減少對(duì)磁盤索引的訪問。DDFS 也使用Bloom 濾波器[65]來快速識(shí)別新的(即非重復(fù)的)塊,避免已知不存在的塊的索引查找;這有助于彌補(bǔ)沒有或很少地方的情況。 Bloom 濾波器[65]是一種空間有效的數(shù)據(jù)結(jié)構(gòu),它使用一個(gè)具有多個(gè)獨(dú)立散列函數(shù)的位陣列來表示一組項(xiàng)目(例如指紋)的成員資格。
DDFS 的一半一下。SAM[67]首先將全局文件級(jí)重復(fù)數(shù)據(jù)刪除和本地塊級(jí)重復(fù)數(shù)據(jù)刪除相結(jié)合,然后利用文件大小、類型、局部性等文件語義來優(yōu)化指紋索引。MAD2[68]使用濾鏡陣列作為重復(fù)數(shù)據(jù)刪除的快速索引,同時(shí)還保留了指紋在緩存中的位置。HPDS[61]利用逐步采樣索引,通過備份流的固有局部性,進(jìn)一步減少指紋索引的內(nèi)存開銷。DDFS 通過存儲(chǔ)和預(yù)取容器中存儲(chǔ)的唯一塊的順序來捕獲局部性。而 Block Locality Caching(BLC)[69]是通過利用長(zhǎng)期備份系統(tǒng)中最新備份的局部性來提高索引性能。2.基于相似性的指紋索引對(duì)于局部性很弱的數(shù)據(jù)集,一些研究提出了利用上下文中之間存在相似性的特點(diǎn)來提高指紋索引效率。一個(gè)常見的相似性檢索技術(shù)是用一組數(shù)據(jù)塊中指紋的最大值或者最小值表示一整個(gè)文件[70],因此,選定的指紋可用于構(gòu)建主索引,并將重復(fù)數(shù)據(jù)刪除索引的 DAM 的開銷降至最低,特別是對(duì)于位置很少或者不存在的數(shù)據(jù)集。Extreme Binning[70]是一種基于相似性的方法,首先通過利用文件的相似性作為索引,然后在對(duì)相似性高的文件進(jìn)行分塊,再以 chunk 為單位進(jìn)行索引。
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 李芳;肖儂;劉芳;孫振;邢玉軒;;重復(fù)數(shù)據(jù)刪除預(yù)測(cè)技術(shù)研究[J];計(jì)算機(jī)研究與發(fā)展;2014年S1期
2 劉厚貴;邢晶;霍志剛;安學(xué)軍;;一種支持海量數(shù)據(jù)備份的可擴(kuò)展分布式重復(fù)數(shù)據(jù)刪除系統(tǒng)[J];計(jì)算機(jī)研究與發(fā)展;2013年S2期
3 敖莉;舒繼武;李明強(qiáng);;重復(fù)數(shù)據(jù)刪除技術(shù)[J];軟件學(xué)報(bào);2010年05期
相關(guān)碩士學(xué)位論文 前1條
1 于悅;基于相似性的分布式重復(fù)數(shù)據(jù)刪除技術(shù)研究[D];遼寧大學(xué);2014年
本文編號(hào):2854151
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2854151.html
最近更新
教材專著