面向分布式的重復數(shù)據(jù)刪除技術(shù)研究
發(fā)布時間:2020-10-24 06:50
隨著互聯(lián)網(wǎng)及物聯(lián)網(wǎng)的迅速發(fā)展,越來越多的數(shù)據(jù)被存儲在云存儲系統(tǒng)中。然而,在對這些數(shù)據(jù)進行存儲過程中,往往伴隨著大量的冗余數(shù)據(jù),這樣不僅占用了大量的存儲空間,而且降低了云存儲系統(tǒng)的存儲效率。針對這些問題,重復數(shù)據(jù)刪除技術(shù)給出了很好的解決方法。它可以有效地對存儲系統(tǒng)進行優(yōu)化,并且提高數(shù)據(jù)在網(wǎng)絡(luò)傳輸中的效率。本文對重復數(shù)據(jù)刪除系統(tǒng)的幾個關(guān)鍵技術(shù)進行了分析和研究,并對影響重復數(shù)據(jù)刪除技術(shù)的關(guān)鍵部分進行了相關(guān)的改進和優(yōu)化。本文的主要創(chuàng)新包括以下幾項內(nèi)容:(1)針對傳統(tǒng)的重復數(shù)據(jù)刪除系統(tǒng)中出現(xiàn)的分塊效率低下的問題,提出了一種非對稱最大值的去重分塊方法(DAM)。DAM算法利用固定大小的窗口和可變大小的窗口來查找作為分割點的最大值字節(jié),算法首先在固定窗口中尋找最大字節(jié)值,如果緊接固定窗口的字節(jié)比固定窗口所有值都要大,則該值便作為最大值字節(jié),同時切點也被確定。否則,算法繼續(xù)移動到下個字節(jié)到找到最大值為止。(2)針對傳統(tǒng)的數(shù)據(jù)塊指紋算法出現(xiàn)的哈希沖突問題,采用SHA-3標準的Keccak算法作為重復數(shù)據(jù)分塊中數(shù)據(jù)塊的指紋生成方案和指紋匹配,以此取代了傳統(tǒng)的SHA-2算法來計算數(shù)據(jù)塊的指紋值。(3)針對傳統(tǒng)重復數(shù)據(jù)刪除系統(tǒng)去重效率低下的問題,將改進的內(nèi)容分塊算法-基于非對稱最大值的分塊算法和基于Keccak的數(shù)據(jù)塊指紋生成算法應用在分布式平臺上,設(shè)計并搭建了基于Hadoop的重復數(shù)據(jù)刪除系統(tǒng),并對系統(tǒng)進行了性能優(yōu)化。
【學位單位】:湖南工業(yè)大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TP333
【部分圖文】:
面向分布式的重復數(shù)據(jù)刪除技術(shù)研究級的重復數(shù)據(jù)刪除是最為廣泛的數(shù)據(jù)消冗技術(shù)。重復數(shù)據(jù)刪除已經(jīng)成為各大企業(yè)的焦點。它解決了對存儲容量日益增長的需求。Amazon S3,Bitcasa icrosoft Azure 等許多云存儲提供商以及 Dropbox 和 Memopal[6]等備份服務正用重復數(shù)據(jù)刪除技術(shù)[8]來提高存儲效率。
1.基于局部的指紋索引基于局部的方法是指在在備份數(shù)據(jù)流中類似或相同的文件在大量完整備份中具有非常高的概率出現(xiàn)[64],特別是相鄰數(shù)據(jù)之間。通過將已經(jīng)過去重處理的局部的數(shù)據(jù)塊的索引置于高速閃存中來增加內(nèi)存利用率,減少了對磁盤索引的訪問,從而緩解了磁盤瓶頸。DDFS[64]中提出了一種基于局部性的重復數(shù)據(jù)刪除技術(shù)(Locality PreservedCaching,LPC),如圖 2-2 所示。在存儲系統(tǒng)中存儲著文件 A 的指紋{3b,a7,2f,5c}、文件 B 的指紋{a9,3b,…}等等,根據(jù)基于數(shù)據(jù)流局部性的特征,當需要查詢文件C 中 3b 的指紋時,LPC 預先將文件 A 的指紋{3b,a7,2f,5c}保存在 DAM 中,就可以先與 DAM 中的指紋相匹配,從而減少對磁盤索引的訪問。DDFS 也使用Bloom 濾波器[65]來快速識別新的(即非重復的)塊,避免已知不存在的塊的索引查找;這有助于彌補沒有或很少地方的情況。 Bloom 濾波器[65]是一種空間有效的數(shù)據(jù)結(jié)構(gòu),它使用一個具有多個獨立散列函數(shù)的位陣列來表示一組項目(例如指紋)的成員資格。
DDFS 的一半一下。SAM[67]首先將全局文件級重復數(shù)據(jù)刪除和本地塊級重復數(shù)據(jù)刪除相結(jié)合,然后利用文件大小、類型、局部性等文件語義來優(yōu)化指紋索引。MAD2[68]使用濾鏡陣列作為重復數(shù)據(jù)刪除的快速索引,同時還保留了指紋在緩存中的位置。HPDS[61]利用逐步采樣索引,通過備份流的固有局部性,進一步減少指紋索引的內(nèi)存開銷。DDFS 通過存儲和預取容器中存儲的唯一塊的順序來捕獲局部性。而 Block Locality Caching(BLC)[69]是通過利用長期備份系統(tǒng)中最新備份的局部性來提高索引性能。2.基于相似性的指紋索引對于局部性很弱的數(shù)據(jù)集,一些研究提出了利用上下文中之間存在相似性的特點來提高指紋索引效率。一個常見的相似性檢索技術(shù)是用一組數(shù)據(jù)塊中指紋的最大值或者最小值表示一整個文件[70],因此,選定的指紋可用于構(gòu)建主索引,并將重復數(shù)據(jù)刪除索引的 DAM 的開銷降至最低,特別是對于位置很少或者不存在的數(shù)據(jù)集。Extreme Binning[70]是一種基于相似性的方法,首先通過利用文件的相似性作為索引,然后在對相似性高的文件進行分塊,再以 chunk 為單位進行索引。
【參考文獻】
本文編號:2854151
【學位單位】:湖南工業(yè)大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TP333
【部分圖文】:
面向分布式的重復數(shù)據(jù)刪除技術(shù)研究級的重復數(shù)據(jù)刪除是最為廣泛的數(shù)據(jù)消冗技術(shù)。重復數(shù)據(jù)刪除已經(jīng)成為各大企業(yè)的焦點。它解決了對存儲容量日益增長的需求。Amazon S3,Bitcasa icrosoft Azure 等許多云存儲提供商以及 Dropbox 和 Memopal[6]等備份服務正用重復數(shù)據(jù)刪除技術(shù)[8]來提高存儲效率。
1.基于局部的指紋索引基于局部的方法是指在在備份數(shù)據(jù)流中類似或相同的文件在大量完整備份中具有非常高的概率出現(xiàn)[64],特別是相鄰數(shù)據(jù)之間。通過將已經(jīng)過去重處理的局部的數(shù)據(jù)塊的索引置于高速閃存中來增加內(nèi)存利用率,減少了對磁盤索引的訪問,從而緩解了磁盤瓶頸。DDFS[64]中提出了一種基于局部性的重復數(shù)據(jù)刪除技術(shù)(Locality PreservedCaching,LPC),如圖 2-2 所示。在存儲系統(tǒng)中存儲著文件 A 的指紋{3b,a7,2f,5c}、文件 B 的指紋{a9,3b,…}等等,根據(jù)基于數(shù)據(jù)流局部性的特征,當需要查詢文件C 中 3b 的指紋時,LPC 預先將文件 A 的指紋{3b,a7,2f,5c}保存在 DAM 中,就可以先與 DAM 中的指紋相匹配,從而減少對磁盤索引的訪問。DDFS 也使用Bloom 濾波器[65]來快速識別新的(即非重復的)塊,避免已知不存在的塊的索引查找;這有助于彌補沒有或很少地方的情況。 Bloom 濾波器[65]是一種空間有效的數(shù)據(jù)結(jié)構(gòu),它使用一個具有多個獨立散列函數(shù)的位陣列來表示一組項目(例如指紋)的成員資格。
DDFS 的一半一下。SAM[67]首先將全局文件級重復數(shù)據(jù)刪除和本地塊級重復數(shù)據(jù)刪除相結(jié)合,然后利用文件大小、類型、局部性等文件語義來優(yōu)化指紋索引。MAD2[68]使用濾鏡陣列作為重復數(shù)據(jù)刪除的快速索引,同時還保留了指紋在緩存中的位置。HPDS[61]利用逐步采樣索引,通過備份流的固有局部性,進一步減少指紋索引的內(nèi)存開銷。DDFS 通過存儲和預取容器中存儲的唯一塊的順序來捕獲局部性。而 Block Locality Caching(BLC)[69]是通過利用長期備份系統(tǒng)中最新備份的局部性來提高索引性能。2.基于相似性的指紋索引對于局部性很弱的數(shù)據(jù)集,一些研究提出了利用上下文中之間存在相似性的特點來提高指紋索引效率。一個常見的相似性檢索技術(shù)是用一組數(shù)據(jù)塊中指紋的最大值或者最小值表示一整個文件[70],因此,選定的指紋可用于構(gòu)建主索引,并將重復數(shù)據(jù)刪除索引的 DAM 的開銷降至最低,特別是對于位置很少或者不存在的數(shù)據(jù)集。Extreme Binning[70]是一種基于相似性的方法,首先通過利用文件的相似性作為索引,然后在對相似性高的文件進行分塊,再以 chunk 為單位進行索引。
【參考文獻】
相關(guān)期刊論文 前3條
1 李芳;肖儂;劉芳;孫振;邢玉軒;;重復數(shù)據(jù)刪除預測技術(shù)研究[J];計算機研究與發(fā)展;2014年S1期
2 劉厚貴;邢晶;霍志剛;安學軍;;一種支持海量數(shù)據(jù)備份的可擴展分布式重復數(shù)據(jù)刪除系統(tǒng)[J];計算機研究與發(fā)展;2013年S2期
3 敖莉;舒繼武;李明強;;重復數(shù)據(jù)刪除技術(shù)[J];軟件學報;2010年05期
相關(guān)碩士學位論文 前1條
1 于悅;基于相似性的分布式重復數(shù)據(jù)刪除技術(shù)研究[D];遼寧大學;2014年
本文編號:2854151
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2854151.html
最近更新
教材專著