面向分布式的重復(fù)數(shù)據(jù)刪除技術(shù)研究

發(fā)布時(shí)間：2020-10-24 06:50

　　隨著互聯(lián)網(wǎng)及物聯(lián)網(wǎng)的迅速發(fā)展,越來越多的數(shù)據(jù)被存儲(chǔ)在云存儲(chǔ)系統(tǒng)中。然而,在對(duì)這些數(shù)據(jù)進(jìn)行存儲(chǔ)過程中,往往伴隨著大量的冗余數(shù)據(jù),這樣不僅占用了大量的存儲(chǔ)空間,而且降低了云存儲(chǔ)系統(tǒng)的存儲(chǔ)效率。針對(duì)這些問題,重復(fù)數(shù)據(jù)刪除技術(shù)給出了很好的解決方法。它可以有效地對(duì)存儲(chǔ)系統(tǒng)進(jìn)行優(yōu)化,并且提高數(shù)據(jù)在網(wǎng)絡(luò)傳輸中的效率。本文對(duì)重復(fù)數(shù)據(jù)刪除系統(tǒng)的幾個(gè)關(guān)鍵技術(shù)進(jìn)行了分析和研究,并對(duì)影響重復(fù)數(shù)據(jù)刪除技術(shù)的關(guān)鍵部分進(jìn)行了相關(guān)的改進(jìn)和優(yōu)化。本文的主要?jiǎng)?chuàng)新包括以下幾項(xiàng)內(nèi)容:(1)針對(duì)傳統(tǒng)的重復(fù)數(shù)據(jù)刪除系統(tǒng)中出現(xiàn)的分塊效率低下的問題,提出了一種非對(duì)稱最大值的去重分塊方法(DAM)。DAM算法利用固定大小的窗口和可變大小的窗口來查找作為分割點(diǎn)的最大值字節(jié),算法首先在固定窗口中尋找最大字節(jié)值,如果緊接固定窗口的字節(jié)比固定窗口所有值都要大,則該值便作為最大值字節(jié),同時(shí)切點(diǎn)也被確定。否則,算法繼續(xù)移動(dòng)到下個(gè)字節(jié)到找到最大值為止。(2)針對(duì)傳統(tǒng)的數(shù)據(jù)塊指紋算法出現(xiàn)的哈希沖突問題,采用SHA-3標(biāo)準(zhǔn)的Keccak算法作為重復(fù)數(shù)據(jù)分塊中數(shù)據(jù)塊的指紋生成方案和指紋匹配,以此取代了傳統(tǒng)的SHA-2算法來計(jì)算數(shù)據(jù)塊的指紋值。(3)針對(duì)傳統(tǒng)重復(fù)數(shù)據(jù)刪除系統(tǒng)去重效率低下的問題,將改進(jìn)的內(nèi)容分塊算法-基于非對(duì)稱最大值的分塊算法和基于Keccak的數(shù)據(jù)塊指紋生成算法應(yīng)用在分布式平臺(tái)上,設(shè)計(jì)并搭建了基于Hadoop的重復(fù)數(shù)據(jù)刪除系統(tǒng),并對(duì)系統(tǒng)進(jìn)行了性能優(yōu)化。
【學(xué)位單位】：湖南工業(yè)大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位年份】：2018
【中圖分類】：TP333
【部分圖文】：

增長(zhǎng)趨勢(shì),數(shù)據(jù)量,全球,重復(fù)數(shù)

面向分布式的重復(fù)數(shù)據(jù)刪除技術(shù)研究級(jí)的重復(fù)數(shù)據(jù)刪除是最為廣泛的數(shù)據(jù)消冗技術(shù)。重復(fù)數(shù)據(jù)刪除已經(jīng)成為各大企業(yè)的焦點(diǎn)。它解決了對(duì)存儲(chǔ)容量日益增長(zhǎng)的需求。Amazon S3，Bitcasa icrosoft Azure 等許多云存儲(chǔ)提供商以及 Dropbox 和 Memopal[6]等備份服務(wù)正用重復(fù)數(shù)據(jù)刪除技術(shù)[8]來提高存儲(chǔ)效率。

重復(fù)數(shù),局部性,技術(shù),指紋

1.基于局部的指紋索引基于局部的方法是指在在備份數(shù)據(jù)流中類似或相同的文件在大量完整備份中具有非常高的概率出現(xiàn)[64]，特別是相鄰數(shù)據(jù)之間。通過將已經(jīng)過去重處理的局部的數(shù)據(jù)塊的索引置于高速閃存中來增加內(nèi)存利用率，減少了對(duì)磁盤索引的訪問，從而緩解了磁盤瓶頸。DDFS[64]中提出了一種基于局部性的重復(fù)數(shù)據(jù)刪除技術(shù)（Locality PreservedCaching，LPC），如圖 2-2 所示。在存儲(chǔ)系統(tǒng)中存儲(chǔ)著文件 A 的指紋{3b,a7,2f,5c}、文件 B 的指紋{a9,3b,…}等等，根據(jù)基于數(shù)據(jù)流局部性的特征，當(dāng)需要查詢文件C 中 3b 的指紋時(shí)，LPC 預(yù)先將文件 A 的指紋{3b,a7,2f,5c}保存在 DAM 中，就可以先與 DAM 中的指紋相匹配，從而減少對(duì)磁盤索引的訪問。DDFS 也使用Bloom 濾波器[65]來快速識(shí)別新的（即非重復(fù)的）塊，避免已知不存在的塊的索引查找;這有助于彌補(bǔ)沒有或很少地方的情況。 Bloom 濾波器[65]是一種空間有效的數(shù)據(jù)結(jié)構(gòu)，它使用一個(gè)具有多個(gè)獨(dú)立散列函數(shù)的位陣列來表示一組項(xiàng)目（例如指紋）的成員資格。

指紋,索引,相似性

DDFS 的一半一下。SAM[67]首先將全局文件級(jí)重復(fù)數(shù)據(jù)刪除和本地塊級(jí)重復(fù)數(shù)據(jù)刪除相結(jié)合，然后利用文件大小、類型、局部性等文件語義來優(yōu)化指紋索引。MAD2[68]使用濾鏡陣列作為重復(fù)數(shù)據(jù)刪除的快速索引，同時(shí)還保留了指紋在緩存中的位置。HPDS[61]利用逐步采樣索引，通過備份流的固有局部性，進(jìn)一步減少指紋索引的內(nèi)存開銷。DDFS 通過存儲(chǔ)和預(yù)取容器中存儲(chǔ)的唯一塊的順序來捕獲局部性。而 Block Locality Caching（BLC）[69]是通過利用長(zhǎng)期備份系統(tǒng)中最新備份的局部性來提高索引性能。2.基于相似性的指紋索引對(duì)于局部性很弱的數(shù)據(jù)集，一些研究提出了利用上下文中之間存在相似性的特點(diǎn)來提高指紋索引效率。一個(gè)常見的相似性檢索技術(shù)是用一組數(shù)據(jù)塊中指紋的最大值或者最小值表示一整個(gè)文件[70]，因此，選定的指紋可用于構(gòu)建主索引，并將重復(fù)數(shù)據(jù)刪除索引的 DAM 的開銷降至最低，特別是對(duì)于位置很少或者不存在的數(shù)據(jù)集。Extreme Binning[70]是一種基于相似性的方法，首先通過利用文件的相似性作為索引，然后在對(duì)相似性高的文件進(jìn)行分塊，再以 chunk 為單位進(jìn)行索引。
【參考文獻(xiàn)】

相關(guān)期刊論文前3條

1 李芳;肖儂;劉芳;孫振;邢玉軒;;重復(fù)數(shù)據(jù)刪除預(yù)測(cè)技術(shù)研究[J];計(jì)算機(jī)研究與發(fā)展;2014年S1期

2 劉厚貴;邢晶;霍志剛;安學(xué)軍;;一種支持海量數(shù)據(jù)備份的可擴(kuò)展分布式重復(fù)數(shù)據(jù)刪除系統(tǒng)[J];計(jì)算機(jī)研究與發(fā)展;2013年S2期

3 敖莉;舒繼武;李明強(qiáng);;重復(fù)數(shù)據(jù)刪除技術(shù)[J];軟件學(xué)報(bào);2010年05期

相關(guān)碩士學(xué)位論文前1條

1 于悅;基于相似性的分布式重復(fù)數(shù)據(jù)刪除技術(shù)研究[D];遼寧大學(xué);2014年

本文編號(hào)：2854151

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2854151.html

上一篇：超級(jí)計(jì)算機(jī)故障分析、建模與預(yù)測(cè)技術(shù)研究
下一篇：基于GPS導(dǎo)航的嵌入式魚群探測(cè)器的研究與開發(fā)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向分布式的重復(fù)數(shù)據(jù)刪除技術(shù)研究