基于Bloom Filter的云存儲(chǔ)文件去重方法研究與優(yōu)化
發(fā)布時(shí)間:2017-06-13 17:12
本文關(guān)鍵詞:基于Bloom Filter的云存儲(chǔ)文件去重方法研究與優(yōu)化,,由筆耕文化傳播整理發(fā)布。
【摘要】:目前,隨著云存儲(chǔ)的流行,以及用戶(hù)的認(rèn)知度的提高,越來(lái)越多的用戶(hù)將數(shù)據(jù)上傳于云盤(pán),用于存儲(chǔ)文件,能夠方便地與他人分享文件或者在其它移動(dòng)設(shè)備上下載,或者定期的將部分的個(gè)人數(shù)據(jù)備份于云存儲(chǔ)中。因此,這造成了云存儲(chǔ)上有大量的重復(fù)數(shù)據(jù)。如果將這些文件進(jìn)行去重,將會(huì)使得云存儲(chǔ)商減少存儲(chǔ)文件的容量,在備份或者恢復(fù)數(shù)據(jù)時(shí)能夠節(jié)約帶寬與存儲(chǔ)以及提高存儲(chǔ)效率與帶寬效率,從而帶來(lái)經(jīng)濟(jì)利益。因此,文件去重成為了云存儲(chǔ)系統(tǒng)中并不可少的一部分。由于云存儲(chǔ)的數(shù)據(jù)來(lái)源大多數(shù)是個(gè)人用戶(hù),因此云存儲(chǔ)中的文件特點(diǎn)是隨機(jī)性。無(wú)法預(yù)測(cè)下一個(gè)到達(dá)云端的文件是哪一個(gè),大部分文件數(shù)據(jù)并不具有備份系統(tǒng)的數(shù)據(jù)源局部性的特點(diǎn)。根據(jù)云存儲(chǔ)中數(shù)據(jù)源的特點(diǎn),本文提出了一種基于Bloom Filter的云存儲(chǔ)去重方法。在分塊階段根據(jù)不同文件類(lèi)型的特點(diǎn),經(jīng)過(guò)調(diào)研與實(shí)驗(yàn),對(duì)不同文件類(lèi)型分別采用了最有效的分塊方式。在文件分塊的索引階段,在利用了文件的相似性原理的基礎(chǔ)上,加入了Bloom Filter過(guò)濾分塊加快查找速度。并且由于不同的分塊方式產(chǎn)生的分塊查詢(xún)開(kāi)銷(xiāo)不同,為了減少查詢(xún)開(kāi)銷(xiāo)與時(shí)間,使用了差異化的Bloom Filter。最終建立了內(nèi)存哈希表——差異化Bloom Filter——文件相似索引表的結(jié)構(gòu)。在實(shí)驗(yàn)部分,本方法與一般實(shí)現(xiàn)方式中的非差異化Bloom Filter實(shí)現(xiàn)方式進(jìn)行比較,并且也同時(shí)與采用同樣分塊方式的AA-Dedupe算法與同樣基于文件相似性原理的Extreme Binning算法進(jìn)行了對(duì)比,驗(yàn)證了本方法在性能方面的提升與優(yōu)勢(shì)。
【關(guān)鍵詞】:云存儲(chǔ) 文件去重 差異化Bloom Filter
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP333
【目錄】:
- 摘要5-6
- Abstract6-9
- 第一章 緒論9-17
- 1.1 研究背景9
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀9-15
- 1.2.1 文件的分塊10-11
- 1.2.2 文件分塊的索引11-14
- 1.2.3 文件去重處理過(guò)程速率的提升14-15
- 1.3 本文的研究?jī)?nèi)容15-16
- 1.4 本文的組織結(jié)構(gòu)16-17
- 第二章 相關(guān)技術(shù)17-21
- 2.1 應(yīng)用感知型的文件分塊技術(shù)17
- 2.2 Bloom Filter技術(shù)17-19
- 2.3 文件的相似性19-20
- 2.4 本章小結(jié)20-21
- 第三章 基于Bloom Filter的文件去重的設(shè)計(jì)與優(yōu)化21-35
- 3.1 文件的分塊21-25
- 3.2 基于Bloom Filter的文件去重的索引設(shè)計(jì)以及優(yōu)化25-31
- 3.3 基于Bloom Filter的文件去重的方法實(shí)現(xiàn)31-33
- 3.4 本章小結(jié)33-35
- 第四章 實(shí)驗(yàn)結(jié)果及分析35-46
- 4.1 實(shí)驗(yàn)環(huán)境35
- 4.2 文件數(shù)據(jù)來(lái)源及特點(diǎn)35
- 4.3 實(shí)驗(yàn)參數(shù)設(shè)置35-37
- 4.4 實(shí)驗(yàn)對(duì)比算法37-39
- 4.4.1 非差異化Bloom Filter實(shí)現(xiàn)方式37-38
- 4.4.2 AA-Dedupe算法和Extreme Binning算法38-39
- 4.5 性能對(duì)比結(jié)果及分析39-45
- 4.5.1 重復(fù)數(shù)據(jù)刪除率39-41
- 4.5.2 時(shí)間開(kāi)銷(xiāo)41-43
- 4.5.3 內(nèi)存使用情況43-45
- 4.6 本章小結(jié)45-46
- 結(jié)論46-49
- 參考文獻(xiàn)49-52
- 攻讀碩士學(xué)位期間取得的研究成果52-53
- 致謝53-54
- 附件54
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 肖明忠;代亞非;;Bloom Filter及其應(yīng)用綜述[J];計(jì)算機(jī)科學(xué);2004年04期
2 池靜;倪健;王華;邢秀娥;;Bloom Filter和Weighted Bloom Filter的比較與研究[J];河北師范大學(xué)學(xué)報(bào);2006年04期
3 李s
本文編號(hào):447142
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/447142.html
最近更新
教材專(zhuān)著