重復(fù)數(shù)據(jù)刪除系統(tǒng)數(shù)據(jù)組織研究
本文關(guān)鍵詞:重復(fù)數(shù)據(jù)刪除系統(tǒng)數(shù)據(jù)組織研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:在高速增長(zhǎng)的數(shù)據(jù)存儲(chǔ)系統(tǒng)中,重復(fù)數(shù)據(jù)刪除技術(shù)的作用越來(lái)越重要,廣泛應(yīng)用于VTL(Virtual Tape Library)系統(tǒng)、數(shù)據(jù)備份系統(tǒng)、數(shù)據(jù)歸檔系統(tǒng)等。重復(fù)數(shù)據(jù)刪除的核心思想是將一個(gè)數(shù)據(jù)文件或流分成連續(xù)的塊,使用哈希函數(shù)(如SHA-1)為每個(gè)數(shù)據(jù)塊生成相應(yīng)的摘要信息(稱為指紋值),查找指紋值表將每個(gè)塊的指紋值和所有已存儲(chǔ)塊的指紋值比較,當(dāng)數(shù)據(jù)塊出現(xiàn)重復(fù)時(shí)僅存儲(chǔ)其元數(shù)據(jù)信息,從而減少對(duì)存儲(chǔ)空間的消耗。國(guó)內(nèi)外在重復(fù)數(shù)據(jù)刪除系統(tǒng)領(lǐng)域已經(jīng)開展了大量的研究,但在數(shù)據(jù)組織形式方面仍然存在著足夠的優(yōu)化空間。具體的說(shuō),是針對(duì)重復(fù)數(shù)據(jù)刪除系統(tǒng)的特有數(shù)據(jù)訪問模式,研究更加高效的存儲(chǔ)架構(gòu)和數(shù)據(jù)管理策略,以充分發(fā)揮存儲(chǔ)設(shè)備的效能,降低存儲(chǔ)系統(tǒng)能耗。論文圍繞重復(fù)數(shù)據(jù)刪除系統(tǒng)的節(jié)能數(shù)據(jù)組織、對(duì)象級(jí)去重、元數(shù)據(jù)存儲(chǔ)策略、數(shù)據(jù)恢復(fù)方法等開展研究,主要?jiǎng)?chuàng)新點(diǎn)如下:(1)提出一種面向分塊的交叉分組數(shù)據(jù)組織方法,針對(duì)重復(fù)數(shù)據(jù)刪除系統(tǒng)的連續(xù)數(shù)據(jù)訪問模式降低存儲(chǔ)能耗。重復(fù)數(shù)據(jù)刪除系統(tǒng)一般采用RAID(Redundant Array of Independent Disks)來(lái)提供存儲(chǔ)和數(shù)據(jù)保護(hù),去重后的數(shù)據(jù)均勻分布存儲(chǔ)在各磁盤上,但少數(shù)磁盤即能提供連續(xù)數(shù)據(jù)訪問的I/O帶寬。論文設(shè)計(jì)了一種RAID-5交叉分組的數(shù)據(jù)組織方法以及節(jié)能磁盤調(diào)度算法,通過(guò)調(diào)整水平磁盤分組大小適應(yīng)不同的系統(tǒng)吞吐量要求,通過(guò)調(diào)整垂直分組大小減少校驗(yàn)磁盤切換次數(shù),從而使I/O請(qǐng)求集中在某個(gè)水平磁盤分組,其他分組的磁盤進(jìn)入待機(jī)模式。在Linux操作系統(tǒng)MD(Multiple Device Driver)模塊的基礎(chǔ)上實(shí)現(xiàn)交叉分組布局,驗(yàn)證了該布局在10磁盤3分組的存儲(chǔ)配置下降低能耗約26%。(2)提出一種面向OpenXML復(fù)合文件去重系統(tǒng)的對(duì)象存儲(chǔ)數(shù)據(jù)組織方法,實(shí)現(xiàn)去重對(duì)象的高效存儲(chǔ)。論文設(shè)計(jì)了一種RAID-4非對(duì)稱分組的對(duì)象存儲(chǔ)數(shù)據(jù)組織方法和磁盤分組調(diào)整算法。各個(gè)磁盤分組所包含的磁盤數(shù)目可以按需調(diào)整,有兩組磁盤并行工作,分別存儲(chǔ)易變類型對(duì)象和非易變類型對(duì)象。采用預(yù)測(cè)機(jī)制實(shí)現(xiàn)分組調(diào)整,均分調(diào)整算法按照系統(tǒng)的I/O性能要求計(jì)算磁盤分組調(diào)整因子;按比例調(diào)整則考慮不同類型對(duì)象的存儲(chǔ)比例需求。非對(duì)稱分組的數(shù)據(jù)組織適合去重對(duì)象的存儲(chǔ),可根據(jù)備份數(shù)據(jù)流的負(fù)載變化調(diào)整磁盤分組。在10磁盤、初始3分組的存儲(chǔ)配置下,磁盤分組的均分調(diào)整和按比例調(diào)整分別降低約22%和27%的能耗。(3)提出一種基于訪問頻度的冷熱元數(shù)據(jù)存儲(chǔ)組織策略,提高元數(shù)據(jù)訪問效率。為降低磁盤索引訪問次數(shù),大多數(shù)研究集中在指紋值查找技術(shù),忽略了由索引查找和元數(shù)據(jù)存儲(chǔ)引入的能耗問題。論文將元數(shù)據(jù)分為熱元數(shù)據(jù)和冷元數(shù)據(jù),熱元數(shù)據(jù)的存儲(chǔ)采用交叉分組的數(shù)據(jù)組織,基于B+樹組織索引結(jié)構(gòu),并將指紋值表分成子表,子表的大小受數(shù)據(jù)組織中存儲(chǔ)子塊大小的控制,按照數(shù)據(jù)流中存儲(chǔ)塊到達(dá)順序存儲(chǔ)元數(shù)據(jù)條目;冷元數(shù)據(jù)采用單塊磁盤順序?qū)懙姆绞綄懭氪疟P組,使用追加式的文件結(jié)構(gòu)來(lái)保持空間局部性。將冷熱元數(shù)據(jù)分開存放,在熱元數(shù)據(jù)5磁盤2分組和冷元數(shù)據(jù)3磁盤3分組的存儲(chǔ)配置下,降低元數(shù)據(jù)存儲(chǔ)能耗約21%。(4)提出一種基于存儲(chǔ)位置的副本復(fù)制和恢復(fù)策略,提高數(shù)據(jù)恢復(fù)效率。存儲(chǔ)重復(fù)數(shù)據(jù)塊能有效提高數(shù)據(jù)恢復(fù)速度,以往研究大多根據(jù)重復(fù)訪問率來(lái)決定需要復(fù)制哪些數(shù)據(jù)塊,組成最新備份的數(shù)據(jù)塊往往分布在存儲(chǔ)系統(tǒng)的各處,因此恢復(fù)去重?cái)?shù)據(jù)會(huì)導(dǎo)致大量對(duì)磁盤的隨機(jī)讀取。論文設(shè)計(jì)一種基于存儲(chǔ)位置的有選擇復(fù)制和數(shù)據(jù)恢復(fù)策略,對(duì)交叉分組的數(shù)據(jù)組織進(jìn)行進(jìn)一步的區(qū)域劃分。引入距離訪問矩陣,用塊訪問距離反映所在存儲(chǔ)區(qū)域的狀態(tài),在恢復(fù)去重?cái)?shù)據(jù)時(shí),選擇一個(gè)相對(duì)最優(yōu)的讀取區(qū)域。在10磁盤3分組的交叉分組數(shù)據(jù)組織下,這種優(yōu)化策略能夠在降低重復(fù)數(shù)據(jù)刪除率7.4%的代價(jià)下,提高22%的數(shù)據(jù)恢復(fù)性能。對(duì)于非對(duì)稱分組的對(duì)象存儲(chǔ)數(shù)據(jù)組織,相比普通RAID-4能夠提高約11%的數(shù)據(jù)恢復(fù)性能。
【關(guān)鍵詞】:重復(fù)數(shù)據(jù)刪除 數(shù)據(jù)組織 元數(shù)據(jù) 數(shù)據(jù)恢復(fù) 節(jié)能存儲(chǔ)系統(tǒng)
【學(xué)位授予單位】:北京理工大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP311.13
【目錄】:
- 摘要5-7
- Abstract7-17
- 第1章 緒論17-27
- 1.1 本論文研究的目的和意義17-18
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀及發(fā)展趨勢(shì)18-23
- 1.3 本論文的研究背景23-24
- 1.4 本論文的研究?jī)?nèi)容24-25
- 1.5 本論文的組織結(jié)構(gòu)25-27
- 第2章 重復(fù)數(shù)據(jù)刪除系統(tǒng)的節(jié)能數(shù)據(jù)組織27-51
- 2.1 能耗優(yōu)化的重復(fù)數(shù)據(jù)刪除系統(tǒng)原型27-29
- 2.2 重復(fù)數(shù)據(jù)刪除系統(tǒng)的數(shù)據(jù)訪問特征29-30
- 2.3 重復(fù)數(shù)據(jù)刪除的性能分析模型30-33
- 2.3.1 重復(fù)數(shù)據(jù)刪除率分析模型30-33
- 2.3.2 時(shí)間性能分析模型33
- 2.4 能耗優(yōu)化的分塊數(shù)據(jù)組織33-43
- 2.4.1 交叉分組的數(shù)據(jù)組織34-38
- 2.4.2 磁盤分組參數(shù)分析38-39
- 2.4.3 節(jié)能磁盤調(diào)度算法39-43
- 2.5 能耗優(yōu)化的分塊策略43-45
- 2.6 實(shí)驗(yàn)結(jié)果及分析45-50
- 2.6.1 數(shù)據(jù)組織性能測(cè)試46-48
- 2.6.2 數(shù)據(jù)組織節(jié)能測(cè)試48
- 2.6.3 EOCDC算法的有效性測(cè)試48-50
- 2.7 小結(jié)50-51
- 第3章 重復(fù)數(shù)據(jù)刪除系統(tǒng)的對(duì)象級(jí)數(shù)據(jù)組織51-78
- 3.1 面向非結(jié)構(gòu)化復(fù)合文件的重復(fù)數(shù)據(jù)刪除51-52
- 3.2 基于對(duì)象的OpenXML復(fù)合文件去重方法52-59
- 3.2.1 基于對(duì)象的去重過(guò)程52-54
- 3.2.2 OpenXML文件對(duì)象提取方法54-55
- 3.2.3 基于對(duì)象的OpenXML復(fù)合文件去重方法55-59
- 3.3 重復(fù)數(shù)據(jù)刪除系統(tǒng)的對(duì)象級(jí)存儲(chǔ)方法59-67
- 3.3.1 對(duì)象粒度的存儲(chǔ)結(jié)構(gòu)59-60
- 3.3.2 非對(duì)稱分組的對(duì)象存儲(chǔ)數(shù)據(jù)組織60-62
- 3.3.3 面向?qū)ο蟠鎯?chǔ)的非對(duì)稱分組調(diào)整算法62-67
- 3.4 實(shí)驗(yàn)結(jié)果及分析67-76
- 3.4.1 非對(duì)稱分組的對(duì)象存儲(chǔ)性能測(cè)試67-69
- 3.4.2 非對(duì)稱分組的數(shù)據(jù)組織節(jié)能測(cè)試69-70
- 3.4.3 對(duì)象級(jí)去重效率測(cè)試70-76
- 3.5 小結(jié)76-78
- 第4章 重復(fù)數(shù)據(jù)刪除系統(tǒng)的元數(shù)據(jù)組織78-90
- 4.1 元數(shù)據(jù)組織78-86
- 4.1.1 分塊重復(fù)數(shù)據(jù)刪除的熱元數(shù)據(jù)結(jié)構(gòu)78-81
- 4.1.2 對(duì)象級(jí)重復(fù)數(shù)據(jù)刪除的熱元數(shù)據(jù)結(jié)構(gòu)81-83
- 4.1.3 熱元數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)策略83-85
- 4.1.4 冷元數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)策略85-86
- 4.2 實(shí)驗(yàn)結(jié)果及分析86-89
- 4.3 小結(jié)89-90
- 第5章 去重?cái)?shù)據(jù)恢復(fù)的優(yōu)化策略90-103
- 5.1 重復(fù)數(shù)據(jù)刪除系統(tǒng)的數(shù)據(jù)碎片問題90-91
- 5.2 去重?cái)?shù)據(jù)恢復(fù)優(yōu)化策略91-97
- 5.2.1 存儲(chǔ)區(qū)域劃分91-92
- 5.2.2 基于存儲(chǔ)位置的復(fù)制與數(shù)據(jù)恢復(fù)策略92-97
- 5.3 實(shí)驗(yàn)結(jié)果及分析97-102
- 5.3.1 基于交叉分組的去重?cái)?shù)據(jù)恢復(fù)讀性能測(cè)試97-99
- 5.3.2 基于交叉分組的數(shù)據(jù)恢復(fù)性能對(duì)比測(cè)試99-100
- 5.3.3 非對(duì)稱分組數(shù)據(jù)組織的去重?cái)?shù)據(jù)恢復(fù)性能測(cè)試100-102
- 5.4 小結(jié)102-103
- 總結(jié)103-106
- 參考文獻(xiàn)106-114
- 攻讀學(xué)位期間發(fā)表論文與研究成果清單114-115
- 致謝115-116
- 作者簡(jiǎn)介116
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前6條
1 陸游游;敖莉;舒繼武;;一種基于重復(fù)數(shù)據(jù)刪除的備份系統(tǒng)[J];計(jì)算機(jī)研究與發(fā)展;2012年S1期
2 李哠;譚毓安;李元章;;一種塊級(jí)連續(xù)數(shù)據(jù)保護(hù)系統(tǒng)的快速恢復(fù)方法[J];北京理工大學(xué)學(xué)報(bào);2011年06期
3 周敬利;聶雪軍;秦磊華;劉科;朱建峰;王宇;;基于存儲(chǔ)環(huán)境感知的重復(fù)數(shù)據(jù)刪除算法優(yōu)化[J];計(jì)算機(jī)科學(xué);2011年02期
4 田磊;馮丹;岳銀亮;吳素貞;毛波;;磁盤存儲(chǔ)系統(tǒng)節(jié)能技術(shù)研究綜述[J];計(jì)算機(jī)科學(xué);2010年09期
5 敖莉;舒繼武;李明強(qiáng);;重復(fù)數(shù)據(jù)刪除技術(shù)[J];軟件學(xué)報(bào);2010年05期
6 穆飛;薛巍;舒繼武;鄭緯民;;基于定位目錄的元數(shù)據(jù)管理方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版)網(wǎng)絡(luò).預(yù)覽;2009年08期
本文關(guān)鍵詞:重復(fù)數(shù)據(jù)刪除系統(tǒng)數(shù)據(jù)組織研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):297828
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/297828.html