基于FastDFS的重復(fù)數(shù)據(jù)管理技術(shù)的研究與實(shí)現(xiàn)
本文關(guān)鍵詞:基于FastDFS的重復(fù)數(shù)據(jù)管理技術(shù)的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,帶來(lái)的是數(shù)字信息量的爆炸式增長(zhǎng),尤其是在云存儲(chǔ)系統(tǒng)中,其數(shù)據(jù)量甚至達(dá)到PB級(jí)的規(guī)模。面對(duì)如此龐大的數(shù)據(jù)量,研究如何有效地發(fā)現(xiàn)和消除系統(tǒng)中的重復(fù)數(shù)據(jù)變得尤為重要。數(shù)據(jù)分塊算法能夠快速高效地檢測(cè)出文件之間的重復(fù)數(shù)據(jù),是相同數(shù)據(jù)檢測(cè)技術(shù)的核心。針對(duì)現(xiàn)有的數(shù)據(jù)分塊算法分塊邊界不確定導(dǎo)致數(shù)據(jù)分塊過(guò)大和容易產(chǎn)生數(shù)據(jù)碎片的缺點(diǎn),立足于消除系統(tǒng)中的硬分塊,平衡提高分塊算法的消重率和降低分塊算法的時(shí)間消耗之間的矛盾,論文提出了基于預(yù)分塊的滑動(dòng)窗口分塊算法SWCDC。SWCDC對(duì)文件內(nèi)容沒(méi)有發(fā)生變化的區(qū)域采用較大的分塊預(yù)期值進(jìn)行分塊,而對(duì)文件內(nèi)容發(fā)生變化的區(qū)域采用較小的分塊預(yù)期值進(jìn)行分塊。通過(guò)區(qū)分對(duì)待數(shù)據(jù)變動(dòng)區(qū)域和非變動(dòng)區(qū)域,SWCDC特別適用于對(duì)重復(fù)數(shù)據(jù)較多的系統(tǒng)進(jìn)行重復(fù)數(shù)據(jù)管理。另外,在SWCDC的基礎(chǔ)上,為了降低數(shù)據(jù)分塊的元數(shù)據(jù)開(kāi)銷(xiāo),提出了基于合并的滑動(dòng)窗口分塊算法ISWFDC。實(shí)驗(yàn)結(jié)果表明,SWCDC和ISWFDC算法可以比傳統(tǒng)的分塊算法獲得更高的消重性能。針對(duì)現(xiàn)有的布隆過(guò)濾器在數(shù)據(jù)塊指紋集較大時(shí)查詢(xún)速度較慢,不能很好地適應(yīng)云存儲(chǔ)環(huán)境下數(shù)據(jù)塊指紋集的動(dòng)態(tài)增長(zhǎng)這一問(wèn)題,論文提出了動(dòng)態(tài)布隆過(guò)濾器矩陣集合DBFMS。DBFMS通過(guò)將數(shù)據(jù)塊指紋集表示為s個(gè)t?m的位矩陣,而不是s?t個(gè)m位的布隆過(guò)濾器位串,使檢索重復(fù)數(shù)據(jù)塊指紋的效率得到了顯著的提升。理論分析、仿真測(cè)試和實(shí)驗(yàn)表明,DBFMS相對(duì)于傳統(tǒng)的靜態(tài)布隆過(guò)濾器以及動(dòng)態(tài)布隆過(guò)濾器而言,其在可擴(kuò)展性、查詢(xún)效率和假陽(yáng)性概率方面都取得了較好的改進(jìn)效果。最后,本文結(jié)合重復(fù)數(shù)據(jù)管理相關(guān)理論及其系統(tǒng)結(jié)構(gòu)模型,融入提出的改進(jìn)算法,并采用開(kāi)源的FastDFS分布式文件系統(tǒng),通過(guò)配置FastDFS分布式文件系統(tǒng)集群實(shí)現(xiàn)了基于FastDFS的重復(fù)數(shù)據(jù)管理平臺(tái),完成了文件的上傳、下載、刪除、重命名以及重復(fù)數(shù)據(jù)管理等功能。對(duì)比應(yīng)用改進(jìn)算法前后系統(tǒng)的測(cè)試結(jié)果表明,改進(jìn)后的重復(fù)數(shù)據(jù)管理系統(tǒng)的消重性能更好,效率更高,更加適用于云存儲(chǔ)環(huán)境。
【關(guān)鍵詞】:重復(fù)數(shù)據(jù)管理 相同數(shù)據(jù)檢測(cè) 數(shù)據(jù)分塊算法 布隆過(guò)濾器
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP333
【目錄】:
- 摘要5-6
- ABSTRACT6-11
- 第一章 緒論11-17
- 1.1 研究背景11-12
- 1.2 研究意義12-13
- 1.3 國(guó)內(nèi)外研究現(xiàn)狀13-15
- 1.3.1 重復(fù)數(shù)據(jù)管理技術(shù)國(guó)內(nèi)外研究現(xiàn)狀13-15
- 1.3.2 FastDFS研究現(xiàn)狀15
- 1.4 本文的主要研究?jī)?nèi)容與組織結(jié)構(gòu)15-17
- 第二章 重復(fù)數(shù)據(jù)管理技術(shù)概述17-27
- 2.1 重復(fù)數(shù)據(jù)管理技術(shù)概念17-19
- 2.1.1 重復(fù)數(shù)據(jù)管理技術(shù)定義17
- 2.1.2 重復(fù)數(shù)據(jù)管理技術(shù)分類(lèi)17-19
- 2.2 重復(fù)數(shù)據(jù)管理技術(shù)體系19-24
- 2.2.1 相同數(shù)據(jù)檢測(cè)技術(shù)19-21
- 2.2.2 相似數(shù)據(jù)檢測(cè)及編碼技術(shù)21-22
- 2.2.3 重復(fù)數(shù)據(jù)管理系統(tǒng)性能優(yōu)化技術(shù)22-23
- 2.2.4 重復(fù)數(shù)據(jù)管理系統(tǒng)可靠性保障技術(shù)23
- 2.2.5 重復(fù)數(shù)據(jù)管理系統(tǒng)安全性技術(shù)23-24
- 2.3 FastDFS技術(shù)分析和體系結(jié)構(gòu)24-26
- 2.3.1 FastDFS技術(shù)分析24-25
- 2.3.2 FastDFS體系結(jié)構(gòu)25-26
- 2.4 本章小結(jié)26-27
- 第三章 數(shù)據(jù)分塊算法的研究與改進(jìn)27-44
- 3.1 現(xiàn)有分塊算法的主要流程27-28
- 3.2 分塊算法研究現(xiàn)狀28-32
- 3.2.1 固定長(zhǎng)度分塊算法28-29
- 3.2.2 基于內(nèi)容的可變長(zhǎng)度分塊算法29-30
- 3.2.3 FingerDiff分塊算法30-31
- 3.2.4 滑動(dòng)窗.分塊算法31-32
- 3.3 現(xiàn)有數(shù)據(jù)分塊算法存在問(wèn)題分析32-33
- 3.4 數(shù)據(jù)分塊算法性能評(píng)價(jià)指標(biāo)33-34
- 3.4.1 建立評(píng)價(jià)指標(biāo)33
- 3.4.2 評(píng)價(jià)指標(biāo)分析33-34
- 3.5 改進(jìn)算法34-38
- 3.5.1 基于預(yù)分塊的滑動(dòng)窗.分塊算法34-36
- 3.5.2 基于合并的滑動(dòng)窗.分塊算法36-38
- 3.6 實(shí)驗(yàn)及結(jié)果分析38-43
- 3.6.1 實(shí)驗(yàn)數(shù)據(jù)及實(shí)驗(yàn)環(huán)境38-39
- 3.6.2 實(shí)驗(yàn)結(jié)果39-42
- 3.6.3 實(shí)驗(yàn)結(jié)論42-43
- 3.7 本章小結(jié)43-44
- 第四章 基于改進(jìn)的布隆過(guò)濾器的重復(fù)數(shù)據(jù)塊指紋檢索技術(shù)44-61
- 4.1 現(xiàn)有重復(fù)數(shù)據(jù)塊指紋檢索技術(shù)的主要流程44-45
- 4.2 布隆過(guò)濾器研究現(xiàn)狀45-48
- 4.2.1 靜態(tài)布隆過(guò)濾器45-47
- 4.2.2 動(dòng)態(tài)布隆過(guò)濾器47-48
- 4.3 現(xiàn)有布隆過(guò)濾器存在問(wèn)題分析48-49
- 4.4 布隆過(guò)濾器性能評(píng)價(jià)指標(biāo)49-50
- 4.4.1 建立評(píng)價(jià)指標(biāo)49
- 4.4.2 分析評(píng)價(jià)指標(biāo)49-50
- 4.5 動(dòng)態(tài)布隆過(guò)濾器矩陣集合50-54
- 4.6 實(shí)驗(yàn)及結(jié)果分析54-60
- 4.6.1 平均查詢(xún)時(shí)間55-57
- 4.6.2 假陽(yáng)性概率57-60
- 4.7 本章小結(jié)60-61
- 第五章 基于FastDFS的重復(fù)數(shù)據(jù)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)61-80
- 5.1 系統(tǒng)簡(jiǎn)介61-64
- 5.1.1 實(shí)現(xiàn)目標(biāo)61
- 5.1.2 總體架構(gòu)設(shè)計(jì)61-63
- 5.1.3 總體功能設(shè)計(jì)63-64
- 5.1.4 總體結(jié)構(gòu)設(shè)計(jì)64
- 5.2 重復(fù)數(shù)據(jù)管理系統(tǒng)環(huán)境搭建64-68
- 5.2.1 系統(tǒng)部署示意圖65
- 5.2.2 FastDFS集群的安裝部署65-66
- 5.2.3 MongoDB的部署66-67
- 5.2.4 OpenAM的布署67
- 5.2.5 開(kāi)發(fā)環(huán)境搭建67-68
- 5.3 重復(fù)數(shù)據(jù)管理系統(tǒng)模塊設(shè)計(jì)與實(shí)現(xiàn)68-73
- 5.3.1 主要功能模塊68
- 5.3.2 數(shù)據(jù)存儲(chǔ)子系統(tǒng)68
- 5.3.3 訪問(wèn)控制子系統(tǒng)68-69
- 5.3.4 元數(shù)據(jù)子系統(tǒng)69
- 5.3.5 重復(fù)數(shù)據(jù)管理平臺(tái)69-70
- 5.3.6 核心功能流程圖70-73
- 5.4 重復(fù)數(shù)據(jù)管理系統(tǒng)展示73-76
- 5.5 重復(fù)數(shù)據(jù)管理系統(tǒng)測(cè)試分析76-79
- 5.5.1 分塊算法對(duì)消重性能的影響76-77
- 5.5.2 布隆過(guò)濾器對(duì)消重性能的影響77-79
- 5.5.3 重復(fù)數(shù)據(jù)管理對(duì)文件上傳性能的影響79
- 5.6 本章小結(jié)79-80
- 第六章 總結(jié)和展望80-82
- 6.1 論文總結(jié)80-81
- 6.2 論文展望81-82
- 致謝82-83
- 參考文獻(xiàn)83-88
- 本人攻讀碩士學(xué)位期間的研究經(jīng)歷和研究成果88-89
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 胡小春;李陶深;王樂(lè);陳燕;陳寧江;;基于NoSQL的大數(shù)據(jù)應(yīng)用設(shè)計(jì)與性能保障方案研究[J];廣西大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年03期
2 邱儒瓊;鄭麗娜;李兵;;基于MongoDB的電子地圖瓦片數(shù)據(jù)存儲(chǔ)和服務(wù)研究[J];地理空間信息;2014年06期
3 黃夢(mèng)龍;;基于MongoDB的城市三維模型數(shù)據(jù)建庫(kù)技術(shù)探討[J];地理空間信息;2015年01期
4 劉思堯;;基于ZABBIX的自動(dòng)化巡檢系統(tǒng)的研究與實(shí)現(xiàn)[J];電力信息與通信技術(shù);2014年12期
5 秦強(qiáng);王晏民;黃明;;基于MongoDB的海量遙感影像大數(shù)據(jù)存儲(chǔ)[J];北京建筑大學(xué)學(xué)報(bào);2015年01期
6 寧柏鋒;許冠中;;供電企業(yè)安全生產(chǎn)管理系統(tǒng)平臺(tái)的設(shè)計(jì)與應(yīng)用[J];電力信息與通信技術(shù);2015年03期
7 黎建輝;楊風(fēng)雷;崔建業(yè);周園春;張波;鞏曉東;趙紅新;;全球食品安全信息監(jiān)控與分析云平臺(tái)架構(gòu)研究[J];計(jì)算機(jī)應(yīng)用研究;2014年08期
8 張剛;孫涌;鄧子艷;李衛(wèi)東;張曉梅;;基于MongoDB的BESIII分布式計(jì)算記賬系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用與軟件;2015年09期
9 孫靜林;樊丁宜;陳艷;;美術(shù)院校高考數(shù)字化評(píng)分系統(tǒng)的研發(fā)[J];實(shí)驗(yàn)技術(shù)與管理;2015年05期
10 梁海;;MongoDB數(shù)據(jù)庫(kù)中Sharding技術(shù)應(yīng)用研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2014年07期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前9條
1 柴化磊;分布式環(huán)境下基于文本的海量數(shù)據(jù)挖掘[D];上海交通大學(xué);2013年
2 李昊;家居導(dǎo)購(gòu)數(shù)據(jù)平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京交通大學(xué);2013年
3 伍昕;基于SOA的倉(cāng)儲(chǔ)管理系統(tǒng)的研究與應(yīng)用[D];湖南大學(xué);2013年
4 王慕潑;企業(yè)集團(tuán)的智能搜索引擎平臺(tái)的建立[D];浙江理工大學(xué);2014年
5 李浩;基于Twitter Storm的云平臺(tái)監(jiān)控系統(tǒng)研究與實(shí)現(xiàn)[D];東北大學(xué);2013年
6 王元?jiǎng)?面向Agent個(gè)體的信念修正系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];大連海事大學(xué);2014年
7 呂林;基于MongoDB的應(yīng)用平臺(tái)的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2015年
8 南海京;一種基于STORM的交通流數(shù)據(jù)實(shí)時(shí)處理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];北方工業(yè)大學(xué);2015年
9 潘翔;面向移動(dòng)互聯(lián)的網(wǎng)絡(luò)傳輸性能優(yōu)化研究[D];杭州電子科技大學(xué);2015年
本文關(guān)鍵詞:基于FastDFS的重復(fù)數(shù)據(jù)管理技術(shù)的研究與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。
本文編號(hào):345062
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/345062.html