基于FastDFS的重復數(shù)據(jù)管理技術的研究與實現(xiàn)
本文關鍵詞:基于FastDFS的重復數(shù)據(jù)管理技術的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:隨著計算機技術的飛速發(fā)展,帶來的是數(shù)字信息量的爆炸式增長,尤其是在云存儲系統(tǒng)中,其數(shù)據(jù)量甚至達到PB級的規(guī)模。面對如此龐大的數(shù)據(jù)量,研究如何有效地發(fā)現(xiàn)和消除系統(tǒng)中的重復數(shù)據(jù)變得尤為重要。數(shù)據(jù)分塊算法能夠快速高效地檢測出文件之間的重復數(shù)據(jù),是相同數(shù)據(jù)檢測技術的核心。針對現(xiàn)有的數(shù)據(jù)分塊算法分塊邊界不確定導致數(shù)據(jù)分塊過大和容易產(chǎn)生數(shù)據(jù)碎片的缺點,立足于消除系統(tǒng)中的硬分塊,平衡提高分塊算法的消重率和降低分塊算法的時間消耗之間的矛盾,論文提出了基于預分塊的滑動窗口分塊算法SWCDC。SWCDC對文件內(nèi)容沒有發(fā)生變化的區(qū)域采用較大的分塊預期值進行分塊,而對文件內(nèi)容發(fā)生變化的區(qū)域采用較小的分塊預期值進行分塊。通過區(qū)分對待數(shù)據(jù)變動區(qū)域和非變動區(qū)域,SWCDC特別適用于對重復數(shù)據(jù)較多的系統(tǒng)進行重復數(shù)據(jù)管理。另外,在SWCDC的基礎上,為了降低數(shù)據(jù)分塊的元數(shù)據(jù)開銷,提出了基于合并的滑動窗口分塊算法ISWFDC。實驗結果表明,SWCDC和ISWFDC算法可以比傳統(tǒng)的分塊算法獲得更高的消重性能。針對現(xiàn)有的布隆過濾器在數(shù)據(jù)塊指紋集較大時查詢速度較慢,不能很好地適應云存儲環(huán)境下數(shù)據(jù)塊指紋集的動態(tài)增長這一問題,論文提出了動態(tài)布隆過濾器矩陣集合DBFMS。DBFMS通過將數(shù)據(jù)塊指紋集表示為s個t?m的位矩陣,而不是s?t個m位的布隆過濾器位串,使檢索重復數(shù)據(jù)塊指紋的效率得到了顯著的提升。理論分析、仿真測試和實驗表明,DBFMS相對于傳統(tǒng)的靜態(tài)布隆過濾器以及動態(tài)布隆過濾器而言,其在可擴展性、查詢效率和假陽性概率方面都取得了較好的改進效果。最后,本文結合重復數(shù)據(jù)管理相關理論及其系統(tǒng)結構模型,融入提出的改進算法,并采用開源的FastDFS分布式文件系統(tǒng),通過配置FastDFS分布式文件系統(tǒng)集群實現(xiàn)了基于FastDFS的重復數(shù)據(jù)管理平臺,完成了文件的上傳、下載、刪除、重命名以及重復數(shù)據(jù)管理等功能。對比應用改進算法前后系統(tǒng)的測試結果表明,改進后的重復數(shù)據(jù)管理系統(tǒng)的消重性能更好,效率更高,更加適用于云存儲環(huán)境。
【關鍵詞】:重復數(shù)據(jù)管理 相同數(shù)據(jù)檢測 數(shù)據(jù)分塊算法 布隆過濾器
【學位授予單位】:電子科技大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP333
【目錄】:
- 摘要5-6
- ABSTRACT6-11
- 第一章 緒論11-17
- 1.1 研究背景11-12
- 1.2 研究意義12-13
- 1.3 國內(nèi)外研究現(xiàn)狀13-15
- 1.3.1 重復數(shù)據(jù)管理技術國內(nèi)外研究現(xiàn)狀13-15
- 1.3.2 FastDFS研究現(xiàn)狀15
- 1.4 本文的主要研究內(nèi)容與組織結構15-17
- 第二章 重復數(shù)據(jù)管理技術概述17-27
- 2.1 重復數(shù)據(jù)管理技術概念17-19
- 2.1.1 重復數(shù)據(jù)管理技術定義17
- 2.1.2 重復數(shù)據(jù)管理技術分類17-19
- 2.2 重復數(shù)據(jù)管理技術體系19-24
- 2.2.1 相同數(shù)據(jù)檢測技術19-21
- 2.2.2 相似數(shù)據(jù)檢測及編碼技術21-22
- 2.2.3 重復數(shù)據(jù)管理系統(tǒng)性能優(yōu)化技術22-23
- 2.2.4 重復數(shù)據(jù)管理系統(tǒng)可靠性保障技術23
- 2.2.5 重復數(shù)據(jù)管理系統(tǒng)安全性技術23-24
- 2.3 FastDFS技術分析和體系結構24-26
- 2.3.1 FastDFS技術分析24-25
- 2.3.2 FastDFS體系結構25-26
- 2.4 本章小結26-27
- 第三章 數(shù)據(jù)分塊算法的研究與改進27-44
- 3.1 現(xiàn)有分塊算法的主要流程27-28
- 3.2 分塊算法研究現(xiàn)狀28-32
- 3.2.1 固定長度分塊算法28-29
- 3.2.2 基于內(nèi)容的可變長度分塊算法29-30
- 3.2.3 FingerDiff分塊算法30-31
- 3.2.4 滑動窗.分塊算法31-32
- 3.3 現(xiàn)有數(shù)據(jù)分塊算法存在問題分析32-33
- 3.4 數(shù)據(jù)分塊算法性能評價指標33-34
- 3.4.1 建立評價指標33
- 3.4.2 評價指標分析33-34
- 3.5 改進算法34-38
- 3.5.1 基于預分塊的滑動窗.分塊算法34-36
- 3.5.2 基于合并的滑動窗.分塊算法36-38
- 3.6 實驗及結果分析38-43
- 3.6.1 實驗數(shù)據(jù)及實驗環(huán)境38-39
- 3.6.2 實驗結果39-42
- 3.6.3 實驗結論42-43
- 3.7 本章小結43-44
- 第四章 基于改進的布隆過濾器的重復數(shù)據(jù)塊指紋檢索技術44-61
- 4.1 現(xiàn)有重復數(shù)據(jù)塊指紋檢索技術的主要流程44-45
- 4.2 布隆過濾器研究現(xiàn)狀45-48
- 4.2.1 靜態(tài)布隆過濾器45-47
- 4.2.2 動態(tài)布隆過濾器47-48
- 4.3 現(xiàn)有布隆過濾器存在問題分析48-49
- 4.4 布隆過濾器性能評價指標49-50
- 4.4.1 建立評價指標49
- 4.4.2 分析評價指標49-50
- 4.5 動態(tài)布隆過濾器矩陣集合50-54
- 4.6 實驗及結果分析54-60
- 4.6.1 平均查詢時間55-57
- 4.6.2 假陽性概率57-60
- 4.7 本章小結60-61
- 第五章 基于FastDFS的重復數(shù)據(jù)管理系統(tǒng)的設計與實現(xiàn)61-80
- 5.1 系統(tǒng)簡介61-64
- 5.1.1 實現(xiàn)目標61
- 5.1.2 總體架構設計61-63
- 5.1.3 總體功能設計63-64
- 5.1.4 總體結構設計64
- 5.2 重復數(shù)據(jù)管理系統(tǒng)環(huán)境搭建64-68
- 5.2.1 系統(tǒng)部署示意圖65
- 5.2.2 FastDFS集群的安裝部署65-66
- 5.2.3 MongoDB的部署66-67
- 5.2.4 OpenAM的布署67
- 5.2.5 開發(fā)環(huán)境搭建67-68
- 5.3 重復數(shù)據(jù)管理系統(tǒng)模塊設計與實現(xiàn)68-73
- 5.3.1 主要功能模塊68
- 5.3.2 數(shù)據(jù)存儲子系統(tǒng)68
- 5.3.3 訪問控制子系統(tǒng)68-69
- 5.3.4 元數(shù)據(jù)子系統(tǒng)69
- 5.3.5 重復數(shù)據(jù)管理平臺69-70
- 5.3.6 核心功能流程圖70-73
- 5.4 重復數(shù)據(jù)管理系統(tǒng)展示73-76
- 5.5 重復數(shù)據(jù)管理系統(tǒng)測試分析76-79
- 5.5.1 分塊算法對消重性能的影響76-77
- 5.5.2 布隆過濾器對消重性能的影響77-79
- 5.5.3 重復數(shù)據(jù)管理對文件上傳性能的影響79
- 5.6 本章小結79-80
- 第六章 總結和展望80-82
- 6.1 論文總結80-81
- 6.2 論文展望81-82
- 致謝82-83
- 參考文獻83-88
- 本人攻讀碩士學位期間的研究經(jīng)歷和研究成果88-89
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 胡小春;李陶深;王樂;陳燕;陳寧江;;基于NoSQL的大數(shù)據(jù)應用設計與性能保障方案研究[J];廣西大學學報(自然科學版);2014年03期
2 邱儒瓊;鄭麗娜;李兵;;基于MongoDB的電子地圖瓦片數(shù)據(jù)存儲和服務研究[J];地理空間信息;2014年06期
3 黃夢龍;;基于MongoDB的城市三維模型數(shù)據(jù)建庫技術探討[J];地理空間信息;2015年01期
4 劉思堯;;基于ZABBIX的自動化巡檢系統(tǒng)的研究與實現(xiàn)[J];電力信息與通信技術;2014年12期
5 秦強;王晏民;黃明;;基于MongoDB的海量遙感影像大數(shù)據(jù)存儲[J];北京建筑大學學報;2015年01期
6 寧柏鋒;許冠中;;供電企業(yè)安全生產(chǎn)管理系統(tǒng)平臺的設計與應用[J];電力信息與通信技術;2015年03期
7 黎建輝;楊風雷;崔建業(yè);周園春;張波;鞏曉東;趙紅新;;全球食品安全信息監(jiān)控與分析云平臺架構研究[J];計算機應用研究;2014年08期
8 張剛;孫涌;鄧子艷;李衛(wèi)東;張曉梅;;基于MongoDB的BESIII分布式計算記賬系統(tǒng)的研究與實現(xiàn)[J];計算機應用與軟件;2015年09期
9 孫靜林;樊丁宜;陳艷;;美術院校高考數(shù)字化評分系統(tǒng)的研發(fā)[J];實驗技術與管理;2015年05期
10 梁海;;MongoDB數(shù)據(jù)庫中Sharding技術應用研究[J];計算機技術與發(fā)展;2014年07期
中國碩士學位論文全文數(shù)據(jù)庫 前9條
1 柴化磊;分布式環(huán)境下基于文本的海量數(shù)據(jù)挖掘[D];上海交通大學;2013年
2 李昊;家居導購數(shù)據(jù)平臺的設計與實現(xiàn)[D];北京交通大學;2013年
3 伍昕;基于SOA的倉儲管理系統(tǒng)的研究與應用[D];湖南大學;2013年
4 王慕潑;企業(yè)集團的智能搜索引擎平臺的建立[D];浙江理工大學;2014年
5 李浩;基于Twitter Storm的云平臺監(jiān)控系統(tǒng)研究與實現(xiàn)[D];東北大學;2013年
6 王元剛;面向Agent個體的信念修正系統(tǒng)設計與實現(xiàn)[D];大連海事大學;2014年
7 呂林;基于MongoDB的應用平臺的研究與實現(xiàn)[D];北京郵電大學;2015年
8 南海京;一種基于STORM的交通流數(shù)據(jù)實時處理系統(tǒng)設計與實現(xiàn)[D];北方工業(yè)大學;2015年
9 潘翔;面向移動互聯(lián)的網(wǎng)絡傳輸性能優(yōu)化研究[D];杭州電子科技大學;2015年
本文關鍵詞:基于FastDFS的重復數(shù)據(jù)管理技術的研究與實現(xiàn),,由筆耕文化傳播整理發(fā)布。
本文編號:345062
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/345062.html