基于Hadoop平臺(tái)的分布式重刪存儲(chǔ)系統(tǒng)
本文關(guān)鍵詞:基于Hadoop平臺(tái)的分布式重刪存儲(chǔ)系統(tǒng)
更多相關(guān)文章: 重復(fù)數(shù)據(jù)刪除 分布式存儲(chǔ) Hadoop HBase Hadoop分布式文件系統(tǒng)
【摘要】:針對數(shù)據(jù)中心存在大量數(shù)據(jù)冗余的問題,特別是備份數(shù)據(jù)造成的存儲(chǔ)容量浪費(fèi),提出一種基于Hadoop平臺(tái)的分布式重復(fù)數(shù)據(jù)刪除解決方案。該方案通過檢測并消除特定數(shù)據(jù)集內(nèi)的冗余數(shù)據(jù),來顯著降低數(shù)據(jù)存儲(chǔ)容量,優(yōu)化存儲(chǔ)空間利用率。利用Hadoop大數(shù)據(jù)處理平臺(tái)下的分布式文件系統(tǒng)(HDFS)和非關(guān)系型數(shù)據(jù)庫HBase兩種數(shù)據(jù)管理模式,設(shè)計(jì)并實(shí)現(xiàn)一種可擴(kuò)展分布式重刪存儲(chǔ)系統(tǒng)。其中,Map Reduce并行編程框架實(shí)現(xiàn)分布式并行重刪處理,HDFS負(fù)責(zé)重刪后的數(shù)據(jù)存儲(chǔ),在HBase數(shù)據(jù)庫中構(gòu)建索引表,實(shí)現(xiàn)高效數(shù)據(jù)塊索引查詢。最后,利用虛擬機(jī)鏡像文件數(shù)據(jù)集對系統(tǒng)進(jìn)行了測試,基于Hadoop平臺(tái)的分布式重刪系統(tǒng)能在保證高重刪率的同時(shí),具有高吞吐率和良好的可擴(kuò)展性。
【作者單位】: 解放軍理工大學(xué)指揮信息系統(tǒng)學(xué)院;
【關(guān)鍵詞】: 重復(fù)數(shù)據(jù)刪除 分布式存儲(chǔ) Hadoop HBase Hadoop分布式文件系統(tǒng)
【基金】:國家863計(jì)劃項(xiàng)目(2012AA01A509,2012AA01A510) 國家自然科學(xué)基金資助項(xiàng)目(61402518)~~
【分類號】:TP333
【正文快照】: 0引言隨著信息科技的高速發(fā)展,云計(jì)算、物聯(lián)網(wǎng)、信息柵格以及各種社交平臺(tái)等新興技術(shù)不斷涌現(xiàn),數(shù)據(jù)類型逐漸多樣化,數(shù)據(jù)量急劇增長,特別是半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。面對持續(xù)膨脹的海量數(shù)據(jù),存儲(chǔ)系統(tǒng)容量以及存儲(chǔ)數(shù)據(jù)管理逐步成為富有挑戰(zhàn)性的問題。一方面,數(shù)據(jù)中心需要增加大
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 李紅;藍(lán)光存儲(chǔ)系統(tǒng) 光盤容量高達(dá)23G[J];信息記錄材料;2004年01期
2 ;存儲(chǔ)系統(tǒng) 金融行業(yè)應(yīng)用卓越獎(jiǎng) 醫(yī)療行業(yè)應(yīng)用卓越獎(jiǎng)[J];每周電腦報(bào);2004年20期
3 諾拉;EMC Symmetrix DMX-3存儲(chǔ)系統(tǒng) 超大容量 高速存取[J];中國計(jì)算機(jī)用戶;2005年31期
4 謝世誠;;浪潮推出4Gb光纖存儲(chǔ)系統(tǒng)[J];微型機(jī)與應(yīng)用;2006年07期
5 ;昆騰分級存儲(chǔ)系統(tǒng)[J];軟件世界;2009年11期
6 ;超低功耗云存儲(chǔ)系統(tǒng)或被地方政府看好[J];中國有線電視;2013年08期
7 湯赫男;;云存儲(chǔ)系統(tǒng)的分析與應(yīng)用研究[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2013年24期
8 諶偉;;云存儲(chǔ)系統(tǒng)的分析與應(yīng)用探討[J];數(shù)字技術(shù)與應(yīng)用;2013年10期
9 雅君;跟上企業(yè)的匆匆腳步——利用HP SureStoreEXP256構(gòu)筑企業(yè)存儲(chǔ)系統(tǒng)[J];中國計(jì)算機(jī)用戶;2000年08期
10 賈莉;;Symmetrix8000實(shí)現(xiàn)19TB存儲(chǔ)[J];每周電腦報(bào);2000年18期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 趙志剛;;存儲(chǔ)系統(tǒng)在企業(yè)信息化中的應(yīng)用[A];2005年安徽通信論文集[C];2006年
2 黃曉峰;張杰;;礦井信息中心存儲(chǔ)系統(tǒng)設(shè)計(jì)[A];安全高效礦井機(jī)電裝備及信息化技術(shù)——陜西省煤炭學(xué)會(huì)學(xué)術(shù)年會(huì)論文集(2011)[C];2011年
3 孫哲;李昌銀;;構(gòu)建核電高可用云存儲(chǔ)系統(tǒng)[A];2012電力行業(yè)信息化年會(huì)優(yōu)秀論文專輯[C];2012年
4 焦超;周天彤;李祥學(xué);李建華;;面向?yàn)?zāi)備的高性能可信存儲(chǔ)系統(tǒng)設(shè)計(jì)[A];第十一屆保密通信與信息安全現(xiàn)狀研討會(huì)論文集[C];2009年
5 汪位龍;;設(shè)計(jì)院存儲(chǔ)系統(tǒng)建設(shè)初探[A];中國公路學(xué)會(huì)計(jì)算機(jī)應(yīng)用分會(huì)2004年年會(huì)學(xué)術(shù)論文集[C];2004年
6 梅松竹;李宗伯;;Storage 7000系列混合存儲(chǔ)系統(tǒng)分析[A];2009年中國高校通信類院系學(xué)術(shù)研討會(huì)論文集[C];2009年
7 王克敏;張璽;胡江凱;王毅濤;;NWP資料歸檔方法及其存儲(chǔ)系統(tǒng)的應(yīng)用[A];中國氣象學(xué)會(huì)2006年年會(huì)“中尺度天氣動(dòng)力學(xué)、數(shù)值模擬和預(yù)測”分會(huì)場論文集[C];2006年
8 孫哲;李昌銀;;DeDu:基于云計(jì)算的冗余刪除存儲(chǔ)系統(tǒng)[A];電力行業(yè)新一代信息技術(shù)研討會(huì)論文集[C];2011年
9 高小伍;黨齊民;林晨;;校園網(wǎng)存儲(chǔ)系統(tǒng)的研究與實(shí)現(xiàn)[A];中國高等教育學(xué)會(huì)教育信息化分會(huì)第十次學(xué)術(shù)年會(huì)論文集[C];2010年
10 宮海林;郭長國;苑洪亮;王懷民;;支持事務(wù)的非結(jié)構(gòu)化數(shù)據(jù)聚合存儲(chǔ)系統(tǒng)GSL[A];2006年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(三)[C];2006年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 ;第三季度中國存儲(chǔ)系統(tǒng)市場達(dá)19.1億元[N];中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào);2005年
2 本報(bào)記者 薛斐;服務(wù):存儲(chǔ)系統(tǒng)的靈魂[N];計(jì)算機(jī)世界;2002年
3 單群一;惠普推出全新一體化存儲(chǔ)系統(tǒng)[N];中國稅務(wù)報(bào);2007年
4 ;浪潮推出4Gb光纖存儲(chǔ)系統(tǒng)[N];人民郵電;2006年
5 ;今年第二季度 存儲(chǔ)系統(tǒng)市場價(jià)值達(dá)12.6億元[N];人民郵電;2006年
6 郭;日立推出普及型存儲(chǔ)系統(tǒng)[N];計(jì)算機(jī)世界;2007年
7 陳耀光;朗登 扛起存儲(chǔ)系統(tǒng)設(shè)計(jì)院的大旗[N];中國企業(yè)報(bào);2001年
8 ;富士通存儲(chǔ)系統(tǒng)全面升級[N];網(wǎng)絡(luò)世界;2009年
9 ;EMC亞洲生產(chǎn)制造中心落戶深圳[N];網(wǎng)絡(luò)世界;2009年
10 臨履;存儲(chǔ)系統(tǒng)有了“設(shè)計(jì)院”[N];網(wǎng)絡(luò)世界;2001年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 陸承濤;存儲(chǔ)系統(tǒng)性能管理問題的研究[D];華中科技大學(xué);2010年
2 聶雪軍;內(nèi)容感知存儲(chǔ)系統(tǒng)中信息信息生命周期管理關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2011年
3 羅東健;大規(guī)模存儲(chǔ)系統(tǒng)高可靠性關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2011年
4 聶雪軍;內(nèi)容感知存儲(chǔ)系統(tǒng)中信息生命周期管理關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2010年
5 王鵬;低密度奇偶校驗(yàn)碼應(yīng)用于存儲(chǔ)系統(tǒng)的關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2013年
6 刁瑩;用數(shù)學(xué)建模方法評價(jià)存儲(chǔ)系統(tǒng)性能[D];哈爾濱工程大學(xué);2013年
7 符青云;面向大規(guī)模流媒體服務(wù)的高性能存儲(chǔ)系統(tǒng)研究[D];電子科技大學(xué);2009年
8 王玉林;多節(jié)點(diǎn)容錯(cuò)存儲(chǔ)系統(tǒng)的數(shù)據(jù)與緩存組織研究[D];電子科技大學(xué);2010年
9 田敬;對等存儲(chǔ)系統(tǒng)中的數(shù)據(jù)可用性與安全性研究[D];北京大學(xué);2007年
10 李懷陽;進(jìn)化存儲(chǔ)系統(tǒng)數(shù)據(jù)組織模式研究[D];華中科技大學(xué);2006年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 馮漢超;基于Hadoop的分布式副本策略研究[D];河北工程大學(xué);2015年
2 張明;IaaS中基于熱點(diǎn)數(shù)據(jù)的存儲(chǔ)系統(tǒng)研究與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
3 蔣靜遠(yuǎn);基于數(shù)據(jù)通道的非結(jié)構(gòu)化數(shù)據(jù)多存儲(chǔ)系統(tǒng)[D];浙江大學(xué);2015年
4 郭暉;面向高清視頻監(jiān)控的流存儲(chǔ)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2015年
5 許孟杰;嵌入式快速存儲(chǔ)模塊的研究與實(shí)現(xiàn)[D];中國艦船研究院;2015年
6 何潔和;面向POI的分布式結(jié)構(gòu)化存儲(chǔ)系統(tǒng)存儲(chǔ)引擎設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
7 王曉;混合存儲(chǔ)系統(tǒng)高效快照技術(shù)研究[D];北京理工大學(xué);2015年
8 邱登峰;基于Hadoop可公共審計(jì)云存儲(chǔ)的設(shè)計(jì)與實(shí)現(xiàn)[D];大連理工大學(xué);2015年
9 張致元;電子商品存儲(chǔ)系統(tǒng)設(shè)計(jì)與研究[D];復(fù)旦大學(xué);2014年
10 朱海濤;嵌入式網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)的設(shè)計(jì)與應(yīng)用[D];大連理工大學(xué);2010年
,本文編號:962841
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/962841.html