基于回歸檢測的滑動塊重復(fù)數(shù)據(jù)刪除算法
本文選題:云存儲 切入點:回歸檢測 出處:《新疆大學(xué)學(xué)報(自然科學(xué)版)》2017年03期 論文類型:期刊論文
【摘要】:隨著大數(shù)據(jù)時代的來臨,重復(fù)數(shù)據(jù)在存儲系統(tǒng)中占有很高比例,如何在保障數(shù)據(jù)可用性的前提下提高存儲系統(tǒng)利用率問題一直是研究人員關(guān)注的熱點.重復(fù)數(shù)據(jù)刪除技術(shù)是一種存儲系統(tǒng)優(yōu)化技術(shù),通過比較數(shù)據(jù)指紋確定冗余并刪除,達到保障數(shù)據(jù)唯一性的目的.在重復(fù)數(shù)據(jù)分塊檢測過程中,無匹配指紋的塊即認定為新數(shù)據(jù)存儲,然而通過研究發(fā)現(xiàn),未匹配塊中仍然包含大量的重復(fù)數(shù)據(jù),若能檢測到未匹配塊內(nèi)的重復(fù)數(shù)據(jù),則能夠在一定程度上進一步提高重復(fù)數(shù)據(jù)檢測率.本文提出一種基于回歸檢測的滑動塊重復(fù)數(shù)據(jù)刪除算法,對傳統(tǒng)滑動塊技術(shù)產(chǎn)生的未匹配數(shù)據(jù)塊進行回歸檢測,通過對比未匹配塊的結(jié)構(gòu)變化進而確定數(shù)據(jù)操作類型,再根據(jù)不同的操作類型執(zhí)行不同的檢測算法,達到去除未匹配塊內(nèi)重復(fù)數(shù)據(jù)的目的.實驗表明:本算法在時間開銷方面比較合理,并能夠有效提高重復(fù)數(shù)據(jù)檢測率.
[Abstract]:With the advent of big data's time, duplicate data occupy a high proportion in the storage system. How to improve the utilization rate of storage system under the premise of ensuring the availability of data has always been the focus of attention of researchers. Repeated data deletion is a storage system optimization technology, which determines redundancy and deletes by comparing data fingerprints. In the process of repeated data block detection, the block without matching fingerprint is considered as the new data storage. However, it is found that the unmatched block still contains a large number of repeated data. If the repeated data in the unmatched block can be detected, the detection rate of repeated data can be further improved to a certain extent. In this paper, a sliding block repeat data deletion algorithm based on regression detection is proposed. The unmatched data blocks produced by the traditional sliding block technology are detected by regression. By comparing the structure changes of the unmatched blocks, the data operation types are determined, and different detection algorithms are executed according to the different operation types. The experimental results show that the proposed algorithm is reasonable in time cost and can effectively improve the detection rate of repeated data.
【作者單位】: 新疆大學(xué)軟件學(xué)院;新疆大學(xué)信息科學(xué)與工程學(xué)院;
【基金】:國家自然科學(xué)基金項目(61462079) 新疆維吾爾自治區(qū)高?蒲杏媱(XJEDU2016S106)
【分類號】:TP301.6;TP333
【參考文獻】
相關(guān)期刊論文 前2條
1 付印金;肖儂;劉芳;;重復(fù)數(shù)據(jù)刪除關(guān)鍵技術(shù)研究進展[J];計算機研究與發(fā)展;2012年01期
2 敖莉;舒繼武;李明強;;重復(fù)數(shù)據(jù)刪除技術(shù)[J];軟件學(xué)報;2010年05期
【共引文獻】
相關(guān)期刊論文 前10條
1 卞琛;于炯;修位蓉;;基于回歸檢測的滑動塊重復(fù)數(shù)據(jù)刪除算法[J];新疆大學(xué)學(xué)報(自然科學(xué)版);2017年03期
2 張曙光;咸鶴群;劉紅燕;侯瑞濤;;云存儲環(huán)境中基于離線密鑰傳遞的加密重復(fù)數(shù)據(jù)刪除方法研究[J];信息網(wǎng)絡(luò)安全;2017年07期
3 劉瑞鍇;鄧玉輝;;內(nèi)存過載下基于重刪的內(nèi)存優(yōu)化策略[J];小型微型計算機系統(tǒng);2017年06期
4 錢磊;原昊;趙錦明;李祥;吳東;謝向輝;;基于蟻群平臺的智能存儲技術(shù)及應(yīng)用[J];計算機工程與設(shè)計;2017年05期
5 胡竟偉;吳迪;劉娜;;鏈路層光纖網(wǎng)絡(luò)被動數(shù)據(jù)存儲方法研究[J];內(nèi)蒙古師范大學(xué)學(xué)報(自然科學(xué)漢文版);2017年03期
6 朱江;冀鳴;楊志成;張嘉賢;曹雄;;基于重復(fù)數(shù)據(jù)刪除技術(shù)的存儲系統(tǒng)分析[J];信息系統(tǒng)工程;2017年04期
7 吳彥虹;;集中式數(shù)據(jù)備份系統(tǒng)研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2017年04期
8 王閃;譚良;;Web大數(shù)據(jù)環(huán)境下的相似重復(fù)數(shù)據(jù)清理[J];計算機工程與設(shè)計;2017年03期
9 鄧仲華;黃雅婷;;“互聯(lián)網(wǎng)+”環(huán)境下我國科學(xué)數(shù)據(jù)共享平臺發(fā)展研究[J];情報理論與實踐;2017年02期
10 齊來軍;周麗娟;任仲山;;醫(yī)學(xué)影像云存儲模型的研究與設(shè)計[J];計算機應(yīng)用與軟件;2017年02期
【二級參考文獻】
相關(guān)期刊論文 前1條
1 敖莉;舒繼武;李明強;;重復(fù)數(shù)據(jù)刪除技術(shù)[J];軟件學(xué)報;2010年05期
【相似文獻】
相關(guān)期刊論文 前10條
1 ;重復(fù)數(shù)據(jù)刪除可實現(xiàn)25:1壓縮[J];每周電腦報;2007年01期
2 賈志凱;王樹鵬;陳光達;彭成;;一種并行層次化的重復(fù)數(shù)據(jù)刪除技術(shù)[J];計算機研究與發(fā)展;2011年S1期
3 Eric Bassier;;應(yīng)對數(shù)據(jù)增長的重磅武器——重復(fù)數(shù)據(jù)刪除技術(shù)[J];計算機與網(wǎng)絡(luò);2013年06期
4 于丹;;昆騰進入重復(fù)數(shù)據(jù)刪除市場[J];每周電腦報;2007年09期
5 盧敏;;“零距離”重復(fù)數(shù)據(jù)刪除[J];軟件世界;2008年11期
6 盧敏;;點亮“重復(fù)數(shù)據(jù)刪除”[J];軟件世界;2008年06期
7 徐立洋;;選購重復(fù)數(shù)據(jù)刪除方案 軟硬兼施剔除雞肋數(shù)據(jù)[J];中國計算機用戶;2009年08期
8 邢延剛;;刪除重復(fù)值我有妙法[J];電腦迷;2009年09期
9 李剛;;重復(fù)數(shù)據(jù)刪除走向“源頭”[J];中國計算機用戶;2009年16期
10 雷赫;;重復(fù)數(shù)據(jù)刪除技術(shù)方案選型 刪除冗余 優(yōu)化存儲[J];中國計算機用戶;2009年23期
相關(guān)會議論文 前3條
1 賈志凱;王樹鵬;陳光達;彭成;;一種并行層次化的重復(fù)數(shù)據(jù)刪除技術(shù)[A];2010年第16屆全國信息存儲技術(shù)大會(IST2010)論文集[C];2010年
2 楊廷梧;;基于重復(fù)數(shù)據(jù)刪除的靶場試驗信息存儲技術(shù)[A];2009年西部光子學(xué)學(xué)術(shù)會議論文摘要集[C];2009年
3 肖鈞;黃亮;;虛擬化搭配去重,雙劍合璧更給力[A];2011年CAD/CAM學(xué)術(shù)交流會議論文集[C];2011年
相關(guān)重要報紙文章 前10條
1 本報記者 張偉;重復(fù)數(shù)據(jù)刪除能被扶正嗎[N];中國計算機報;2008年
2 王琨月;重復(fù)數(shù)據(jù)刪除不該忽視弱點[N];網(wǎng)絡(luò)世界;2008年
3 本報記者 郭濤;基于硬件的重復(fù)數(shù)據(jù)刪除效率更高[N];中國計算機報;2009年
4 朱皎;重復(fù)數(shù)據(jù)刪除技術(shù)漸成主流[N];電腦商報;2009年
5 邢小萍;重復(fù)數(shù)據(jù)刪除技術(shù)漸入佳境[N];網(wǎng)絡(luò)世界;2009年
6 本報記者 刑小萍;重復(fù)數(shù)據(jù)刪除市場迎來開門紅[N];網(wǎng)絡(luò)世界;2010年
7 清水 編譯;部署重復(fù)數(shù)據(jù)刪除[N];計算機世界;2010年
8 編譯 張磊;誰在拖重復(fù)數(shù)據(jù)刪除的后腿[N];中國計算機報;2009年
9 本報記者 郭濤;重復(fù)數(shù)據(jù)刪除2.0追求“雙高”[N];中國計算機報;2012年
10 編譯 沈建苗;你果真需要重復(fù)數(shù)據(jù)刪除技術(shù)嗎[N];計算機世界;2013年
相關(guān)博士學(xué)位論文 前10條
1 林彬;主存儲服務(wù)系統(tǒng)中高I/O性能的重復(fù)數(shù)據(jù)刪除技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2014年
2 周炳;海量數(shù)據(jù)的重復(fù)數(shù)據(jù)刪除中元數(shù)據(jù)管理關(guān)鍵技術(shù)研究[D];清華大學(xué);2015年
3 周景才;云數(shù)據(jù)中心軟件節(jié)能關(guān)鍵技術(shù)的研究[D];武漢大學(xué);2016年
4 王國華;高效重復(fù)數(shù)據(jù)刪除技術(shù)研究[D];華南理工大學(xué);2014年
5 王燦;基于在線重復(fù)數(shù)據(jù)消除的海量數(shù)據(jù)處理關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2012年
6 付印金;面向云環(huán)境的重復(fù)數(shù)據(jù)刪除關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2013年
7 周正達;信息存儲系統(tǒng)中重復(fù)數(shù)據(jù)刪除技術(shù)的研究[D];華中科技大學(xué);2012年
8 楊天明;網(wǎng)絡(luò)備份中重復(fù)數(shù)據(jù)刪除技術(shù)研究[D];華中科技大學(xué);2010年
9 朱銳;重復(fù)數(shù)據(jù)刪除技術(shù)中的并行性能優(yōu)化算法研究[D];華中科技大學(xué);2013年
10 閻芳;重復(fù)數(shù)據(jù)刪除系統(tǒng)數(shù)據(jù)組織研究[D];北京理工大學(xué);2015年
相關(guān)碩士學(xué)位論文 前10條
1 張明月;客戶端加密重復(fù)數(shù)據(jù)刪除機制的研究[D];西安電子科技大學(xué);2014年
2 黃可;重復(fù)數(shù)據(jù)可刪除的云數(shù)據(jù)審計協(xié)議的研究[D];電子科技大學(xué);2015年
3 王振宇;安全云存儲中重復(fù)數(shù)據(jù)刪除機制研究[D];南京郵電大學(xué);2015年
4 李志然;云存儲中集群重復(fù)數(shù)據(jù)刪除系統(tǒng)的研究與設(shè)計[D];東北大學(xué);2014年
5 張宏亮;重復(fù)數(shù)據(jù)刪除技術(shù)在云存儲中的應(yīng)用與實現(xiàn)[D];華中科技大學(xué);2014年
6 曹秀秀;面向XML相似性重復(fù)數(shù)據(jù)的清洗方法研究[D];首都經(jīng)濟貿(mào)易大學(xué);2016年
7 彭健;基于重復(fù)數(shù)據(jù)刪除的教育資源管理系統(tǒng)設(shè)計與實現(xiàn)[D];電子科技大學(xué);2016年
8 陳琳;基于存儲系統(tǒng)的重復(fù)數(shù)據(jù)刪除技術(shù)的研究[D];南京郵電大學(xué);2016年
9 涂群;云存儲系統(tǒng)中重復(fù)數(shù)據(jù)刪除機制的研究[D];南京郵電大學(xué);2016年
10 曲新奎;云存儲中數(shù)據(jù)編碼優(yōu)化和重復(fù)數(shù)據(jù)刪除技術(shù)研究[D];東北大學(xué);2013年
,本文編號:1579354
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1579354.html