天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

相似聚類的二級索引重復(fù)數(shù)據(jù)刪除算法

發(fā)布時間:2018-05-20 00:04

  本文選題:重復(fù)數(shù)據(jù)刪除 + 二級索引��; 參考:《小型微型計算機系統(tǒng)》2017年12期


【摘要】:針對重復(fù)數(shù)據(jù)刪除算法指紋對比I/O瓶頸問題,提出一種基于相似聚類的二級索引重復(fù)數(shù)據(jù)刪除算法.首先計算所有數(shù)據(jù)塊的Simhash值,基于Simhash值之間的海明距離,提出一種自適應(yīng)的相似聚類算法,所有聚類中心信息形成一級索引存放在內(nèi)存中.然后計算每個類中數(shù)據(jù)塊的MD5值,將其信息形成二級索引存放在聚類中心.當需要進行重復(fù)數(shù)據(jù)塊檢測時,計算待檢測數(shù)據(jù)塊Simhash值到一級索引中所有聚類中心Simhash值的海明距離,并將海明距離最小的類的二級索引調(diào)入內(nèi)存中進行MD5指紋對比.實驗結(jié)果表明,算法沒有誤判率,在較大提高了指紋對比速度的同時,每次檢測只產(chǎn)生一次I/O操作,具有更高效的性能.
[Abstract]:Aiming at the bottleneck problem of fingerprint comparing with I / O, a two-level index repeat data deletion algorithm based on similarity clustering is proposed. First, the Simhash values of all data blocks are calculated. Based on the hamming distance between the Simhash values, an adaptive similar clustering algorithm is proposed, in which all the clustering center information is stored in memory. Then the MD5 value of the data block in each class is calculated, and the information is stored in the cluster center as a secondary index. When repeated data block detection is needed, the hamming distance from the Simhash value of the data block to the Simhash value of all clustering centers in the primary index is calculated, and the secondary index of the class with the smallest hamming distance is transferred into memory for MD5 fingerprint comparison. The experimental results show that the algorithm has no error rate and improves the speed of fingerprint comparison greatly. At the same time, it only produces one I / O operation per detection, so it has a more efficient performance.
【作者單位】: 遼寧大學(xué)信息學(xué)院;
【基金】:國家社科青年基金項目(13CRK027)資助
【分類號】:TP311.13

【相似文獻】

相關(guān)期刊論文 前10條

1 王軍;重復(fù)數(shù)據(jù) 批量剔除[J];電腦應(yīng)用文萃;2004年06期

2 ;重復(fù)數(shù)據(jù)刪除可實現(xiàn)25:1壓縮[J];每周電腦報;2007年01期

3 賈志凱;王樹鵬;陳光達;彭成;;一種并行層次化的重復(fù)數(shù)據(jù)刪除技術(shù)[J];計算機研究與發(fā)展;2011年S1期

4 Eric Bassier;;應(yīng)對數(shù)據(jù)增長的重磅武器——重復(fù)數(shù)據(jù)刪除技術(shù)[J];計算機與網(wǎng)絡(luò);2013年06期

5 盧敏;;“零距離”重復(fù)數(shù)據(jù)刪除[J];軟件世界;2008年11期

6 徐立洋;;選購重復(fù)數(shù)據(jù)刪除方案 軟硬兼施剔除雞肋數(shù)據(jù)[J];中國計算機用戶;2009年08期

7 邢延剛;;刪除重復(fù)值我有妙法[J];電腦迷;2009年09期

8 李剛;;重復(fù)數(shù)據(jù)刪除走向“源頭”[J];中國計算機用戶;2009年16期

9 雷赫;;重復(fù)數(shù)據(jù)刪除技術(shù)方案選型 刪除冗余 優(yōu)化存儲[J];中國計算機用戶;2009年23期

10 敖莉;舒繼武;李明強;;重復(fù)數(shù)據(jù)刪除技術(shù)[J];軟件學(xué)報;2010年05期

相關(guān)會議論文 前1條

1 肖鈞;黃亮;;虛擬化搭配去重,雙劍合璧更給力[A];2011年CAD/CAM學(xué)術(shù)交流會議論文集[C];2011年

相關(guān)重要報紙文章 前10條

1 王琨月;重復(fù)數(shù)據(jù)刪除不該忽視弱點[N];網(wǎng)絡(luò)世界;2008年

2 本報記者 郭濤;基于硬件的重復(fù)數(shù)據(jù)刪除效率更高[N];中國計算機報;2009年

3 邢小萍;重復(fù)數(shù)據(jù)刪除技術(shù)漸入佳境[N];網(wǎng)絡(luò)世界;2009年

4 本報記者 刑小萍;重復(fù)數(shù)據(jù)刪除市場迎來開門紅[N];網(wǎng)絡(luò)世界;2010年

5 編譯 張磊;誰在拖重復(fù)數(shù)據(jù)刪除的后腿[N];中國計算機報;2009年

6 編譯 沈建苗;你果真需要重復(fù)數(shù)據(jù)刪除技術(shù)嗎[N];計算機世界;2013年

7 郭濤;重復(fù)數(shù)據(jù)刪除比越大越好嗎?[N];中國計算機報;2007年

8 劉學(xué)習(xí);刪除重復(fù)數(shù)據(jù)[N];計算機世界;2006年

9 張峰;重復(fù)數(shù)據(jù)刪除 難走的平衡木[N];網(wǎng)絡(luò)世界;2007年

10 王s,

本文編號:1912281


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1912281.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶dbfe8***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com