基于存儲系統(tǒng)的重復(fù)數(shù)據(jù)刪除技術(shù)的研究
本文關(guān)鍵詞:基于存儲系統(tǒng)的重復(fù)數(shù)據(jù)刪除技術(shù)的研究
更多相關(guān)文章: 存儲系統(tǒng) 重復(fù)數(shù)據(jù)刪除 相似性 詞性權(quán)重 Simhash算法 TF-IDF技術(shù) Bloom Filter 誤判率 錯誤校驗
【摘要】:爆炸式增長的數(shù)字信息給人們的日常生活乃至企業(yè)的業(yè)務(wù)運營都帶來了巨大的挑戰(zhàn),存儲系統(tǒng)中的冗余數(shù)據(jù)信息變得越來越多,極大地增加了存儲備份的開銷,降低了存儲系統(tǒng)的性能。研究如何消除存儲系統(tǒng)中的冗余數(shù)據(jù),降低存儲開銷問題變得尤為重要。近年來,重復(fù)數(shù)據(jù)刪除技術(shù)(簡稱去重技術(shù))被廣泛應(yīng)用于數(shù)據(jù)存儲系統(tǒng)中,并成為計算機(jī)應(yīng)用領(lǐng)域所研究的一個熱點。但是現(xiàn)有的針對存儲系統(tǒng)的重復(fù)數(shù)據(jù)刪除技術(shù)的研究缺乏對相似性數(shù)據(jù)檢測精度問題以及減少存儲設(shè)備訪問開銷問題的深入研究,導(dǎo)致系統(tǒng)性能不高,達(dá)不到高速且高效的重復(fù)數(shù)據(jù)刪除效果。為了解決上述問題,課題從存儲系統(tǒng)中相似性數(shù)據(jù)檢測的精確度以及優(yōu)化存儲系統(tǒng)訪問開銷等方面進(jìn)行分析研究,以找到更加高效的相似數(shù)據(jù)檢測技術(shù)以及開銷更小的存儲系統(tǒng)訪問的解決方法。為了在大規(guī)模文檔去重中提高相似數(shù)據(jù)檢測的精度,課題對基于Simhash算法的大規(guī)模文檔去重技術(shù)進(jìn)行深入地研究,在原有算法的基礎(chǔ)上對Simhash指紋值的計算過程做出改進(jìn),引入ICTCLAS分詞技術(shù)生成更加精確且標(biāo)有詞性的分詞,將TF-IDF技術(shù)作為計算權(quán)重的主要方法來抑制某一文檔內(nèi)無意義高頻詞出現(xiàn)的負(fù)面影響,同時將特征值的詞性與詞長兩大影響因素考慮其中,然后對產(chǎn)生的指紋值進(jìn)行漢明距離的比較,從而更加精確地判定出待比較者是否為相似數(shù)據(jù)。為了緩解存儲系統(tǒng)中因為重復(fù)數(shù)據(jù)索引而引起的存儲設(shè)備訪問過于頻繁的問題,課題對重復(fù)數(shù)據(jù)刪除技術(shù)進(jìn)行了深入的研究,并針對目前重復(fù)數(shù)據(jù)刪除技術(shù)中Bloom Filter的運用以及存在的存儲設(shè)備訪問性能問題進(jìn)行分析和研究,提出一種基于Bloom Filter的高效重復(fù)數(shù)據(jù)刪除優(yōu)化模式。針對單一Bloom Filter固有的假陽性的缺陷,課題增加輔助Bloom Filter,從而減小誤判率,達(dá)到減少存儲設(shè)備訪問次數(shù)的目的;針對因系統(tǒng)軟件錯誤引起的Bloom Filter假陰性缺陷,課題引入單校驗位的錯誤校驗機(jī)制,在不增加過多內(nèi)存存儲開銷的同時可以避免假陰性發(fā)生所帶來的問題。最后,分別針對課題改進(jìn)的Simhash算法和Bloom Filter算法的算法性能進(jìn)行實驗分析。測試結(jié)果表明課題提出的改進(jìn)Simhash算法總體性能優(yōu)于Shingle算法和原Simhash算法,能夠提高產(chǎn)生指紋值的精確度;優(yōu)化的Bloom Filter算法通過引入一種判斷機(jī)制配合輔助Bloom Filter和單校驗位機(jī)制,能夠達(dá)到誤判率降低、存儲設(shè)備訪問開銷減小的高性能優(yōu)化效果。
【關(guān)鍵詞】:存儲系統(tǒng) 重復(fù)數(shù)據(jù)刪除 相似性 詞性權(quán)重 Simhash算法 TF-IDF技術(shù) Bloom Filter 誤判率 錯誤校驗
【學(xué)位授予單位】:南京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP333
【目錄】:
- 摘要4-5
- Abstract5-9
- 專用術(shù)語注釋表9-10
- 第一章 緒論10-20
- 1.1 課題背景與意義10-12
- 1.1.1 課題研究背景10-11
- 1.1.2 課題研究意義11-12
- 1.2 國內(nèi)外研究現(xiàn)狀12-17
- 1.3 課題的研究內(nèi)容及結(jié)果17-18
- 1.4 論文的組織結(jié)構(gòu)18-20
- 第二章 相關(guān)技術(shù)研究20-39
- 2.1 重復(fù)數(shù)據(jù)刪除技術(shù)20-27
- 2.1.1 重復(fù)數(shù)據(jù)刪除技術(shù)的定義20-21
- 2.1.2 重復(fù)數(shù)據(jù)刪除技術(shù)的分類21-26
- 2.1.3 重復(fù)數(shù)據(jù)刪除技術(shù)處理流程26-27
- 2.2 數(shù)據(jù)指紋算法27-28
- 2.2.1 MD5算法27-28
- 2.2.2 SHA-1 算法28
- 2.3 基于Simhash算法去重的相關(guān)技術(shù)28-33
- 2.3.1 TF-IDF算法29
- 2.3.2 Shingle算法29-31
- 2.3.3 ICTCLAS分詞系統(tǒng)31
- 2.3.4 漢明距離介紹31-32
- 2.3.5 Simhash函數(shù)32-33
- 2.4 基于Bloom Filter算法去重的相關(guān)技術(shù)33-38
- 2.4.1 Bloom Filter函數(shù)34-35
- 2.4.2 Bloom Filter誤判率分析35-36
- 2.4.3 Bloom Filter最優(yōu)函數(shù)個數(shù)36
- 2.4.4 最優(yōu)的位數(shù)組長度36-37
- 2.4.5 錯誤校驗機(jī)制37-38
- 2.5 本章小結(jié)38-39
- 第三章 存儲系統(tǒng)中Simhash算法的改進(jìn)39-47
- 3.1 算法設(shè)計背景39-40
- 3.2 基于Simhash算法的相似數(shù)據(jù)檢測改進(jìn)研究40-46
- 3.2.1 算法改進(jìn)流程40-41
- 3.2.2 算法的實現(xiàn)41-46
- 3.2.3 改進(jìn)后的Simhash算法性能對比分析46
- 3.3 本章小結(jié)46-47
- 第四章 存儲系統(tǒng)中Bloom Filter的改進(jìn)47-55
- 4.1 算法設(shè)計背景47-49
- 4.1.1 Bloom Filter存在的缺點47
- 4.1.2 錯誤校驗機(jī)制存在的缺點47-48
- 4.1.3 Bloom Filter的主要算法研究48-49
- 4.2 基于Bloom Filter在重復(fù)數(shù)據(jù)刪除技術(shù)中應(yīng)用改進(jìn)研究49-53
- 4.2.1 算法改進(jìn)流程49-50
- 4.2.2 針對Bloom Filter產(chǎn)生假陽性問題的改進(jìn)50-52
- 4.2.3 針對引入假陰性值進(jìn)行的錯誤校驗機(jī)制問題的改進(jìn)52-53
- 4.2.4 改進(jìn)后的算法性能分析53
- 4.3 本章小結(jié)53-55
- 第五章 系統(tǒng)測試55-61
- 5.1 基于Simhash算法相似性檢測的測試55-59
- 5.1.1 測試環(huán)境55
- 5.1.2 測試數(shù)據(jù)選取55-56
- 5.1.3 測試度量依據(jù)56
- 5.1.4 實驗結(jié)果與分析56-59
- 5.2 針對Bloom Filter在重復(fù)數(shù)據(jù)刪除中應(yīng)用的測試59-60
- 5.2.1 測試環(huán)境59
- 5.2.2 測試數(shù)據(jù)選取59
- 5.2.3 實驗結(jié)果與分析59-60
- 5.3 本章小結(jié)60-61
- 第六章 總結(jié)與展望61-64
- 6.1 研究工作總結(jié)61-62
- 6.2 研究工作展望62-64
- 參考文獻(xiàn)64-67
- 附錄1 攻讀碩士學(xué)位期間撰寫的論文67-68
- 致謝68
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 ;重復(fù)數(shù)據(jù)刪除可實現(xiàn)25:1壓縮[J];每周電腦報;2007年01期
2 賈志凱;王樹鵬;陳光達(dá);彭成;;一種并行層次化的重復(fù)數(shù)據(jù)刪除技術(shù)[J];計算機(jī)研究與發(fā)展;2011年S1期
3 Eric Bassier;;應(yīng)對數(shù)據(jù)增長的重磅武器——重復(fù)數(shù)據(jù)刪除技術(shù)[J];計算機(jī)與網(wǎng)絡(luò);2013年06期
4 于丹;;昆騰進(jìn)入重復(fù)數(shù)據(jù)刪除市場[J];每周電腦報;2007年09期
5 盧敏;;“零距離”重復(fù)數(shù)據(jù)刪除[J];軟件世界;2008年11期
6 盧敏;;點亮“重復(fù)數(shù)據(jù)刪除”[J];軟件世界;2008年06期
7 徐立洋;;選購重復(fù)數(shù)據(jù)刪除方案 軟硬兼施剔除雞肋數(shù)據(jù)[J];中國計算機(jī)用戶;2009年08期
8 邢延剛;;刪除重復(fù)值我有妙法[J];電腦迷;2009年09期
9 李剛;;重復(fù)數(shù)據(jù)刪除走向“源頭”[J];中國計算機(jī)用戶;2009年16期
10 雷赫;;重復(fù)數(shù)據(jù)刪除技術(shù)方案選型 刪除冗余 優(yōu)化存儲[J];中國計算機(jī)用戶;2009年23期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 賈志凱;王樹鵬;陳光達(dá);彭成;;一種并行層次化的重復(fù)數(shù)據(jù)刪除技術(shù)[A];2010年第16屆全國信息存儲技術(shù)大會(IST2010)論文集[C];2010年
2 楊廷梧;;基于重復(fù)數(shù)據(jù)刪除的靶場試驗信息存儲技術(shù)[A];2009年西部光子學(xué)學(xué)術(shù)會議論文摘要集[C];2009年
3 肖鈞;黃亮;;虛擬化搭配去重,雙劍合璧更給力[A];2011年CAD/CAM學(xué)術(shù)交流會議論文集[C];2011年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 本報記者 張偉;重復(fù)數(shù)據(jù)刪除能被扶正嗎[N];中國計算機(jī)報;2008年
2 王琨月;重復(fù)數(shù)據(jù)刪除不該忽視弱點[N];網(wǎng)絡(luò)世界;2008年
3 本報記者 郭濤;基于硬件的重復(fù)數(shù)據(jù)刪除效率更高[N];中國計算機(jī)報;2009年
4 朱皎;重復(fù)數(shù)據(jù)刪除技術(shù)漸成主流[N];電腦商報;2009年
5 邢小萍;重復(fù)數(shù)據(jù)刪除技術(shù)漸入佳境[N];網(wǎng)絡(luò)世界;2009年
6 本報記者 刑小萍;重復(fù)數(shù)據(jù)刪除市場迎來開門紅[N];網(wǎng)絡(luò)世界;2010年
7 清水 編譯;部署重復(fù)數(shù)據(jù)刪除[N];計算機(jī)世界;2010年
8 編譯 張磊;誰在拖重復(fù)數(shù)據(jù)刪除的后腿[N];中國計算機(jī)報;2009年
9 本報記者 郭濤;重復(fù)數(shù)據(jù)刪除2.0追求“雙高”[N];中國計算機(jī)報;2012年
10 編譯 沈建苗;你果真需要重復(fù)數(shù)據(jù)刪除技術(shù)嗎[N];計算機(jī)世界;2013年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 林彬;主存儲服務(wù)系統(tǒng)中高I/O性能的重復(fù)數(shù)據(jù)刪除技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2014年
2 閻芳;重復(fù)數(shù)據(jù)刪除系統(tǒng)數(shù)據(jù)組織研究[D];北京理工大學(xué);2015年
3 周炳;海量數(shù)據(jù)的重復(fù)數(shù)據(jù)刪除中元數(shù)據(jù)管理關(guān)鍵技術(shù)研究[D];清華大學(xué);2015年
4 王國華;高效重復(fù)數(shù)據(jù)刪除技術(shù)研究[D];華南理工大學(xué);2014年
5 王燦;基于在線重復(fù)數(shù)據(jù)消除的海量數(shù)據(jù)處理關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2012年
6 付印金;面向云環(huán)境的重復(fù)數(shù)據(jù)刪除關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2013年
7 周正達(dá);信息存儲系統(tǒng)中重復(fù)數(shù)據(jù)刪除技術(shù)的研究[D];華中科技大學(xué);2012年
8 楊天明;網(wǎng)絡(luò)備份中重復(fù)數(shù)據(jù)刪除技術(shù)研究[D];華中科技大學(xué);2010年
9 朱銳;重復(fù)數(shù)據(jù)刪除技術(shù)中的并行性能優(yōu)化算法研究[D];華中科技大學(xué);2013年
10 葉鵬迪;云存儲系統(tǒng)資源管理關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2014年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李志然;云存儲中集群重復(fù)數(shù)據(jù)刪除系統(tǒng)的研究與設(shè)計[D];東北大學(xué);2014年
2 張宏亮;重復(fù)數(shù)據(jù)刪除技術(shù)在云存儲中的應(yīng)用與實現(xiàn)[D];華中科技大學(xué);2014年
3 曹秀秀;面向XML相似性重復(fù)數(shù)據(jù)的清洗方法研究[D];首都經(jīng)濟(jì)貿(mào)易大學(xué);2016年
4 彭健;基于重復(fù)數(shù)據(jù)刪除的教育資源管理系統(tǒng)設(shè)計與實現(xiàn)[D];電子科技大學(xué);2016年
5 陳琳;基于存儲系統(tǒng)的重復(fù)數(shù)據(jù)刪除技術(shù)的研究[D];南京郵電大學(xué);2016年
6 涂群;云存儲系統(tǒng)中重復(fù)數(shù)據(jù)刪除機(jī)制的研究[D];南京郵電大學(xué);2016年
7 王珂;一種基于代理重加密的安全重復(fù)數(shù)據(jù)刪除機(jī)制的研究[D];北京郵電大學(xué);2012年
8 沈瑞清;云存儲中避免重復(fù)數(shù)據(jù)存儲機(jī)制研究[D];云南大學(xué);2013年
9 石俊杰;基于云存儲的重復(fù)數(shù)據(jù)刪除文件系統(tǒng)設(shè)計與實現(xiàn)[D];華中科技大學(xué);2013年
10 黃可;重復(fù)數(shù)據(jù)可刪除的云數(shù)據(jù)審計協(xié)議的研究[D];電子科技大學(xué);2015年
,本文編號:1061032
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1061032.html