天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機(jī)論文 >

基于存儲系統(tǒng)的重復(fù)數(shù)據(jù)刪除技術(shù)的研究

發(fā)布時間:2017-10-19 12:14

  本文關(guān)鍵詞:基于存儲系統(tǒng)的重復(fù)數(shù)據(jù)刪除技術(shù)的研究


  更多相關(guān)文章: 存儲系統(tǒng) 重復(fù)數(shù)據(jù)刪除 相似性 詞性權(quán)重 Simhash算法 TF-IDF技術(shù) Bloom Filter 誤判率 錯誤校驗


【摘要】:爆炸式增長的數(shù)字信息給人們的日常生活乃至企業(yè)的業(yè)務(wù)運營都帶來了巨大的挑戰(zhàn),存儲系統(tǒng)中的冗余數(shù)據(jù)信息變得越來越多,極大地增加了存儲備份的開銷,降低了存儲系統(tǒng)的性能。研究如何消除存儲系統(tǒng)中的冗余數(shù)據(jù),降低存儲開銷問題變得尤為重要。近年來,重復(fù)數(shù)據(jù)刪除技術(shù)(簡稱去重技術(shù))被廣泛應(yīng)用于數(shù)據(jù)存儲系統(tǒng)中,并成為計算機(jī)應(yīng)用領(lǐng)域所研究的一個熱點。但是現(xiàn)有的針對存儲系統(tǒng)的重復(fù)數(shù)據(jù)刪除技術(shù)的研究缺乏對相似性數(shù)據(jù)檢測精度問題以及減少存儲設(shè)備訪問開銷問題的深入研究,導(dǎo)致系統(tǒng)性能不高,達(dá)不到高速且高效的重復(fù)數(shù)據(jù)刪除效果。為了解決上述問題,課題從存儲系統(tǒng)中相似性數(shù)據(jù)檢測的精確度以及優(yōu)化存儲系統(tǒng)訪問開銷等方面進(jìn)行分析研究,以找到更加高效的相似數(shù)據(jù)檢測技術(shù)以及開銷更小的存儲系統(tǒng)訪問的解決方法。為了在大規(guī)模文檔去重中提高相似數(shù)據(jù)檢測的精度,課題對基于Simhash算法的大規(guī)模文檔去重技術(shù)進(jìn)行深入地研究,在原有算法的基礎(chǔ)上對Simhash指紋值的計算過程做出改進(jìn),引入ICTCLAS分詞技術(shù)生成更加精確且標(biāo)有詞性的分詞,將TF-IDF技術(shù)作為計算權(quán)重的主要方法來抑制某一文檔內(nèi)無意義高頻詞出現(xiàn)的負(fù)面影響,同時將特征值的詞性與詞長兩大影響因素考慮其中,然后對產(chǎn)生的指紋值進(jìn)行漢明距離的比較,從而更加精確地判定出待比較者是否為相似數(shù)據(jù)。為了緩解存儲系統(tǒng)中因為重復(fù)數(shù)據(jù)索引而引起的存儲設(shè)備訪問過于頻繁的問題,課題對重復(fù)數(shù)據(jù)刪除技術(shù)進(jìn)行了深入的研究,并針對目前重復(fù)數(shù)據(jù)刪除技術(shù)中Bloom Filter的運用以及存在的存儲設(shè)備訪問性能問題進(jìn)行分析和研究,提出一種基于Bloom Filter的高效重復(fù)數(shù)據(jù)刪除優(yōu)化模式。針對單一Bloom Filter固有的假陽性的缺陷,課題增加輔助Bloom Filter,從而減小誤判率,達(dá)到減少存儲設(shè)備訪問次數(shù)的目的;針對因系統(tǒng)軟件錯誤引起的Bloom Filter假陰性缺陷,課題引入單校驗位的錯誤校驗機(jī)制,在不增加過多內(nèi)存存儲開銷的同時可以避免假陰性發(fā)生所帶來的問題。最后,分別針對課題改進(jìn)的Simhash算法和Bloom Filter算法的算法性能進(jìn)行實驗分析。測試結(jié)果表明課題提出的改進(jìn)Simhash算法總體性能優(yōu)于Shingle算法和原Simhash算法,能夠提高產(chǎn)生指紋值的精確度;優(yōu)化的Bloom Filter算法通過引入一種判斷機(jī)制配合輔助Bloom Filter和單校驗位機(jī)制,能夠達(dá)到誤判率降低、存儲設(shè)備訪問開銷減小的高性能優(yōu)化效果。
【關(guān)鍵詞】:存儲系統(tǒng) 重復(fù)數(shù)據(jù)刪除 相似性 詞性權(quán)重 Simhash算法 TF-IDF技術(shù) Bloom Filter 誤判率 錯誤校驗
【學(xué)位授予單位】:南京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP333
【目錄】:
  • 摘要4-5
  • Abstract5-9
  • 專用術(shù)語注釋表9-10
  • 第一章 緒論10-20
  • 1.1 課題背景與意義10-12
  • 1.1.1 課題研究背景10-11
  • 1.1.2 課題研究意義11-12
  • 1.2 國內(nèi)外研究現(xiàn)狀12-17
  • 1.3 課題的研究內(nèi)容及結(jié)果17-18
  • 1.4 論文的組織結(jié)構(gòu)18-20
  • 第二章 相關(guān)技術(shù)研究20-39
  • 2.1 重復(fù)數(shù)據(jù)刪除技術(shù)20-27
  • 2.1.1 重復(fù)數(shù)據(jù)刪除技術(shù)的定義20-21
  • 2.1.2 重復(fù)數(shù)據(jù)刪除技術(shù)的分類21-26
  • 2.1.3 重復(fù)數(shù)據(jù)刪除技術(shù)處理流程26-27
  • 2.2 數(shù)據(jù)指紋算法27-28
  • 2.2.1 MD5算法27-28
  • 2.2.2 SHA-1 算法28
  • 2.3 基于Simhash算法去重的相關(guān)技術(shù)28-33
  • 2.3.1 TF-IDF算法29
  • 2.3.2 Shingle算法29-31
  • 2.3.3 ICTCLAS分詞系統(tǒng)31
  • 2.3.4 漢明距離介紹31-32
  • 2.3.5 Simhash函數(shù)32-33
  • 2.4 基于Bloom Filter算法去重的相關(guān)技術(shù)33-38
  • 2.4.1 Bloom Filter函數(shù)34-35
  • 2.4.2 Bloom Filter誤判率分析35-36
  • 2.4.3 Bloom Filter最優(yōu)函數(shù)個數(shù)36
  • 2.4.4 最優(yōu)的位數(shù)組長度36-37
  • 2.4.5 錯誤校驗機(jī)制37-38
  • 2.5 本章小結(jié)38-39
  • 第三章 存儲系統(tǒng)中Simhash算法的改進(jìn)39-47
  • 3.1 算法設(shè)計背景39-40
  • 3.2 基于Simhash算法的相似數(shù)據(jù)檢測改進(jìn)研究40-46
  • 3.2.1 算法改進(jìn)流程40-41
  • 3.2.2 算法的實現(xiàn)41-46
  • 3.2.3 改進(jìn)后的Simhash算法性能對比分析46
  • 3.3 本章小結(jié)46-47
  • 第四章 存儲系統(tǒng)中Bloom Filter的改進(jìn)47-55
  • 4.1 算法設(shè)計背景47-49
  • 4.1.1 Bloom Filter存在的缺點47
  • 4.1.2 錯誤校驗機(jī)制存在的缺點47-48
  • 4.1.3 Bloom Filter的主要算法研究48-49
  • 4.2 基于Bloom Filter在重復(fù)數(shù)據(jù)刪除技術(shù)中應(yīng)用改進(jìn)研究49-53
  • 4.2.1 算法改進(jìn)流程49-50
  • 4.2.2 針對Bloom Filter產(chǎn)生假陽性問題的改進(jìn)50-52
  • 4.2.3 針對引入假陰性值進(jìn)行的錯誤校驗機(jī)制問題的改進(jìn)52-53
  • 4.2.4 改進(jìn)后的算法性能分析53
  • 4.3 本章小結(jié)53-55
  • 第五章 系統(tǒng)測試55-61
  • 5.1 基于Simhash算法相似性檢測的測試55-59
  • 5.1.1 測試環(huán)境55
  • 5.1.2 測試數(shù)據(jù)選取55-56
  • 5.1.3 測試度量依據(jù)56
  • 5.1.4 實驗結(jié)果與分析56-59
  • 5.2 針對Bloom Filter在重復(fù)數(shù)據(jù)刪除中應(yīng)用的測試59-60
  • 5.2.1 測試環(huán)境59
  • 5.2.2 測試數(shù)據(jù)選取59
  • 5.2.3 實驗結(jié)果與分析59-60
  • 5.3 本章小結(jié)60-61
  • 第六章 總結(jié)與展望61-64
  • 6.1 研究工作總結(jié)61-62
  • 6.2 研究工作展望62-64
  • 參考文獻(xiàn)64-67
  • 附錄1 攻讀碩士學(xué)位期間撰寫的論文67-68
  • 致謝68

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 ;重復(fù)數(shù)據(jù)刪除可實現(xiàn)25:1壓縮[J];每周電腦報;2007年01期

2 賈志凱;王樹鵬;陳光達(dá);彭成;;一種并行層次化的重復(fù)數(shù)據(jù)刪除技術(shù)[J];計算機(jī)研究與發(fā)展;2011年S1期

3 Eric Bassier;;應(yīng)對數(shù)據(jù)增長的重磅武器——重復(fù)數(shù)據(jù)刪除技術(shù)[J];計算機(jī)與網(wǎng)絡(luò);2013年06期

4 于丹;;昆騰進(jìn)入重復(fù)數(shù)據(jù)刪除市場[J];每周電腦報;2007年09期

5 盧敏;;“零距離”重復(fù)數(shù)據(jù)刪除[J];軟件世界;2008年11期

6 盧敏;;點亮“重復(fù)數(shù)據(jù)刪除”[J];軟件世界;2008年06期

7 徐立洋;;選購重復(fù)數(shù)據(jù)刪除方案 軟硬兼施剔除雞肋數(shù)據(jù)[J];中國計算機(jī)用戶;2009年08期

8 邢延剛;;刪除重復(fù)值我有妙法[J];電腦迷;2009年09期

9 李剛;;重復(fù)數(shù)據(jù)刪除走向“源頭”[J];中國計算機(jī)用戶;2009年16期

10 雷赫;;重復(fù)數(shù)據(jù)刪除技術(shù)方案選型 刪除冗余 優(yōu)化存儲[J];中國計算機(jī)用戶;2009年23期

中國重要會議論文全文數(shù)據(jù)庫 前3條

1 賈志凱;王樹鵬;陳光達(dá);彭成;;一種并行層次化的重復(fù)數(shù)據(jù)刪除技術(shù)[A];2010年第16屆全國信息存儲技術(shù)大會(IST2010)論文集[C];2010年

2 楊廷梧;;基于重復(fù)數(shù)據(jù)刪除的靶場試驗信息存儲技術(shù)[A];2009年西部光子學(xué)學(xué)術(shù)會議論文摘要集[C];2009年

3 肖鈞;黃亮;;虛擬化搭配去重,雙劍合璧更給力[A];2011年CAD/CAM學(xué)術(shù)交流會議論文集[C];2011年

中國重要報紙全文數(shù)據(jù)庫 前10條

1 本報記者 張偉;重復(fù)數(shù)據(jù)刪除能被扶正嗎[N];中國計算機(jī)報;2008年

2 王琨月;重復(fù)數(shù)據(jù)刪除不該忽視弱點[N];網(wǎng)絡(luò)世界;2008年

3 本報記者 郭濤;基于硬件的重復(fù)數(shù)據(jù)刪除效率更高[N];中國計算機(jī)報;2009年

4 朱皎;重復(fù)數(shù)據(jù)刪除技術(shù)漸成主流[N];電腦商報;2009年

5 邢小萍;重復(fù)數(shù)據(jù)刪除技術(shù)漸入佳境[N];網(wǎng)絡(luò)世界;2009年

6 本報記者 刑小萍;重復(fù)數(shù)據(jù)刪除市場迎來開門紅[N];網(wǎng)絡(luò)世界;2010年

7 清水 編譯;部署重復(fù)數(shù)據(jù)刪除[N];計算機(jī)世界;2010年

8 編譯 張磊;誰在拖重復(fù)數(shù)據(jù)刪除的后腿[N];中國計算機(jī)報;2009年

9 本報記者 郭濤;重復(fù)數(shù)據(jù)刪除2.0追求“雙高”[N];中國計算機(jī)報;2012年

10 編譯 沈建苗;你果真需要重復(fù)數(shù)據(jù)刪除技術(shù)嗎[N];計算機(jī)世界;2013年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 林彬;主存儲服務(wù)系統(tǒng)中高I/O性能的重復(fù)數(shù)據(jù)刪除技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2014年

2 閻芳;重復(fù)數(shù)據(jù)刪除系統(tǒng)數(shù)據(jù)組織研究[D];北京理工大學(xué);2015年

3 周炳;海量數(shù)據(jù)的重復(fù)數(shù)據(jù)刪除中元數(shù)據(jù)管理關(guān)鍵技術(shù)研究[D];清華大學(xué);2015年

4 王國華;高效重復(fù)數(shù)據(jù)刪除技術(shù)研究[D];華南理工大學(xué);2014年

5 王燦;基于在線重復(fù)數(shù)據(jù)消除的海量數(shù)據(jù)處理關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2012年

6 付印金;面向云環(huán)境的重復(fù)數(shù)據(jù)刪除關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2013年

7 周正達(dá);信息存儲系統(tǒng)中重復(fù)數(shù)據(jù)刪除技術(shù)的研究[D];華中科技大學(xué);2012年

8 楊天明;網(wǎng)絡(luò)備份中重復(fù)數(shù)據(jù)刪除技術(shù)研究[D];華中科技大學(xué);2010年

9 朱銳;重復(fù)數(shù)據(jù)刪除技術(shù)中的并行性能優(yōu)化算法研究[D];華中科技大學(xué);2013年

10 葉鵬迪;云存儲系統(tǒng)資源管理關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2014年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 李志然;云存儲中集群重復(fù)數(shù)據(jù)刪除系統(tǒng)的研究與設(shè)計[D];東北大學(xué);2014年

2 張宏亮;重復(fù)數(shù)據(jù)刪除技術(shù)在云存儲中的應(yīng)用與實現(xiàn)[D];華中科技大學(xué);2014年

3 曹秀秀;面向XML相似性重復(fù)數(shù)據(jù)的清洗方法研究[D];首都經(jīng)濟(jì)貿(mào)易大學(xué);2016年

4 彭健;基于重復(fù)數(shù)據(jù)刪除的教育資源管理系統(tǒng)設(shè)計與實現(xiàn)[D];電子科技大學(xué);2016年

5 陳琳;基于存儲系統(tǒng)的重復(fù)數(shù)據(jù)刪除技術(shù)的研究[D];南京郵電大學(xué);2016年

6 涂群;云存儲系統(tǒng)中重復(fù)數(shù)據(jù)刪除機(jī)制的研究[D];南京郵電大學(xué);2016年

7 王珂;一種基于代理重加密的安全重復(fù)數(shù)據(jù)刪除機(jī)制的研究[D];北京郵電大學(xué);2012年

8 沈瑞清;云存儲中避免重復(fù)數(shù)據(jù)存儲機(jī)制研究[D];云南大學(xué);2013年

9 石俊杰;基于云存儲的重復(fù)數(shù)據(jù)刪除文件系統(tǒng)設(shè)計與實現(xiàn)[D];華中科技大學(xué);2013年

10 黃可;重復(fù)數(shù)據(jù)可刪除的云數(shù)據(jù)審計協(xié)議的研究[D];電子科技大學(xué);2015年

,

本文編號:1061032

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1061032.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶83bce***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com