云存儲系統(tǒng)文件級數(shù)據(jù)去重方法研究
發(fā)布時間:2020-06-05 10:01
【摘要】:據(jù)統(tǒng)計,全球云存儲系統(tǒng)中有大約百分之三十到百分之六十的重復數(shù)據(jù),對于普通用戶個人的存儲可以高達百分之七十。然而重復數(shù)據(jù)處理技術(shù)大多應用在備份領(lǐng)域,在文件上傳之前進行重復數(shù)據(jù)處理研究相對較少。如果對在線數(shù)據(jù)去重進行詳細設計無疑會對文件系統(tǒng)整體處理性能帶來巨大的提升。針對云存儲系統(tǒng)中文件系統(tǒng)層基礎(chǔ)上的文件級數(shù)據(jù)去重技術(shù),本文采用了一種客戶端服務端任務劃分的文件去重思路。其包含兩個方面:首先是提出基于布隆過濾器的文件預篩選算法,其次提出了PIA算法用于文件遞增分段摘要計算。最后基于上述方法,本文對整個去重系統(tǒng)進行了設計。首先,文件上傳后需要經(jīng)過預篩選環(huán)節(jié),經(jīng)過布隆過濾器和表分區(qū)中文件客觀屬性的對比,系統(tǒng)中不存在的文件將直接上傳,不參與后續(xù)計算。其次,對于系統(tǒng)中可能存在的文件,在PIA算法中進行詳細的比對,上傳文件后客戶端未完成的工作便由服務端繼續(xù)完成。本方法在客戶端逐層判斷文件是否已經(jīng)存在于系統(tǒng)中,將判斷為不存在于系統(tǒng)中的文件上傳到服務端,使之不參與客戶端的后續(xù)計算,達到提升服務端資源利用率和降低客戶端開銷的目的。最后在FastDFS分布式文件系統(tǒng)中進行試驗,并將本文提出的PIA算法與去其重組件FastDHT的全文件摘要算法對比。實驗結(jié)果表明:在不降低重復文件刪除率的情況下,本文提出的PIA算法相較于FastDHT的全文件摘要算法,具有時延小,CPU占用率低,內(nèi)存占用低的特點,最優(yōu)情況下去重時延降低至2ms,CPU利用率降低24.17%,內(nèi)存占用率降低37.5%。
【圖文】:
圖 2.1(a) 傳統(tǒng)數(shù)據(jù)去重方法 圖 2.1(b) 本文數(shù)據(jù)去重方法文件預篩選的目的是根據(jù)文件相關(guān)的信息找出系統(tǒng)中不存在的文件,避免參與來減輕后續(xù)步驟的壓力。同時找出可能相同的文件,,作為比對的目標文件。將目標的摘要值計算和摘要值比對同時進行,在第一時間發(fā)現(xiàn)文件的不同,進而將文件在傳統(tǒng)方法中,摘要計算作為一個完整的步驟,放在客戶端會造成用戶體驗差在服務端又會產(chǎn)生資源浪費。針對這一問題,本文設計的客戶端服務端任務劃分方以很好解決這個問題,具體的設計在后面展開。根據(jù)上面的總體的去重方法,本章后續(xù)部分將對客戶端與服務端的任務劃分、預篩選、摘要算法相關(guān)研究這三個部分進行介紹。2.3 功能設計出于提升客戶端的用戶體驗、降低服務端去重資源浪費的考慮,本文設計了一戶端與服務端結(jié)合的方法來使得二者優(yōu)勢互補,其核心思想是客戶端判斷文件的性,將不重復的文件交給服務端完成計算工作,并在在此基礎(chǔ)上增加了預篩選過程
圖 2.2 數(shù)據(jù)去重任務劃分思路務劃分思想,本文設計的方法主要分成了兩個部分。第索引的相關(guān)方法,找出不重復的文件先行上傳,避免其計算工作,此外在預篩選環(huán)節(jié)還需要找出可能相同的文方式在第三章進行詳細的介紹。要計算,本文將其分開放在客戶端和服務端實現(xiàn)。在客對文件進行數(shù)據(jù)重復性的驗證,采用的是邊計算邊比對便不上傳,反之,判定為不重復的文件可以繼續(xù)執(zhí)行后客戶端已經(jīng)確認文件不重復的情況下,補充計算文件的下一次比對其他文件時使用,因此,此處只計算而不用四章進行詳細的介紹。然服務端任務劃分只有一步,但實際情況中,上傳的大務端仍然承擔了主要的計算任務,而只有那些完全重復程,可以認為任務劃分比較合理。
【學位授予單位】:武漢紡織大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP333;TP301.6
本文編號:2697881
【圖文】:
圖 2.1(a) 傳統(tǒng)數(shù)據(jù)去重方法 圖 2.1(b) 本文數(shù)據(jù)去重方法文件預篩選的目的是根據(jù)文件相關(guān)的信息找出系統(tǒng)中不存在的文件,避免參與來減輕后續(xù)步驟的壓力。同時找出可能相同的文件,,作為比對的目標文件。將目標的摘要值計算和摘要值比對同時進行,在第一時間發(fā)現(xiàn)文件的不同,進而將文件在傳統(tǒng)方法中,摘要計算作為一個完整的步驟,放在客戶端會造成用戶體驗差在服務端又會產(chǎn)生資源浪費。針對這一問題,本文設計的客戶端服務端任務劃分方以很好解決這個問題,具體的設計在后面展開。根據(jù)上面的總體的去重方法,本章后續(xù)部分將對客戶端與服務端的任務劃分、預篩選、摘要算法相關(guān)研究這三個部分進行介紹。2.3 功能設計出于提升客戶端的用戶體驗、降低服務端去重資源浪費的考慮,本文設計了一戶端與服務端結(jié)合的方法來使得二者優(yōu)勢互補,其核心思想是客戶端判斷文件的性,將不重復的文件交給服務端完成計算工作,并在在此基礎(chǔ)上增加了預篩選過程
圖 2.2 數(shù)據(jù)去重任務劃分思路務劃分思想,本文設計的方法主要分成了兩個部分。第索引的相關(guān)方法,找出不重復的文件先行上傳,避免其計算工作,此外在預篩選環(huán)節(jié)還需要找出可能相同的文方式在第三章進行詳細的介紹。要計算,本文將其分開放在客戶端和服務端實現(xiàn)。在客對文件進行數(shù)據(jù)重復性的驗證,采用的是邊計算邊比對便不上傳,反之,判定為不重復的文件可以繼續(xù)執(zhí)行后客戶端已經(jīng)確認文件不重復的情況下,補充計算文件的下一次比對其他文件時使用,因此,此處只計算而不用四章進行詳細的介紹。然服務端任務劃分只有一步,但實際情況中,上傳的大務端仍然承擔了主要的計算任務,而只有那些完全重復程,可以認為任務劃分比較合理。
【學位授予單位】:武漢紡織大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP333;TP301.6
【參考文獻】
相關(guān)碩士學位論文 前6條
1 朱帥;基于FastDFS的云存儲文件系統(tǒng)性能優(yōu)化設計與實現(xiàn)[D];東南大學;2017年
2 孔德云;基于FastDFS的大并發(fā)問題的研究與應用[D];中北大學;2017年
3 郝鵬飛;大數(shù)據(jù)模型分析平臺下的數(shù)據(jù)溯源關(guān)鍵技術(shù)研究[D];電子科技大學;2017年
4 趙光亮;基于Ajax和改進MD5算法的數(shù)字簽名技術(shù)研究與應用[D];湖南大學;2016年
5 胡維政;針對文件的在線去重系統(tǒng)設計與實現(xiàn)[D];華中科技大學;2016年
6 劉俊強;基于FastDFS云存儲系統(tǒng)的研究與設計[D];電子科技大學;2016年
本文編號:2697881
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2697881.html
最近更新
教材專著