天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計(jì)算機(jī)論文 >

面向大數(shù)據(jù)的高效存儲容量縮減技術(shù)研究

發(fā)布時間:2020-07-11 20:54
【摘要】:隨著信息化的發(fā)展,全球數(shù)據(jù)量呈指數(shù)式增長,數(shù)據(jù)中心存儲規(guī)模快速邁向了PB級甚至是EB級,其中包含了大量的冗余數(shù)據(jù)。這些冗余數(shù)據(jù)占用了大量的存儲資源,導(dǎo)致存儲系統(tǒng)性能降低,數(shù)據(jù)存儲和管理成本增加等問題。在此背景下,存儲容量縮減技術(shù)在不改變數(shù)據(jù)基本屬性前提下,通過采用重復(fù)數(shù)據(jù)刪除技術(shù)和數(shù)據(jù)壓縮技術(shù),有效地縮減數(shù)據(jù)量的規(guī)模,提高存儲資源利用率,降低管理成本。存儲容量縮減技術(shù)已經(jīng)成為業(yè)界研究的熱點(diǎn),顯示出重要的學(xué)術(shù)價值和應(yīng)用價值。然而,大數(shù)據(jù)的規(guī)模巨大、類型繁多、冗余量龐大以及對數(shù)據(jù)處理的速度要求較高等特點(diǎn),導(dǎo)致存儲容量縮減技術(shù)在面對大數(shù)據(jù)應(yīng)用時仍然存在許多需要解決的技術(shù)問題。例如如何降低數(shù)據(jù)分塊時間開銷,減少冗余數(shù)據(jù)塊發(fā)現(xiàn)時間以及提高數(shù)據(jù)壓縮速度和壓縮率等方面。針對上述問題,從存儲容量縮減技術(shù)的數(shù)據(jù)分塊策略、冗余數(shù)據(jù)塊的發(fā)現(xiàn)機(jī)制以及數(shù)據(jù)塊的高速壓縮機(jī)制等方面進(jìn)行深入的研究。具體來說,主要從以下三個方面提出了創(chuàng)新性理論或方法:1.基于位串內(nèi)容感知的數(shù)據(jù)分塊策略(Bit-string Content-aware Chunking Strategy,BCCS):圍繞影響數(shù)據(jù)分塊性能的各種因素進(jìn)行分析和討論,實(shí)現(xiàn)了一種新的基于位串的數(shù)字簽名技術(shù),并在此基礎(chǔ)上提出了BCCS。BCCS從數(shù)據(jù)塊每個正文字節(jié)中抽取某一特定比特來構(gòu)成窗口特征數(shù)據(jù),并使用位操作替代傳統(tǒng)的比較操作。該策略充分利用每一次失敗的匹配嘗試所帶來的特征信息,盡量排除盡可能多的不能匹配位置,從中獲取最大跳躍長度,從而加快二進(jìn)制串的匹配過程,降低確定塊邊界的CPU資源消耗。實(shí)驗(yàn)結(jié)果表明,對于可變數(shù)據(jù)測試集,相對Rabin算法,BCCS的數(shù)據(jù)塊劃分速度最多可以提高197%;對于固定數(shù)據(jù)測試集,相對于FSP算法,BCCS速度僅僅降低10.8%,而其數(shù)據(jù)壓縮率卻較FSP的0.977提高到了1.206,可以提高20%。2.基于二級布隆過濾的冗余數(shù)據(jù)塊發(fā)現(xiàn)機(jī)制(Redundant Chunk Query Mechanism based on Two-staged Bloom Filter,RCQM-TBF):針對數(shù)據(jù)指紋(FingerPrint,FP)數(shù)量巨大,不能完全存儲在內(nèi)存中,導(dǎo)致性能下降的問題,提出了RCQM-TBF。RCQM-TBF中第二級布隆過濾器作為第一級布隆過濾器結(jié)果的一個整體表現(xiàn),其每一個比特位代表進(jìn)入相同準(zhǔn)二級假陽性誤判狀態(tài)的所有FP。對于FP假陽性訪問,TBF通過降低二級布隆過濾機(jī)制中第一級和第二級過濾的假陽性誤判率,快速判斷新到達(dá)數(shù)據(jù)塊的非存在性;對于FP正常性訪問,TBF通過建立FP高速緩存鏈表和對應(yīng)的FP預(yù)取機(jī)制來減少直接的硬盤訪問,對新到達(dá)的數(shù)據(jù)塊存在性進(jìn)行快速判斷;同時TBF創(chuàng)建了一個具有強(qiáng)全局散列特性的哈希函數(shù)族,減小碰撞發(fā)生的可能性。實(shí)驗(yàn)結(jié)果表明,對于非冗余測試數(shù)據(jù)集,RCQM-TBF的FP查詢延遲性能和數(shù)據(jù)塊的存儲性能較采用標(biāo)準(zhǔn)布隆過濾算法的ZHU-BLOOM FILTER最多提升了28%;對于冗余測試數(shù)據(jù)集,RCQM-TBF的存儲速度較ZHU-BLOOM FILTER最多可以提高100%到135%;當(dāng)擴(kuò)充服務(wù)器內(nèi)存時,理論上RCQM-TBF可管理的存儲數(shù)據(jù)容量最大可以達(dá)到64PB。3.基于多矩陣并行匹配的高速數(shù)據(jù)壓縮機(jī)制(Parallel Matching LZSS based on Multiple Matrix,PMLZSS-MM):為了加快壓縮速度,并提高存儲容量利用率,提出了PMLZSS-MM。該機(jī)制實(shí)現(xiàn)了一種GPU平臺下的多矩陣并行匹配工作模式,將需要壓縮的數(shù)據(jù)動態(tài)劃分多個字典串和預(yù)讀串,分別將其作為矩陣的縱軸和橫軸,分解到GPU中的不同線程塊中,形成多個矩陣進(jìn)行并行匹配;而對于需串行執(zhí)行的壓縮編碼生成部分,仍然在CPU上執(zhí)行。通過合理的調(diào)度策略,協(xié)調(diào)兩者共同完成任務(wù)。實(shí)驗(yàn)結(jié)果表明,PMLZSS-MM容量縮減率有所下降。相對于經(jīng)典CPU平臺上的串行LZSS算法,容量縮減率最多下降了1.5%。但PMLZSS-MM顯著提高了大數(shù)據(jù)的壓縮速度,當(dāng)字典窗口設(shè)置為4KB,預(yù)讀數(shù)據(jù)窗口設(shè)置為64B時,相對于CPU平臺上的串行LZSS算法,其壓縮吞吐率最大提高了18倍;相對于GPU平臺上的并行CULZSS算法,其壓縮吞吐率最大提高了20.8%。綜上所述,通過采用BCCS,有效地減小數(shù)據(jù)分塊過程中的CPU資源消耗,提高發(fā)現(xiàn)塊邊界的速度;采用RCQM-TBF,提高數(shù)據(jù)指紋查詢速度,獲取高效的查詢速度;引入PMLZSS-MM,進(jìn)一步補(bǔ)充和優(yōu)化前兩項(xiàng)技術(shù)的不足,獲取更高的存儲容量縮減率。
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:TP333
【圖文】:

對比圖,數(shù)據(jù),對比圖,氣象預(yù)測


沒有辦法提前知道其結(jié)構(gòu)的數(shù)據(jù),如文本、圖像、視存儲在關(guān)系數(shù)據(jù)庫中,而是以文件形式存儲,并且通快速度。大數(shù)據(jù)是一種以實(shí)時數(shù)據(jù)處理、實(shí)時結(jié)果導(dǎo)包含兩個方面:一方面是數(shù)據(jù)產(chǎn)生得快,例如,當(dāng)用戶日志文件數(shù)據(jù)、傳感器網(wǎng)絡(luò)數(shù)據(jù)、GPS 產(chǎn)生的位置非常龐大的數(shù)據(jù)量;另一方面是數(shù)據(jù)處理也要求快速。,隨著時間流逝,數(shù)據(jù)價值會折舊甚至變?yōu)闊o價值。感器的數(shù)據(jù)產(chǎn)生幾秒之后就失去意義了,而氣象預(yù)測信也將變得毫無意義。在實(shí)際的應(yīng)用中,例如社交網(wǎng)絡(luò)數(shù)據(jù)、電子商務(wù)應(yīng)用800000tes產(chǎn)生的數(shù)據(jù) 可用存儲容量

位串,數(shù)量比,模式,數(shù)據(jù)集


11bit 12bit 13bit 14bit圖 2.20 采用不同長度的模式位串劃分 Chunk 數(shù)量比較如圖2.20所示,圖中橫軸表示5個子數(shù)據(jù)集,縱軸表示Chunking后產(chǎn)生的Chunk數(shù)量;圖2.21,圖中橫軸表示5個子數(shù)據(jù)集,縱軸表示Chunking后的Chunk冗余率?梢杂^察到,最終產(chǎn)生的Chunk數(shù)量與模式位串的長度緊密相關(guān)。隨著模式長度的增大,所得到的Chunk長度增加,每個子數(shù)據(jù)集Chunking后產(chǎn)生的Chunk數(shù)量按比例減少。當(dāng)選用模式長度為13bit(對應(yīng)Chunk預(yù)期長度為8KB)時

冗余率,位串,模式,長度


圖 2.20 采用不同長度的模式位串劃分 Chunk 數(shù)量比較如圖2.20所示,圖中橫軸表示5個子數(shù)據(jù)集,縱軸表示Chunking后產(chǎn)生的Chunk數(shù)量;圖2.21,圖中橫軸表示5個子數(shù)據(jù)集,縱軸表示Chunking后的Chunk冗余率?梢杂^察到,最終產(chǎn)生的Chunk數(shù)量與模式位串的長度緊密相關(guān)。隨著模式長度的增大,所得到的Chunk長度增加,每個子數(shù)據(jù)集Chunking后產(chǎn)生的Chunk數(shù)量按比例減少。當(dāng)選用模式長度為13bit(對應(yīng)Chunk預(yù)期長度為8KB)時,其產(chǎn)生的Chunk數(shù)量僅僅為模式長度為11bit(對應(yīng)Chunk預(yù)期長度為2KB)時的25%~35%左右,而Chunk的冗

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 史江瑾;王洪生;汪琳;初劍;;存儲容量單位表示方法的探討[J];電子工程師;2006年03期

2 趙國求;;計(jì)算機(jī)知識點(diǎn)滴[J];武鋼技術(shù);1985年01期

3 顏世科,李桂芬;單板(單片)機(jī)系統(tǒng)中存儲容量大于2~N的擴(kuò)展方法[J];電子與自動化;1997年05期

4 方卉;存儲容量為130MB的軟磁盤驅(qū)動器[J];計(jì)算機(jī)工程;1998年12期

5 任伏兵;一種擴(kuò)展8096存儲容量的方法[J];自動化儀表;1994年12期

6 ;不斷增大的存儲容量[J];個人電腦;1997年10期

7 AlixL.Paultre;郵票大小的全息媒體擁有高達(dá)1GB的存儲容量[J];今日電子;2004年07期

8 Matthew Kendall,Duncan Furness;提高便攜式消費(fèi)電子的存儲容量[J];電子產(chǎn)品世界;2005年07期

9 周福新;;大存儲容量的激光卡[J];激光與光電子學(xué)進(jìn)展;1986年01期

10 馮蓓;;音樂之旅[J];通信技術(shù);2004年06期

相關(guān)會議論文 前1條

1 李曉凡;陳岳瑞;孔宇菲;任久春;繆健;陳良堯;;新型三維高密度光存儲方法的研究[A];上海市激光學(xué)會2005年學(xué)術(shù)年會論文集[C];2005年

相關(guān)重要報(bào)紙文章 前10條

1 通訊員  邱克忠 記者  賀耀堂;存儲容量蘇北最大[N];連云港日報(bào);2006年

2 丁小魚邋編譯;學(xué)會管理存儲容量[N];計(jì)算機(jī)世界;2007年

3 ;如何增加本地存儲容量[N];網(wǎng)絡(luò)世界;2009年

4 ;五個步驟改進(jìn)存儲容量規(guī)劃[N];網(wǎng)絡(luò)世界;2009年

5 本報(bào)記者 鄒本X;移動存儲容量也“短斤缺兩”[N];中國消費(fèi)者報(bào);2005年

6 苗建 編譯;如何應(yīng)對存儲容量危機(jī)?[N];計(jì)算機(jī)世界;2010年

7 記者 余瀛波;智能手機(jī)存儲容量虛標(biāo)成投訴熱點(diǎn)[N];法制日報(bào);2013年

8 張馳;從容應(yīng)對存儲容量危機(jī)[N];網(wǎng)絡(luò)世界;2010年

9 記者 王惜純;手機(jī)存儲容量投訴量不小[N];中國質(zhì)量報(bào);2013年

10 編譯 郭濤;有效遏制存儲年支出增長10%[N];中國計(jì)算機(jī)報(bào);2009年

相關(guān)博士學(xué)位論文 前1條

1 周斌;面向大數(shù)據(jù)的高效存儲容量縮減技術(shù)研究[D];華中科技大學(xué);2015年

相關(guān)碩士學(xué)位論文 前2條

1 伊莉婭;面向服務(wù)的未來互聯(lián)網(wǎng)絡(luò)副本存儲技術(shù)及策略[D];北京郵電大學(xué);2015年

2 戴健雄;VXI總線大存儲容量掃描A/D模塊研制[D];哈爾濱工業(yè)大學(xué);2007年



本文編號:2750916

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2750916.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1c068***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com