天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向大數(shù)據(jù)的高效存儲(chǔ)容量縮減技術(shù)研究

發(fā)布時(shí)間:2020-07-11 20:54
【摘要】:隨著信息化的發(fā)展,全球數(shù)據(jù)量呈指數(shù)式增長(zhǎng),數(shù)據(jù)中心存儲(chǔ)規(guī)?焖龠~向了PB級(jí)甚至是EB級(jí),其中包含了大量的冗余數(shù)據(jù)。這些冗余數(shù)據(jù)占用了大量的存儲(chǔ)資源,導(dǎo)致存儲(chǔ)系統(tǒng)性能降低,數(shù)據(jù)存儲(chǔ)和管理成本增加等問(wèn)題。在此背景下,存儲(chǔ)容量縮減技術(shù)在不改變數(shù)據(jù)基本屬性前提下,通過(guò)采用重復(fù)數(shù)據(jù)刪除技術(shù)和數(shù)據(jù)壓縮技術(shù),有效地縮減數(shù)據(jù)量的規(guī)模,提高存儲(chǔ)資源利用率,降低管理成本。存儲(chǔ)容量縮減技術(shù)已經(jīng)成為業(yè)界研究的熱點(diǎn),顯示出重要的學(xué)術(shù)價(jià)值和應(yīng)用價(jià)值。然而,大數(shù)據(jù)的規(guī)模巨大、類型繁多、冗余量龐大以及對(duì)數(shù)據(jù)處理的速度要求較高等特點(diǎn),導(dǎo)致存儲(chǔ)容量縮減技術(shù)在面對(duì)大數(shù)據(jù)應(yīng)用時(shí)仍然存在許多需要解決的技術(shù)問(wèn)題。例如如何降低數(shù)據(jù)分塊時(shí)間開(kāi)銷,減少冗余數(shù)據(jù)塊發(fā)現(xiàn)時(shí)間以及提高數(shù)據(jù)壓縮速度和壓縮率等方面。針對(duì)上述問(wèn)題,從存儲(chǔ)容量縮減技術(shù)的數(shù)據(jù)分塊策略、冗余數(shù)據(jù)塊的發(fā)現(xiàn)機(jī)制以及數(shù)據(jù)塊的高速壓縮機(jī)制等方面進(jìn)行深入的研究。具體來(lái)說(shuō),主要從以下三個(gè)方面提出了創(chuàng)新性理論或方法:1.基于位串內(nèi)容感知的數(shù)據(jù)分塊策略(Bit-string Content-aware Chunking Strategy,BCCS):圍繞影響數(shù)據(jù)分塊性能的各種因素進(jìn)行分析和討論,實(shí)現(xiàn)了一種新的基于位串的數(shù)字簽名技術(shù),并在此基礎(chǔ)上提出了BCCS。BCCS從數(shù)據(jù)塊每個(gè)正文字節(jié)中抽取某一特定比特來(lái)構(gòu)成窗口特征數(shù)據(jù),并使用位操作替代傳統(tǒng)的比較操作。該策略充分利用每一次失敗的匹配嘗試所帶來(lái)的特征信息,盡量排除盡可能多的不能匹配位置,從中獲取最大跳躍長(zhǎng)度,從而加快二進(jìn)制串的匹配過(guò)程,降低確定塊邊界的CPU資源消耗。實(shí)驗(yàn)結(jié)果表明,對(duì)于可變數(shù)據(jù)測(cè)試集,相對(duì)Rabin算法,BCCS的數(shù)據(jù)塊劃分速度最多可以提高197%;對(duì)于固定數(shù)據(jù)測(cè)試集,相對(duì)于FSP算法,BCCS速度僅僅降低10.8%,而其數(shù)據(jù)壓縮率卻較FSP的0.977提高到了1.206,可以提高20%。2.基于二級(jí)布隆過(guò)濾的冗余數(shù)據(jù)塊發(fā)現(xiàn)機(jī)制(Redundant Chunk Query Mechanism based on Two-staged Bloom Filter,RCQM-TBF):針對(duì)數(shù)據(jù)指紋(FingerPrint,FP)數(shù)量巨大,不能完全存儲(chǔ)在內(nèi)存中,導(dǎo)致性能下降的問(wèn)題,提出了RCQM-TBF。RCQM-TBF中第二級(jí)布隆過(guò)濾器作為第一級(jí)布隆過(guò)濾器結(jié)果的一個(gè)整體表現(xiàn),其每一個(gè)比特位代表進(jìn)入相同準(zhǔn)二級(jí)假陽(yáng)性誤判狀態(tài)的所有FP。對(duì)于FP假陽(yáng)性訪問(wèn),TBF通過(guò)降低二級(jí)布隆過(guò)濾機(jī)制中第一級(jí)和第二級(jí)過(guò)濾的假陽(yáng)性誤判率,快速判斷新到達(dá)數(shù)據(jù)塊的非存在性;對(duì)于FP正常性訪問(wèn),TBF通過(guò)建立FP高速緩存鏈表和對(duì)應(yīng)的FP預(yù)取機(jī)制來(lái)減少直接的硬盤(pán)訪問(wèn),對(duì)新到達(dá)的數(shù)據(jù)塊存在性進(jìn)行快速判斷;同時(shí)TBF創(chuàng)建了一個(gè)具有強(qiáng)全局散列特性的哈希函數(shù)族,減小碰撞發(fā)生的可能性。實(shí)驗(yàn)結(jié)果表明,對(duì)于非冗余測(cè)試數(shù)據(jù)集,RCQM-TBF的FP查詢延遲性能和數(shù)據(jù)塊的存儲(chǔ)性能較采用標(biāo)準(zhǔn)布隆過(guò)濾算法的ZHU-BLOOM FILTER最多提升了28%;對(duì)于冗余測(cè)試數(shù)據(jù)集,RCQM-TBF的存儲(chǔ)速度較ZHU-BLOOM FILTER最多可以提高100%到135%;當(dāng)擴(kuò)充服務(wù)器內(nèi)存時(shí),理論上RCQM-TBF可管理的存儲(chǔ)數(shù)據(jù)容量最大可以達(dá)到64PB。3.基于多矩陣并行匹配的高速數(shù)據(jù)壓縮機(jī)制(Parallel Matching LZSS based on Multiple Matrix,PMLZSS-MM):為了加快壓縮速度,并提高存儲(chǔ)容量利用率,提出了PMLZSS-MM。該機(jī)制實(shí)現(xiàn)了一種GPU平臺(tái)下的多矩陣并行匹配工作模式,將需要壓縮的數(shù)據(jù)動(dòng)態(tài)劃分多個(gè)字典串和預(yù)讀串,分別將其作為矩陣的縱軸和橫軸,分解到GPU中的不同線程塊中,形成多個(gè)矩陣進(jìn)行并行匹配;而對(duì)于需串行執(zhí)行的壓縮編碼生成部分,仍然在CPU上執(zhí)行。通過(guò)合理的調(diào)度策略,協(xié)調(diào)兩者共同完成任務(wù)。實(shí)驗(yàn)結(jié)果表明,PMLZSS-MM容量縮減率有所下降。相對(duì)于經(jīng)典CPU平臺(tái)上的串行LZSS算法,容量縮減率最多下降了1.5%。但PMLZSS-MM顯著提高了大數(shù)據(jù)的壓縮速度,當(dāng)字典窗口設(shè)置為4KB,預(yù)讀數(shù)據(jù)窗口設(shè)置為64B時(shí),相對(duì)于CPU平臺(tái)上的串行LZSS算法,其壓縮吞吐率最大提高了18倍;相對(duì)于GPU平臺(tái)上的并行CULZSS算法,其壓縮吞吐率最大提高了20.8%。綜上所述,通過(guò)采用BCCS,有效地減小數(shù)據(jù)分塊過(guò)程中的CPU資源消耗,提高發(fā)現(xiàn)塊邊界的速度;采用RCQM-TBF,提高數(shù)據(jù)指紋查詢速度,獲取高效的查詢速度;引入PMLZSS-MM,進(jìn)一步補(bǔ)充和優(yōu)化前兩項(xiàng)技術(shù)的不足,獲取更高的存儲(chǔ)容量縮減率。
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP333
【圖文】:

對(duì)比圖,數(shù)據(jù),對(duì)比圖,氣象預(yù)測(cè)


沒(méi)有辦法提前知道其結(jié)構(gòu)的數(shù)據(jù),如文本、圖像、視存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中,而是以文件形式存儲(chǔ),并且通快速度。大數(shù)據(jù)是一種以實(shí)時(shí)數(shù)據(jù)處理、實(shí)時(shí)結(jié)果導(dǎo)包含兩個(gè)方面:一方面是數(shù)據(jù)產(chǎn)生得快,例如,當(dāng)用戶日志文件數(shù)據(jù)、傳感器網(wǎng)絡(luò)數(shù)據(jù)、GPS 產(chǎn)生的位置非常龐大的數(shù)據(jù)量;另一方面是數(shù)據(jù)處理也要求快速。,隨著時(shí)間流逝,數(shù)據(jù)價(jià)值會(huì)折舊甚至變?yōu)闊o(wú)價(jià)值。感器的數(shù)據(jù)產(chǎn)生幾秒之后就失去意義了,而氣象預(yù)測(cè)信也將變得毫無(wú)意義。在實(shí)際的應(yīng)用中,例如社交網(wǎng)絡(luò)數(shù)據(jù)、電子商務(wù)應(yīng)用800000tes產(chǎn)生的數(shù)據(jù) 可用存儲(chǔ)容量

位串,數(shù)量比,模式,數(shù)據(jù)集


11bit 12bit 13bit 14bit圖 2.20 采用不同長(zhǎng)度的模式位串劃分 Chunk 數(shù)量比較如圖2.20所示,圖中橫軸表示5個(gè)子數(shù)據(jù)集,縱軸表示Chunking后產(chǎn)生的Chunk數(shù)量;圖2.21,圖中橫軸表示5個(gè)子數(shù)據(jù)集,縱軸表示Chunking后的Chunk冗余率?梢杂^察到,最終產(chǎn)生的Chunk數(shù)量與模式位串的長(zhǎng)度緊密相關(guān)。隨著模式長(zhǎng)度的增大,所得到的Chunk長(zhǎng)度增加,每個(gè)子數(shù)據(jù)集Chunking后產(chǎn)生的Chunk數(shù)量按比例減少。當(dāng)選用模式長(zhǎng)度為13bit(對(duì)應(yīng)Chunk預(yù)期長(zhǎng)度為8KB)時(shí)

冗余率,位串,模式,長(zhǎng)度


圖 2.20 采用不同長(zhǎng)度的模式位串劃分 Chunk 數(shù)量比較如圖2.20所示,圖中橫軸表示5個(gè)子數(shù)據(jù)集,縱軸表示Chunking后產(chǎn)生的Chunk數(shù)量;圖2.21,圖中橫軸表示5個(gè)子數(shù)據(jù)集,縱軸表示Chunking后的Chunk冗余率?梢杂^察到,最終產(chǎn)生的Chunk數(shù)量與模式位串的長(zhǎng)度緊密相關(guān)。隨著模式長(zhǎng)度的增大,所得到的Chunk長(zhǎng)度增加,每個(gè)子數(shù)據(jù)集Chunking后產(chǎn)生的Chunk數(shù)量按比例減少。當(dāng)選用模式長(zhǎng)度為13bit(對(duì)應(yīng)Chunk預(yù)期長(zhǎng)度為8KB)時(shí),其產(chǎn)生的Chunk數(shù)量?jī)H僅為模式長(zhǎng)度為11bit(對(duì)應(yīng)Chunk預(yù)期長(zhǎng)度為2KB)時(shí)的25%~35%左右,而Chunk的冗

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 史江瑾;王洪生;汪琳;初劍;;存儲(chǔ)容量單位表示方法的探討[J];電子工程師;2006年03期

2 趙國(guó)求;;計(jì)算機(jī)知識(shí)點(diǎn)滴[J];武鋼技術(shù);1985年01期

3 顏世科,李桂芬;單板(單片)機(jī)系統(tǒng)中存儲(chǔ)容量大于2~N的擴(kuò)展方法[J];電子與自動(dòng)化;1997年05期

4 方卉;存儲(chǔ)容量為130MB的軟磁盤(pán)驅(qū)動(dòng)器[J];計(jì)算機(jī)工程;1998年12期

5 任伏兵;一種擴(kuò)展8096存儲(chǔ)容量的方法[J];自動(dòng)化儀表;1994年12期

6 ;不斷增大的存儲(chǔ)容量[J];個(gè)人電腦;1997年10期

7 AlixL.Paultre;郵票大小的全息媒體擁有高達(dá)1GB的存儲(chǔ)容量[J];今日電子;2004年07期

8 Matthew Kendall,Duncan Furness;提高便攜式消費(fèi)電子的存儲(chǔ)容量[J];電子產(chǎn)品世界;2005年07期

9 周福新;;大存儲(chǔ)容量的激光卡[J];激光與光電子學(xué)進(jìn)展;1986年01期

10 馮蓓;;音樂(lè)之旅[J];通信技術(shù);2004年06期

相關(guān)會(huì)議論文 前1條

1 李曉凡;陳岳瑞;孔宇菲;任久春;繆健;陳良堯;;新型三維高密度光存儲(chǔ)方法的研究[A];上海市激光學(xué)會(huì)2005年學(xué)術(shù)年會(huì)論文集[C];2005年

相關(guān)重要報(bào)紙文章 前10條

1 通訊員  邱克忠 記者  賀耀堂;存儲(chǔ)容量蘇北最大[N];連云港日?qǐng)?bào);2006年

2 丁小魚(yú)邋編譯;學(xué)會(huì)管理存儲(chǔ)容量[N];計(jì)算機(jī)世界;2007年

3 ;如何增加本地存儲(chǔ)容量[N];網(wǎng)絡(luò)世界;2009年

4 ;五個(gè)步驟改進(jìn)存儲(chǔ)容量規(guī)劃[N];網(wǎng)絡(luò)世界;2009年

5 本報(bào)記者 鄒本X;移動(dòng)存儲(chǔ)容量也“短斤缺兩”[N];中國(guó)消費(fèi)者報(bào);2005年

6 苗建 編譯;如何應(yīng)對(duì)存儲(chǔ)容量危機(jī)?[N];計(jì)算機(jī)世界;2010年

7 記者 余瀛波;智能手機(jī)存儲(chǔ)容量虛標(biāo)成投訴熱點(diǎn)[N];法制日?qǐng)?bào);2013年

8 張馳;從容應(yīng)對(duì)存儲(chǔ)容量危機(jī)[N];網(wǎng)絡(luò)世界;2010年

9 記者 王惜純;手機(jī)存儲(chǔ)容量投訴量不小[N];中國(guó)質(zhì)量報(bào);2013年

10 編譯 郭濤;有效遏制存儲(chǔ)年支出增長(zhǎng)10%[N];中國(guó)計(jì)算機(jī)報(bào);2009年

相關(guān)博士學(xué)位論文 前1條

1 周斌;面向大數(shù)據(jù)的高效存儲(chǔ)容量縮減技術(shù)研究[D];華中科技大學(xué);2015年

相關(guān)碩士學(xué)位論文 前2條

1 伊莉婭;面向服務(wù)的未來(lái)互聯(lián)網(wǎng)絡(luò)副本存儲(chǔ)技術(shù)及策略[D];北京郵電大學(xué);2015年

2 戴健雄;VXI總線大存儲(chǔ)容量掃描A/D模塊研制[D];哈爾濱工業(yè)大學(xué);2007年



本文編號(hào):2750916

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2750916.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1c068***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
麻豆视频传媒入口在线看| 国产免费人成视频尤物| 亚洲一区二区三区精选| 东京热电东京热一区二区三区| 中文字幕人妻日本一区二区 | 精品国模一区二区三区欧美| 色丁香之五月婷婷开心| 国产精品福利精品福利| 又大又长又粗又黄国产| 日韩精品在线观看完整版| 国产精品偷拍一区二区| 国产高清视频一区不卡| 欧美又黑又粗大又硬又爽| 女人精品内射国产99| 中文字幕一区二区三区大片| 亚洲妇女黄色三级视频| 日本高清一区免费不卡| 精品日韩视频在线观看| 冬爱琴音一区二区中文字幕| 美女被啪的视频在线观看| 国产大屁股喷水在线观看视频| 精品国产亚洲一区二区三区| 东北老熟妇全程露脸被内射| 爱草草在线观看免费视频| 久久精品偷拍视频观看| 中字幕一区二区三区久久蜜桃 | 色婷婷在线精品国自产拍| 丰满人妻一二区二区三区av | 人妻熟女中文字幕在线| 精品伊人久久大香线蕉综合| 小黄片大全欧美一区二区| 国产精品欧美日韩中文字幕| 国产精品日韩欧美第一页| 女人高潮被爽到呻吟在线观看| 国产户外勾引精品露出一区| 免费观看在线午夜视频| 国产香蕉国产精品偷在线观看| 激情综合五月开心久久| 美国女大兵激情豪放视频播放| 亚洲综合伊人五月天中文| 在线免费观看一二区视频|