小文件存取優(yōu)化方法的研究與應(yīng)用

發(fā)布時(shí)間：2017-05-30 16:05

本文關(guān)鍵詞：小文件存取優(yōu)化方法的研究與應(yīng)用，由筆耕文化傳播整理發(fā)布。

【摘要】：隨著信息技術(shù)的提高和互聯(lián)網(wǎng)飛速發(fā)展,企業(yè)和個(gè)人數(shù)據(jù)出現(xiàn)爆炸式增長。研究調(diào)查預(yù)測到2020年全球數(shù)據(jù)量將達(dá)到35ZB。大數(shù)據(jù)時(shí)代已經(jīng)來臨,傳統(tǒng)數(shù)據(jù)存儲(chǔ)方式已經(jīng)無法滿足大數(shù)據(jù)時(shí)代的海量數(shù)據(jù)存儲(chǔ)需求,而以HDFS為代表的分布式文件系統(tǒng)憑借其高可靠性、高可擴(kuò)展、高容錯(cuò)性、低成本等特點(diǎn)為大數(shù)據(jù)時(shí)代的海量數(shù)據(jù)存取提供了全新的模式。然而,HDFS在處理小文件時(shí)存在存取效率低,元數(shù)據(jù)信息存儲(chǔ)消耗內(nèi)存大以及系統(tǒng)數(shù)據(jù)冗余度高等問題。因此海量小文件的存儲(chǔ)方法的研究與優(yōu)化成為國內(nèi)外研究的熱門之一。本文對(duì)HDFS分布式文件系統(tǒng)進(jìn)行了全面分析,并介紹了重復(fù)數(shù)據(jù)刪除技術(shù),同時(shí)分析了基于HDFS系統(tǒng)存儲(chǔ)海量小文件時(shí)存在的不足。針對(duì)網(wǎng)絡(luò)中的存在大量的小文件及重復(fù)數(shù)據(jù),分別采用了相應(yīng)的的處理策略。本文的主要研究內(nèi)容和創(chuàng)新點(diǎn)如下:(1)提出基于相似度的小文件合并算法。首先設(shè)計(jì)了提取文件關(guān)鍵字策略,對(duì)文件的關(guān)鍵字利用漢明距離進(jìn)行相似度計(jì)算,將相關(guān)的小文件合并成大文件上傳到HDFS上;結(jié)合小文件合并方案,對(duì)小文件的元數(shù)據(jù)結(jié)構(gòu)、存儲(chǔ)位置進(jìn)行了分析,同時(shí),對(duì)小文件的讀寫操作流程進(jìn)行了詳細(xì)的設(shè)計(jì),有效地減少了系統(tǒng)的I/O操作,緩解了Name Node存儲(chǔ)元數(shù)據(jù)的壓力,間接地增加系統(tǒng)的存儲(chǔ)容量。(2)針對(duì)系統(tǒng)中存在數(shù)據(jù)高度冗余問題,本文在基于TTTD算法的基礎(chǔ)上提出了IOTD優(yōu)化算法,可以明顯地減小文件分塊大小的不確定性,提高數(shù)據(jù)去重率,同時(shí)為了加快數(shù)據(jù)去重中查詢索引表的速度,引入RUH表,通過Map Reduce編程模型將索引表中最近訪問最多的數(shù)據(jù)塊信息放到RUH表,達(dá)到減少查詢索引表時(shí)間的目的。實(shí)驗(yàn)結(jié)果表明,本文提出的方案在有效減少Name Node的內(nèi)存使用率,及系統(tǒng)存儲(chǔ)冗余數(shù)據(jù)的同時(shí)加快了小文件存取的效率,大大提升了小文件的管理性能。
【關(guān)鍵詞】：小文件 存取優(yōu)化 HDFS 數(shù)據(jù)去重
【學(xué)位授予單位】：東華大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2016
【分類號(hào)】：TP333
【目錄】：

摘要4-6
ABSTRACT6-9
第1章緒論9-12
1.1 引言9
1.2 課題研究意義9-10
1.3 課題研究內(nèi)容10-11
1.4 論文組織結(jié)構(gòu)11-12
第2章小文件存儲(chǔ)方法的研究12-29
2.1 面向小文件的分布式文件系統(tǒng)12-17
2.1.1 TFS文件系統(tǒng)13-15
2.1.2 FastDFS文件系統(tǒng)15-16
2.1.3 TFS與FastDFS性能對(duì)比16-17
2.2 HDFS分布式文件系統(tǒng)17-21
2.2.1 HDFS體系架構(gòu)17-19
2.2.2 HDFS的I/O操作19-21
2.3 重復(fù)刪除技術(shù)21-23
2.3.1 文件級(jí)別的重復(fù)刪除技術(shù)22
2.3.2 塊級(jí)別的重復(fù)刪除技術(shù)22-23
2.4 基于HDFS的小文件存儲(chǔ)方法的研究23-28
2.4.1 小文件存取性能分析23-25
2.4.2 HDFS處理小文件相關(guān)技術(shù)25-27
2.4.3 解決小文件面臨的問題27-28
2.5 本章小結(jié)28-29
第3章小文件存儲(chǔ)的優(yōu)化29-43
3.1 解決小文件問題整體思路29-30
3.2 基于相似度的小文件合并算法30-33
3.2.1 關(guān)鍵詞提取策略30-32
3.2.2 文本相似度匹配32
3.2.3 文件跨塊問題32-33
3.3 元數(shù)據(jù)信息的優(yōu)化33-38
3.3.1 元數(shù)據(jù)結(jié)構(gòu)34-36
3.3.2 元數(shù)據(jù)的存儲(chǔ)位置36
3.3.3 小文件的讀寫流程36-38
3.4 實(shí)驗(yàn)與分析38-42
3.5 本章小結(jié)42-43
第4章文件管理性能優(yōu)化43-50
4.1 IOTD算法43-45
4.2 索引查詢優(yōu)化45-47
4.3 實(shí)驗(yàn)結(jié)果與分析47-49
4.4 本章小結(jié)49-50
第5章系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)50-59
5.1 系統(tǒng)架構(gòu)設(shè)計(jì)50-51
5.2 系統(tǒng)模塊設(shè)計(jì)51-56
5.2.1 數(shù)據(jù)去重模塊51-52
5.2.2 文件合并模塊52-53
5.2.3 索引模塊53-54
5.2.4 緩存模塊54-55
5.2.5 用戶界面55-56
5.3 系統(tǒng)的I/O操作56-57
5.3.1 小文件的存儲(chǔ)過程56-57
5.3.2 小文件的讀取過程57
5.4 本章小結(jié)57-59
第6章總結(jié)及展望59-61
6.1 總結(jié)59-60
6.2 展望60-61
參考文獻(xiàn)61-65
致謝65-66
攻讀碩士學(xué)位期間發(fā)表的論文66

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 李鐵;燕彩蓉;黃永鋒;宋亞龍;;面向Hadoop分布式文件系統(tǒng)的小文件存取優(yōu)化方法[J];計(jì)算機(jī)應(yīng)用;2014年11期

2 陳東輝;曾樂;梁中軍;肖衛(wèi)青;;基于HBase的氣象地面分鐘數(shù)據(jù)分布式存儲(chǔ)系統(tǒng)[J];計(jì)算機(jī)應(yīng)用;2014年09期

3 王錦波;王蓮芝;高萬林;喻健;;一種改進(jìn)的樸素貝葉斯關(guān)鍵詞提取算法研究[J];計(jì)算機(jī)應(yīng)用與軟件;2014年02期

4 付松齡;廖湘科;黃辰林;王蕾;李?yuàn)檴?;FlatLFS:一種面向海量小文件處理優(yōu)化的輕量級(jí)文件系統(tǒng)[J];國防科技大學(xué)學(xué)報(bào);2013年02期

5 張春明;芮建武;何婷婷;;一種Hadoop小文件存儲(chǔ)和讀取的方法[J];計(jì)算機(jī)應(yīng)用與軟件;2012年11期

6 馬燦;孟丹;熊勁;;曙光星云分布式文件系統(tǒng):海量小文件存取[J];小型微型計(jì)算機(jī)系統(tǒng);2012年07期

7 趙曉永;楊揚(yáng);孫莉莉;陳宇;;基于Hadoop的海量MP3文件存儲(chǔ)架構(gòu)[J];計(jì)算機(jī)應(yīng)用;2012年06期

8 付印金;肖儂;劉芳;;重復(fù)數(shù)據(jù)刪除關(guān)鍵技術(shù)研究進(jìn)展[J];計(jì)算機(jī)研究與發(fā)展;2012年01期

9 張穎穎;謝強(qiáng);丁秋林;;基于同義詞鏈的中文關(guān)鍵詞提取算法[J];計(jì)算機(jī)工程;2010年19期

10 敖莉;舒繼武;李明強(qiáng);;重復(fù)數(shù)據(jù)刪除技術(shù)[J];軟件學(xué)報(bào);2010年05期

本文關(guān)鍵詞：小文件存取優(yōu)化方法的研究與應(yīng)用，由筆耕文化傳播整理發(fā)布。

，

本文編號(hào)：407444

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/407444.html

上一篇：大容量OTP存儲(chǔ)器的設(shè)計(jì)與研究
下一篇：基于NAND Flash的差錯(cuò)控制算法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

小文件存取優(yōu)化方法的研究與應(yīng)用