小文件存取優(yōu)化方法的研究與應(yīng)用
本文關(guān)鍵詞:小文件存取優(yōu)化方法的研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著信息技術(shù)的提高和互聯(lián)網(wǎng)飛速發(fā)展,企業(yè)和個(gè)人數(shù)據(jù)出現(xiàn)爆炸式增長。研究調(diào)查預(yù)測到2020年全球數(shù)據(jù)量將達(dá)到35ZB。大數(shù)據(jù)時(shí)代已經(jīng)來臨,傳統(tǒng)數(shù)據(jù)存儲(chǔ)方式已經(jīng)無法滿足大數(shù)據(jù)時(shí)代的海量數(shù)據(jù)存儲(chǔ)需求,而以HDFS為代表的分布式文件系統(tǒng)憑借其高可靠性、高可擴(kuò)展、高容錯(cuò)性、低成本等特點(diǎn)為大數(shù)據(jù)時(shí)代的海量數(shù)據(jù)存取提供了全新的模式。然而,HDFS在處理小文件時(shí)存在存取效率低,元數(shù)據(jù)信息存儲(chǔ)消耗內(nèi)存大以及系統(tǒng)數(shù)據(jù)冗余度高等問題。因此海量小文件的存儲(chǔ)方法的研究與優(yōu)化成為國內(nèi)外研究的熱門之一。本文對(duì)HDFS分布式文件系統(tǒng)進(jìn)行了全面分析,并介紹了重復(fù)數(shù)據(jù)刪除技術(shù),同時(shí)分析了基于HDFS系統(tǒng)存儲(chǔ)海量小文件時(shí)存在的不足。針對(duì)網(wǎng)絡(luò)中的存在大量的小文件及重復(fù)數(shù)據(jù),分別采用了相應(yīng)的的處理策略。本文的主要研究內(nèi)容和創(chuàng)新點(diǎn)如下:(1)提出基于相似度的小文件合并算法。首先設(shè)計(jì)了提取文件關(guān)鍵字策略,對(duì)文件的關(guān)鍵字利用漢明距離進(jìn)行相似度計(jì)算,將相關(guān)的小文件合并成大文件上傳到HDFS上;結(jié)合小文件合并方案,對(duì)小文件的元數(shù)據(jù)結(jié)構(gòu)、存儲(chǔ)位置進(jìn)行了分析,同時(shí),對(duì)小文件的讀寫操作流程進(jìn)行了詳細(xì)的設(shè)計(jì),有效地減少了系統(tǒng)的I/O操作,緩解了Name Node存儲(chǔ)元數(shù)據(jù)的壓力,間接地增加系統(tǒng)的存儲(chǔ)容量。(2)針對(duì)系統(tǒng)中存在數(shù)據(jù)高度冗余問題,本文在基于TTTD算法的基礎(chǔ)上提出了IOTD優(yōu)化算法,可以明顯地減小文件分塊大小的不確定性,提高數(shù)據(jù)去重率,同時(shí)為了加快數(shù)據(jù)去重中查詢索引表的速度,引入RUH表,通過Map Reduce編程模型將索引表中最近訪問最多的數(shù)據(jù)塊信息放到RUH表,達(dá)到減少查詢索引表時(shí)間的目的。實(shí)驗(yàn)結(jié)果表明,本文提出的方案在有效減少Name Node的內(nèi)存使用率,及系統(tǒng)存儲(chǔ)冗余數(shù)據(jù)的同時(shí)加快了小文件存取的效率,大大提升了小文件的管理性能。
【關(guān)鍵詞】:小文件 存取優(yōu)化 HDFS 數(shù)據(jù)去重
【學(xué)位授予單位】:東華大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP333
【目錄】:
- 摘要4-6
- ABSTRACT6-9
- 第1章 緒論9-12
- 1.1 引言9
- 1.2 課題研究意義9-10
- 1.3 課題研究內(nèi)容10-11
- 1.4 論文組織結(jié)構(gòu)11-12
- 第2章 小文件存儲(chǔ)方法的研究12-29
- 2.1 面向小文件的分布式文件系統(tǒng)12-17
- 2.1.1 TFS文件系統(tǒng)13-15
- 2.1.2 FastDFS文件系統(tǒng)15-16
- 2.1.3 TFS與FastDFS性能對(duì)比16-17
- 2.2 HDFS分布式文件系統(tǒng)17-21
- 2.2.1 HDFS體系架構(gòu)17-19
- 2.2.2 HDFS的I/O操作19-21
- 2.3 重復(fù)刪除技術(shù)21-23
- 2.3.1 文件級(jí)別的重復(fù)刪除技術(shù)22
- 2.3.2 塊級(jí)別的重復(fù)刪除技術(shù)22-23
- 2.4 基于HDFS的小文件存儲(chǔ)方法的研究23-28
- 2.4.1 小文件存取性能分析23-25
- 2.4.2 HDFS處理小文件相關(guān)技術(shù)25-27
- 2.4.3 解決小文件面臨的問題27-28
- 2.5 本章小結(jié)28-29
- 第3章 小文件存儲(chǔ)的優(yōu)化29-43
- 3.1 解決小文件問題整體思路29-30
- 3.2 基于相似度的小文件合并算法30-33
- 3.2.1 關(guān)鍵詞提取策略30-32
- 3.2.2 文本相似度匹配32
- 3.2.3 文件跨塊問題32-33
- 3.3 元數(shù)據(jù)信息的優(yōu)化33-38
- 3.3.1 元數(shù)據(jù)結(jié)構(gòu)34-36
- 3.3.2 元數(shù)據(jù)的存儲(chǔ)位置36
- 3.3.3 小文件的讀寫流程36-38
- 3.4 實(shí)驗(yàn)與分析38-42
- 3.5 本章小結(jié)42-43
- 第4章 文件管理性能優(yōu)化43-50
- 4.1 IOTD算法43-45
- 4.2 索引查詢優(yōu)化45-47
- 4.3 實(shí)驗(yàn)結(jié)果與分析47-49
- 4.4 本章小結(jié)49-50
- 第5章 系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)50-59
- 5.1 系統(tǒng)架構(gòu)設(shè)計(jì)50-51
- 5.2 系統(tǒng)模塊設(shè)計(jì)51-56
- 5.2.1 數(shù)據(jù)去重模塊51-52
- 5.2.2 文件合并模塊52-53
- 5.2.3 索引模塊53-54
- 5.2.4 緩存模塊54-55
- 5.2.5 用戶界面55-56
- 5.3 系統(tǒng)的I/O操作56-57
- 5.3.1 小文件的存儲(chǔ)過程56-57
- 5.3.2 小文件的讀取過程57
- 5.4 本章小結(jié)57-59
- 第6章 總結(jié)及展望59-61
- 6.1 總結(jié)59-60
- 6.2 展望60-61
- 參考文獻(xiàn)61-65
- 致謝65-66
- 攻讀碩士學(xué)位期間發(fā)表的論文66
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 李鐵;燕彩蓉;黃永鋒;宋亞龍;;面向Hadoop分布式文件系統(tǒng)的小文件存取優(yōu)化方法[J];計(jì)算機(jī)應(yīng)用;2014年11期
2 陳東輝;曾樂;梁中軍;肖衛(wèi)青;;基于HBase的氣象地面分鐘數(shù)據(jù)分布式存儲(chǔ)系統(tǒng)[J];計(jì)算機(jī)應(yīng)用;2014年09期
3 王錦波;王蓮芝;高萬林;喻健;;一種改進(jìn)的樸素貝葉斯關(guān)鍵詞提取算法研究[J];計(jì)算機(jī)應(yīng)用與軟件;2014年02期
4 付松齡;廖湘科;黃辰林;王蕾;李?yuàn)檴?;FlatLFS:一種面向海量小文件處理優(yōu)化的輕量級(jí)文件系統(tǒng)[J];國防科技大學(xué)學(xué)報(bào);2013年02期
5 張春明;芮建武;何婷婷;;一種Hadoop小文件存儲(chǔ)和讀取的方法[J];計(jì)算機(jī)應(yīng)用與軟件;2012年11期
6 馬燦;孟丹;熊勁;;曙光星云分布式文件系統(tǒng):海量小文件存取[J];小型微型計(jì)算機(jī)系統(tǒng);2012年07期
7 趙曉永;楊揚(yáng);孫莉莉;陳宇;;基于Hadoop的海量MP3文件存儲(chǔ)架構(gòu)[J];計(jì)算機(jī)應(yīng)用;2012年06期
8 付印金;肖儂;劉芳;;重復(fù)數(shù)據(jù)刪除關(guān)鍵技術(shù)研究進(jìn)展[J];計(jì)算機(jī)研究與發(fā)展;2012年01期
9 張穎穎;謝強(qiáng);丁秋林;;基于同義詞鏈的中文關(guān)鍵詞提取算法[J];計(jì)算機(jī)工程;2010年19期
10 敖莉;舒繼武;李明強(qiáng);;重復(fù)數(shù)據(jù)刪除技術(shù)[J];軟件學(xué)報(bào);2010年05期
本文關(guān)鍵詞:小文件存取優(yōu)化方法的研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):407444
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/407444.html