小文件存取優(yōu)化方法的研究與應用
本文關鍵詞:小文件存取優(yōu)化方法的研究與應用,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著信息技術的提高和互聯(lián)網(wǎng)飛速發(fā)展,企業(yè)和個人數(shù)據(jù)出現(xiàn)爆炸式增長。研究調(diào)查預測到2020年全球數(shù)據(jù)量將達到35ZB。大數(shù)據(jù)時代已經(jīng)來臨,傳統(tǒng)數(shù)據(jù)存儲方式已經(jīng)無法滿足大數(shù)據(jù)時代的海量數(shù)據(jù)存儲需求,而以HDFS為代表的分布式文件系統(tǒng)憑借其高可靠性、高可擴展、高容錯性、低成本等特點為大數(shù)據(jù)時代的海量數(shù)據(jù)存取提供了全新的模式。然而,HDFS在處理小文件時存在存取效率低,元數(shù)據(jù)信息存儲消耗內(nèi)存大以及系統(tǒng)數(shù)據(jù)冗余度高等問題。因此海量小文件的存儲方法的研究與優(yōu)化成為國內(nèi)外研究的熱門之一。本文對HDFS分布式文件系統(tǒng)進行了全面分析,并介紹了重復數(shù)據(jù)刪除技術,同時分析了基于HDFS系統(tǒng)存儲海量小文件時存在的不足。針對網(wǎng)絡中的存在大量的小文件及重復數(shù)據(jù),分別采用了相應的的處理策略。本文的主要研究內(nèi)容和創(chuàng)新點如下:(1)提出基于相似度的小文件合并算法。首先設計了提取文件關鍵字策略,對文件的關鍵字利用漢明距離進行相似度計算,將相關的小文件合并成大文件上傳到HDFS上;結(jié)合小文件合并方案,對小文件的元數(shù)據(jù)結(jié)構(gòu)、存儲位置進行了分析,同時,對小文件的讀寫操作流程進行了詳細的設計,有效地減少了系統(tǒng)的I/O操作,緩解了Name Node存儲元數(shù)據(jù)的壓力,間接地增加系統(tǒng)的存儲容量。(2)針對系統(tǒng)中存在數(shù)據(jù)高度冗余問題,本文在基于TTTD算法的基礎上提出了IOTD優(yōu)化算法,可以明顯地減小文件分塊大小的不確定性,提高數(shù)據(jù)去重率,同時為了加快數(shù)據(jù)去重中查詢索引表的速度,引入RUH表,通過Map Reduce編程模型將索引表中最近訪問最多的數(shù)據(jù)塊信息放到RUH表,達到減少查詢索引表時間的目的。實驗結(jié)果表明,本文提出的方案在有效減少Name Node的內(nèi)存使用率,及系統(tǒng)存儲冗余數(shù)據(jù)的同時加快了小文件存取的效率,大大提升了小文件的管理性能。
【關鍵詞】:小文件 存取優(yōu)化 HDFS 數(shù)據(jù)去重
【學位授予單位】:東華大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP333
【目錄】:
- 摘要4-6
- ABSTRACT6-9
- 第1章 緒論9-12
- 1.1 引言9
- 1.2 課題研究意義9-10
- 1.3 課題研究內(nèi)容10-11
- 1.4 論文組織結(jié)構(gòu)11-12
- 第2章 小文件存儲方法的研究12-29
- 2.1 面向小文件的分布式文件系統(tǒng)12-17
- 2.1.1 TFS文件系統(tǒng)13-15
- 2.1.2 FastDFS文件系統(tǒng)15-16
- 2.1.3 TFS與FastDFS性能對比16-17
- 2.2 HDFS分布式文件系統(tǒng)17-21
- 2.2.1 HDFS體系架構(gòu)17-19
- 2.2.2 HDFS的I/O操作19-21
- 2.3 重復刪除技術21-23
- 2.3.1 文件級別的重復刪除技術22
- 2.3.2 塊級別的重復刪除技術22-23
- 2.4 基于HDFS的小文件存儲方法的研究23-28
- 2.4.1 小文件存取性能分析23-25
- 2.4.2 HDFS處理小文件相關技術25-27
- 2.4.3 解決小文件面臨的問題27-28
- 2.5 本章小結(jié)28-29
- 第3章 小文件存儲的優(yōu)化29-43
- 3.1 解決小文件問題整體思路29-30
- 3.2 基于相似度的小文件合并算法30-33
- 3.2.1 關鍵詞提取策略30-32
- 3.2.2 文本相似度匹配32
- 3.2.3 文件跨塊問題32-33
- 3.3 元數(shù)據(jù)信息的優(yōu)化33-38
- 3.3.1 元數(shù)據(jù)結(jié)構(gòu)34-36
- 3.3.2 元數(shù)據(jù)的存儲位置36
- 3.3.3 小文件的讀寫流程36-38
- 3.4 實驗與分析38-42
- 3.5 本章小結(jié)42-43
- 第4章 文件管理性能優(yōu)化43-50
- 4.1 IOTD算法43-45
- 4.2 索引查詢優(yōu)化45-47
- 4.3 實驗結(jié)果與分析47-49
- 4.4 本章小結(jié)49-50
- 第5章 系統(tǒng)的設計與實現(xiàn)50-59
- 5.1 系統(tǒng)架構(gòu)設計50-51
- 5.2 系統(tǒng)模塊設計51-56
- 5.2.1 數(shù)據(jù)去重模塊51-52
- 5.2.2 文件合并模塊52-53
- 5.2.3 索引模塊53-54
- 5.2.4 緩存模塊54-55
- 5.2.5 用戶界面55-56
- 5.3 系統(tǒng)的I/O操作56-57
- 5.3.1 小文件的存儲過程56-57
- 5.3.2 小文件的讀取過程57
- 5.4 本章小結(jié)57-59
- 第6章 總結(jié)及展望59-61
- 6.1 總結(jié)59-60
- 6.2 展望60-61
- 參考文獻61-65
- 致謝65-66
- 攻讀碩士學位期間發(fā)表的論文66
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李鐵;燕彩蓉;黃永鋒;宋亞龍;;面向Hadoop分布式文件系統(tǒng)的小文件存取優(yōu)化方法[J];計算機應用;2014年11期
2 陳東輝;曾樂;梁中軍;肖衛(wèi)青;;基于HBase的氣象地面分鐘數(shù)據(jù)分布式存儲系統(tǒng)[J];計算機應用;2014年09期
3 王錦波;王蓮芝;高萬林;喻健;;一種改進的樸素貝葉斯關鍵詞提取算法研究[J];計算機應用與軟件;2014年02期
4 付松齡;廖湘科;黃辰林;王蕾;李姍姍;;FlatLFS:一種面向海量小文件處理優(yōu)化的輕量級文件系統(tǒng)[J];國防科技大學學報;2013年02期
5 張春明;芮建武;何婷婷;;一種Hadoop小文件存儲和讀取的方法[J];計算機應用與軟件;2012年11期
6 馬燦;孟丹;熊勁;;曙光星云分布式文件系統(tǒng):海量小文件存取[J];小型微型計算機系統(tǒng);2012年07期
7 趙曉永;楊揚;孫莉莉;陳宇;;基于Hadoop的海量MP3文件存儲架構(gòu)[J];計算機應用;2012年06期
8 付印金;肖儂;劉芳;;重復數(shù)據(jù)刪除關鍵技術研究進展[J];計算機研究與發(fā)展;2012年01期
9 張穎穎;謝強;丁秋林;;基于同義詞鏈的中文關鍵詞提取算法[J];計算機工程;2010年19期
10 敖莉;舒繼武;李明強;;重復數(shù)據(jù)刪除技術[J];軟件學報;2010年05期
本文關鍵詞:小文件存取優(yōu)化方法的研究與應用,由筆耕文化傳播整理發(fā)布。
,本文編號:407444
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/407444.html