天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 計算機論文 >

小文件存取優(yōu)化方法的研究與應用

發(fā)布時間:2017-05-30 16:05

  本文關鍵詞:小文件存取優(yōu)化方法的研究與應用,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著信息技術的提高和互聯(lián)網(wǎng)飛速發(fā)展,企業(yè)和個人數(shù)據(jù)出現(xiàn)爆炸式增長。研究調(diào)查預測到2020年全球數(shù)據(jù)量將達到35ZB。大數(shù)據(jù)時代已經(jīng)來臨,傳統(tǒng)數(shù)據(jù)存儲方式已經(jīng)無法滿足大數(shù)據(jù)時代的海量數(shù)據(jù)存儲需求,而以HDFS為代表的分布式文件系統(tǒng)憑借其高可靠性、高可擴展、高容錯性、低成本等特點為大數(shù)據(jù)時代的海量數(shù)據(jù)存取提供了全新的模式。然而,HDFS在處理小文件時存在存取效率低,元數(shù)據(jù)信息存儲消耗內(nèi)存大以及系統(tǒng)數(shù)據(jù)冗余度高等問題。因此海量小文件的存儲方法的研究與優(yōu)化成為國內(nèi)外研究的熱門之一。本文對HDFS分布式文件系統(tǒng)進行了全面分析,并介紹了重復數(shù)據(jù)刪除技術,同時分析了基于HDFS系統(tǒng)存儲海量小文件時存在的不足。針對網(wǎng)絡中的存在大量的小文件及重復數(shù)據(jù),分別采用了相應的的處理策略。本文的主要研究內(nèi)容和創(chuàng)新點如下:(1)提出基于相似度的小文件合并算法。首先設計了提取文件關鍵字策略,對文件的關鍵字利用漢明距離進行相似度計算,將相關的小文件合并成大文件上傳到HDFS上;結(jié)合小文件合并方案,對小文件的元數(shù)據(jù)結(jié)構(gòu)、存儲位置進行了分析,同時,對小文件的讀寫操作流程進行了詳細的設計,有效地減少了系統(tǒng)的I/O操作,緩解了Name Node存儲元數(shù)據(jù)的壓力,間接地增加系統(tǒng)的存儲容量。(2)針對系統(tǒng)中存在數(shù)據(jù)高度冗余問題,本文在基于TTTD算法的基礎上提出了IOTD優(yōu)化算法,可以明顯地減小文件分塊大小的不確定性,提高數(shù)據(jù)去重率,同時為了加快數(shù)據(jù)去重中查詢索引表的速度,引入RUH表,通過Map Reduce編程模型將索引表中最近訪問最多的數(shù)據(jù)塊信息放到RUH表,達到減少查詢索引表時間的目的。實驗結(jié)果表明,本文提出的方案在有效減少Name Node的內(nèi)存使用率,及系統(tǒng)存儲冗余數(shù)據(jù)的同時加快了小文件存取的效率,大大提升了小文件的管理性能。
【關鍵詞】:小文件 存取優(yōu)化 HDFS 數(shù)據(jù)去重
【學位授予單位】:東華大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP333
【目錄】:
  • 摘要4-6
  • ABSTRACT6-9
  • 第1章 緒論9-12
  • 1.1 引言9
  • 1.2 課題研究意義9-10
  • 1.3 課題研究內(nèi)容10-11
  • 1.4 論文組織結(jié)構(gòu)11-12
  • 第2章 小文件存儲方法的研究12-29
  • 2.1 面向小文件的分布式文件系統(tǒng)12-17
  • 2.1.1 TFS文件系統(tǒng)13-15
  • 2.1.2 FastDFS文件系統(tǒng)15-16
  • 2.1.3 TFS與FastDFS性能對比16-17
  • 2.2 HDFS分布式文件系統(tǒng)17-21
  • 2.2.1 HDFS體系架構(gòu)17-19
  • 2.2.2 HDFS的I/O操作19-21
  • 2.3 重復刪除技術21-23
  • 2.3.1 文件級別的重復刪除技術22
  • 2.3.2 塊級別的重復刪除技術22-23
  • 2.4 基于HDFS的小文件存儲方法的研究23-28
  • 2.4.1 小文件存取性能分析23-25
  • 2.4.2 HDFS處理小文件相關技術25-27
  • 2.4.3 解決小文件面臨的問題27-28
  • 2.5 本章小結(jié)28-29
  • 第3章 小文件存儲的優(yōu)化29-43
  • 3.1 解決小文件問題整體思路29-30
  • 3.2 基于相似度的小文件合并算法30-33
  • 3.2.1 關鍵詞提取策略30-32
  • 3.2.2 文本相似度匹配32
  • 3.2.3 文件跨塊問題32-33
  • 3.3 元數(shù)據(jù)信息的優(yōu)化33-38
  • 3.3.1 元數(shù)據(jù)結(jié)構(gòu)34-36
  • 3.3.2 元數(shù)據(jù)的存儲位置36
  • 3.3.3 小文件的讀寫流程36-38
  • 3.4 實驗與分析38-42
  • 3.5 本章小結(jié)42-43
  • 第4章 文件管理性能優(yōu)化43-50
  • 4.1 IOTD算法43-45
  • 4.2 索引查詢優(yōu)化45-47
  • 4.3 實驗結(jié)果與分析47-49
  • 4.4 本章小結(jié)49-50
  • 第5章 系統(tǒng)的設計與實現(xiàn)50-59
  • 5.1 系統(tǒng)架構(gòu)設計50-51
  • 5.2 系統(tǒng)模塊設計51-56
  • 5.2.1 數(shù)據(jù)去重模塊51-52
  • 5.2.2 文件合并模塊52-53
  • 5.2.3 索引模塊53-54
  • 5.2.4 緩存模塊54-55
  • 5.2.5 用戶界面55-56
  • 5.3 系統(tǒng)的I/O操作56-57
  • 5.3.1 小文件的存儲過程56-57
  • 5.3.2 小文件的讀取過程57
  • 5.4 本章小結(jié)57-59
  • 第6章 總結(jié)及展望59-61
  • 6.1 總結(jié)59-60
  • 6.2 展望60-61
  • 參考文獻61-65
  • 致謝65-66
  • 攻讀碩士學位期間發(fā)表的論文66

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 李鐵;燕彩蓉;黃永鋒;宋亞龍;;面向Hadoop分布式文件系統(tǒng)的小文件存取優(yōu)化方法[J];計算機應用;2014年11期

2 陳東輝;曾樂;梁中軍;肖衛(wèi)青;;基于HBase的氣象地面分鐘數(shù)據(jù)分布式存儲系統(tǒng)[J];計算機應用;2014年09期

3 王錦波;王蓮芝;高萬林;喻健;;一種改進的樸素貝葉斯關鍵詞提取算法研究[J];計算機應用與軟件;2014年02期

4 付松齡;廖湘科;黃辰林;王蕾;李姍姍;;FlatLFS:一種面向海量小文件處理優(yōu)化的輕量級文件系統(tǒng)[J];國防科技大學學報;2013年02期

5 張春明;芮建武;何婷婷;;一種Hadoop小文件存儲和讀取的方法[J];計算機應用與軟件;2012年11期

6 馬燦;孟丹;熊勁;;曙光星云分布式文件系統(tǒng):海量小文件存取[J];小型微型計算機系統(tǒng);2012年07期

7 趙曉永;楊揚;孫莉莉;陳宇;;基于Hadoop的海量MP3文件存儲架構(gòu)[J];計算機應用;2012年06期

8 付印金;肖儂;劉芳;;重復數(shù)據(jù)刪除關鍵技術研究進展[J];計算機研究與發(fā)展;2012年01期

9 張穎穎;謝強;丁秋林;;基于同義詞鏈的中文關鍵詞提取算法[J];計算機工程;2010年19期

10 敖莉;舒繼武;李明強;;重復數(shù)據(jù)刪除技術[J];軟件學報;2010年05期


  本文關鍵詞:小文件存取優(yōu)化方法的研究與應用,由筆耕文化傳播整理發(fā)布。

,

本文編號:407444

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/407444.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶032f2***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com