基于HDFS的小文件存儲方法的研究與優(yōu)化
發(fā)布時間:2017-05-02 15:16
本文關(guān)鍵詞:基于HDFS的小文件存儲方法的研究與優(yōu)化,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的飛速發(fā)展,數(shù)字信息正在呈現(xiàn)爆炸式的增長,人類已步入大數(shù)據(jù)時代,傳統(tǒng)的存儲方式在處理海量數(shù)據(jù)方面顯得越來越乏力。如何高效地處理和存儲海量數(shù)據(jù)已成為一個亟待解決的問題。伴隨著數(shù)據(jù)處理以及存儲技術(shù)的快速發(fā)展,云計算的概念應(yīng)運而生。云存儲是云計算的延伸和發(fā)展,它具有結(jié)構(gòu)靈活、響應(yīng)效率高、管理方便等優(yōu)點,已經(jīng)成為世界各國解決數(shù)據(jù)爆炸性增長方案的首選。 Hadoop分布式文件系統(tǒng)(HDFS)作為目前應(yīng)用非常廣泛的云存儲平臺具有開源、廉價、高容錯以及高可擴展性的特點。但是由于自身的主從式結(jié)構(gòu)和元數(shù)據(jù)的存儲方式導(dǎo)致其在處理海量小文件時NameNode內(nèi)存占用率高、存儲訪問效率低、并發(fā)用戶的訪問時延長,這些問題已經(jīng)成為制約HDFS整體性能的瓶頸。因此,基于HDFS的海量小文件存儲方法的研究與優(yōu)化是云計算技術(shù)領(lǐng)域的一個重要研究課題。 為了解決HDFS處理海量小文件時耗費內(nèi)存資源和檢索效率低的問題,本文首先研究了HDFS下處理小文件的現(xiàn)有方法,,分析了各自的優(yōu)缺點,并在此基礎(chǔ)上提出了一種具有獨立小文件處理模塊的分布式文件系統(tǒng)。該架構(gòu)是在分布式文件系統(tǒng)的基礎(chǔ)之上加入一個完全獨立于HDFS的小文件處理模塊,負責(zé)小文件的合并、映射、預(yù)取,在傳統(tǒng)HDFS處理之前將小文件整合為大文件。該架構(gòu)使得HDFS系統(tǒng)在處理小文件的同時不影響對大文件或者對已合并小文件的寫入或讀取,從而提高系統(tǒng)的存儲訪問效率。并且,本文所提架構(gòu)更加符合傳統(tǒng)HDFS高效處理大文件的設(shè)計理念,在解決多用戶高并發(fā)訪問問題上也有一定優(yōu)勢。 最后通過系統(tǒng)仿真,說明在元數(shù)據(jù)耗費內(nèi)存資源、存儲訪問效率、用戶并發(fā)訪問方面所提架構(gòu)比原HDFS系統(tǒng)及HAR方法具有較大提升。
【關(guān)鍵詞】:HDFS海量小文件 小文件處理模塊 并發(fā)訪問 存儲訪問效率
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP333
【目錄】:
- 摘要3-4
- Abstract4-7
- 第一章 緒論7-13
- 1.1 課題背景7-9
- 1.2 研究意義和現(xiàn)狀9-11
- 1.2.1 研究意義9
- 1.2.2 研究現(xiàn)狀9-11
- 1.3 本文結(jié)構(gòu)11-13
- 第二章 相關(guān)技術(shù)研究13-21
- 2.1 Hadoop 分布式平臺結(jié)構(gòu)13-14
- 2.2 HDFS 系統(tǒng)14-18
- 2.2.1 HDFS 架構(gòu)14-17
- 2.2.2 HDFS 的目標(biāo)特性17-18
- 2.3 HDFS 處理小文件關(guān)鍵問題18-19
- 2.4 HDFS 處理小文件相關(guān)技術(shù)19-21
- 第三章 HDFS 處理小文件方案的分析和設(shè)計21-33
- 3.1 歸檔文件和序列化文件21-22
- 3.1.1 歸檔文件技術(shù)21-22
- 3.1.2 序列化文件技術(shù)22
- 3.2 BlueSky 系統(tǒng)案例研究22-24
- 3.3 一種具有獨立小文件處理模塊的 HDFS 架構(gòu)的設(shè)計24-26
- 3.3.1 系統(tǒng)設(shè)計的初衷和目標(biāo)24-25
- 3.3.2 系統(tǒng)設(shè)計思路25-26
- 3.4 系統(tǒng)架構(gòu)26-32
- 3.4.1 整體結(jié)構(gòu)設(shè)計26-28
- 3.4.2 小文件模塊的細化設(shè)計28-32
- 3.5 本章總結(jié)32-33
- 第四章 文件操作和多用戶高并發(fā)訪問策略33-45
- 4.1 HDFS 文件讀寫操作33-37
- 4.1.1 原 HDFS 系統(tǒng)的文件操作33-35
- 4.1.2 具有獨立小文件處理模塊的架構(gòu)文件操作35-37
- 4.2 多用戶高并發(fā)訪問策略的分析37-40
- 4.2.1 程序的順序執(zhí)行和并發(fā)執(zhí)行37-38
- 4.2.2 本文 HDFS 架構(gòu)的順序處理和并發(fā)處理38-40
- 4.3 性能評估40-43
- 4.3.1 HDFS 存儲訪問效率標(biāo)準40-41
- 4.3.2 HDFS 存儲訪問效率仿真結(jié)果分析41-43
- 4.4 本章小結(jié)43-45
- 第五章 總結(jié)45-47
- 致謝47-49
- 參考文獻49-53
- 作者攻讀碩士期間參加的科研項目53-54
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前5條
1 彭明軍,李宗華,楊存吉;WebGIS實現(xiàn)技術(shù)及發(fā)展研究[J];測繪信息與工程;2001年01期
2 劉旭輝;韓冀中;賀勁;韓承德;;基于集群系統(tǒng)的空間數(shù)據(jù)并行處理策略研究[J];高技術(shù)通訊;2009年10期
3 史強;;GFS云存儲技術(shù)可靠性簡介[J];福建電腦;2012年01期
4 羅軍舟;金嘉暉;宋愛波;東方;;云計算:體系架構(gòu)與關(guān)鍵技術(shù)[J];通信學(xué)報;2011年07期
5 付鵬,周華春,陳旭東;CDN技術(shù)在IPTV系統(tǒng)中的應(yīng)用[J];中國有線電視;2004年07期
本文關(guān)鍵詞:基于HDFS的小文件存儲方法的研究與優(yōu)化,由筆耕文化傳播整理發(fā)布。
本文編號:341212
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/341212.html
最近更新
教材專著