基于HDFS的小文件存儲模型研究與實現(xiàn)
發(fā)布時間:2017-04-29 02:01
本文關(guān)鍵詞:基于HDFS的小文件存儲模型研究與實現(xiàn),,由筆耕文化傳播整理發(fā)布。
【摘要】:大數(shù)據(jù)是當前計算機領(lǐng)域研究的熱點問題之一。企業(yè)通過大數(shù)據(jù)分析消費者行為,部門銷售數(shù)據(jù)等指標,能得出對企業(yè)增加市場競爭力產(chǎn)生重要作用的情報數(shù)據(jù)。隨著大數(shù)據(jù)對企業(yè)發(fā)展帶來積極的影響,越來越多的企業(yè)將利用大數(shù)據(jù),以及尋求適用于大數(shù)據(jù)的數(shù)據(jù)存儲解決方案。HDFS是一個開源的分布式文件系統(tǒng),因其較低的成本,良好的可靠性等特點而成為企業(yè)與科研院所首選的海量數(shù)據(jù)存儲解決方案。HDFS適用于采用流式數(shù)據(jù)訪問和存儲超大文件,在存儲大數(shù)據(jù)研究過程中產(chǎn)生的海量小文件時,則表現(xiàn)出存儲空間不足,讀寫效率低下等問題。如何使HDFS高效存儲小文件,是一個十分有意義的研究方向。針對HDFS在存儲小文件時表現(xiàn)出的效率低下等問題,本文從磁盤、網(wǎng)絡(luò)通信和元數(shù)據(jù)等因素詳細分析小文件問題產(chǎn)生原因,并提出包含管理節(jié)點與工作節(jié)點的小文件存儲模型以優(yōu)化HDFS上的小文件問題。論文主要工作如下:(1)提出小文件存儲模型架構(gòu)。存儲模型是一個基于HDFS的應(yīng)用。它通過采用小文件優(yōu)化存儲策略,代替HDFS處理客戶端的讀寫小文件請求,達到優(yōu)化小文件存儲的目的。(2)小文件合并存儲。即多個客戶端上傳的小文件共同保存在一個HDFS文件中,該方法能有效減少HDFS中系統(tǒng)元數(shù)據(jù)的數(shù)目,并降低HDFS讀取小文件數(shù)據(jù)的磁盤尋道時間。(3)小文件索引管理。索引管理主要包括:創(chuàng)建、序列化與反序列化小文件索引。每個工作節(jié)點在內(nèi)存中保存與其相關(guān)的小文件集合的索引信息。通過查詢索引表實現(xiàn)工作節(jié)點快速定位小文件數(shù)據(jù)在HDFS文件中的偏移地址。(4)小文件緩存管理。本文在工作節(jié)點的內(nèi)存和磁盤上構(gòu)建小文件緩存區(qū),保存最近寫入的和訪問頻率的小文件。緩存管理內(nèi)置多種常用緩存置換算法,有效減少工作節(jié)點與HDFS交互次數(shù),提高客戶端訪問小文件的效率。(5)通過部署多節(jié)點實驗平臺,對小文件存儲模型進行了讀寫性能測試。測試結(jié)果與HDFS讀寫文件性能對比發(fā)現(xiàn):小文件存儲模型方案具有可行性,且表現(xiàn)出良好的小文件讀寫性能。
【關(guān)鍵詞】:HDFS 小文件 分布式 合并存儲 元數(shù)據(jù) 緩存
【學(xué)位授予單位】:東北大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP333
【目錄】:
- 摘要5-7
- Abstract7-12
- 第1章 緒論12-16
- 1.1 研究背景12-13
- 1.2 研究現(xiàn)狀13-14
- 1.3 研究內(nèi)容14
- 1.4 論文結(jié)構(gòu)14-16
- 第2章 Hadoop分布式文件系統(tǒng)16-32
- 2.1 HDFS架構(gòu)16-19
- 2.1.1 名字節(jié)點17-18
- 2.1.2 數(shù)據(jù)節(jié)點18-19
- 2.2 HDFS集群啟動19-21
- 2.2.1 名字節(jié)點啟動19-20
- 2.2.2 數(shù)據(jù)節(jié)點啟動與心跳20-21
- 2.3 HDFS元數(shù)據(jù)管理21-23
- 2.4 HDFS文件讀寫分析23-26
- 2.4.1 HDFS讀文件23-24
- 2.4.2 HDFS寫文件24-26
- 2.5 HDFS序列文件26-28
- 2.5.1 SequenceFile26-28
- 2.5.2 MapFile28
- 2.6 HDFS集中式緩存28-29
- 2.7 本章小結(jié)29-32
- 第3章 小文件存儲模型設(shè)計32-50
- 3.1 小文件問題分析32-33
- 3.2 小文件存儲模型33-37
- 3.2.1 模型架構(gòu)34-35
- 3.2.2 管理節(jié)點35-36
- 3.2.3 工作節(jié)點36-37
- 3.3 小文件合并存儲37-41
- 3.3.1 存儲空間37-38
- 3.3.2 存儲塊文件38-39
- 3.3.3 小文件合并存儲流程39-41
- 3.4 小文件索引管理41-44
- 3.4.1 文件全局編號41
- 3.4.2 索引文件41-42
- 3.4.3 索引表42-43
- 3.4.4 索引創(chuàng)建與保存43-44
- 3.5 小文件緩存管理44-49
- 3.5.1 緩存技術(shù)介紹44-45
- 3.5.2 緩存管理設(shè)計目標45
- 3.5.3 緩存管理模塊劃分45-46
- 3.5.4 緩存管理工作流程46-47
- 3.5.5 緩存管理置換策略47-48
- 3.5.6 緩存管理實現(xiàn)48-49
- 3.6 本章小結(jié)49-50
- 第4章 小文件存儲模型實現(xiàn)與優(yōu)化50-62
- 4.1 網(wǎng)絡(luò)通信的實現(xiàn)50-53
- 4.1.1 寫數(shù)據(jù)50-51
- 4.1.2 讀數(shù)據(jù)51-53
- 4.2 文件I/O的實現(xiàn)53-57
- 4.2.1 上傳小文件53-54
- 4.2.2 訪問小文件54-55
- 4.2.3 刪除小文件55-57
- 4.3 小文件存儲模型的優(yōu)化57-60
- 4.3.1 客戶端關(guān)系緩存表57-58
- 4.3.2 最優(yōu)可寫存儲塊文件數(shù)58-60
- 4.4 本章小結(jié)60-62
- 第5章 性能測試與分析62-68
- 5.1 實驗平臺部署與配置62-63
- 5.1.1 實驗環(huán)境62
- 5.1.2 實驗節(jié)點部署62
- 5.1.3 存儲模型配置62-63
- 5.2 最優(yōu)可寫存儲塊個數(shù)測試63-64
- 5.3 小文件存儲測試64-66
- 5.3.1 讀測試64-65
- 5.3.2 寫測試65-66
- 5.4 本章小結(jié)66-68
- 第6章 總結(jié)與展望68-70
- 6.1 工作總結(jié)68
- 6.2 工作展望68-70
- 參考文獻70-76
- 致謝76-78
- 科研項目與論文工作情況78
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 楊公平,曾廣周,盧朝霞;移動Agent系統(tǒng)中的排隊機制研究[J];計算機學(xué)報;2005年11期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 李寧;基于HDFS的小文件存儲模型研究與實現(xiàn)[D];東北大學(xué);2014年
本文關(guān)鍵詞:基于HDFS的小文件存儲模型研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:333949
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/333949.html
最近更新
教材專著