基于HDFS的小文件存儲方法的研究與應(yīng)用
發(fā)布時間:2017-09-21 09:20
本文關(guān)鍵詞:基于HDFS的小文件存儲方法的研究與應(yīng)用
更多相關(guān)文章: HDFS 小文件 MySQL 索引 索引預(yù)取
【摘要】:隨著科學(xué)技術(shù)的不斷發(fā)展,傳統(tǒng)的存儲方法已經(jīng)無法滿足當(dāng)前海量數(shù)據(jù)的存取需求,海量數(shù)據(jù)的存儲和處理成為當(dāng)下研究的一個新課題。分布式計算平臺Hadoop因其開源的優(yōu)良特性,高吞吐量、高可靠性和伸縮性等優(yōu)點,已經(jīng)廣泛的應(yīng)用在云計算領(lǐng)域。Hadoop核心技術(shù)之一的分布式文件系統(tǒng)HDFS,對計算機(jī)的硬件要求低,并具有高容錯性,現(xiàn)已廣泛應(yīng)用于存儲大規(guī)模的數(shù)據(jù)文件。然而,HDFS的設(shè)計是針對海量的大規(guī)模數(shù)據(jù)文件,在存取小文件方面性能還不夠高效。本文針對HDFS在小文件存儲方面的低效問題,結(jié)合公安實用云存儲平臺的系統(tǒng)要求,提出可行的小文件存儲方案來提升整個系統(tǒng)性能。首先,為了解決HDFS存儲大量小文件對Name Node造成的內(nèi)存資源耗費的問題,在對HDFS自帶的小文件存儲方法進(jìn)行分析之后,設(shè)計了一個獨立的小文件處理模塊,將海量小文件在上傳HDFS之前進(jìn)行預(yù)合并,減輕Name Node內(nèi)存的存儲壓力,提高存儲效率。其次,為了滿足公安系統(tǒng)高安全性的需求,提出通過在集群中添加一臺數(shù)據(jù)服務(wù)器對小文件的元數(shù)據(jù)進(jìn)行備份,來減少當(dāng)Name Node出現(xiàn)故障時可能出現(xiàn)的信息丟失情況,提高系統(tǒng)的安全性。為了實現(xiàn)合并后小文件的快速訪問,提出在數(shù)據(jù)服務(wù)器上創(chuàng)建My Sql數(shù)據(jù)庫,保存小文件的索引信息,為訪問小文件提供索引;同時根據(jù)公安系統(tǒng)中數(shù)據(jù)的相關(guān)性,提出了小文件索引信息預(yù)取方案,提高小文件的讀取速度。最后,通過模擬實驗,對優(yōu)化后的算法和HDFS自帶的算法在小文件存儲和訪問兩面的性能進(jìn)行比較,驗證優(yōu)化后的算法的可行性和有效性。
【關(guān)鍵詞】:HDFS 小文件 MySQL 索引 索引預(yù)取
【學(xué)位授予單位】:燕山大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP333
【目錄】:
- 摘要5-6
- Abstract6-10
- 第1章 緒論10-16
- 1.1 研究背景10-11
- 1.2 國內(nèi)外研究現(xiàn)狀11-14
- 1.2.1 Hadoop技術(shù)的新要求11-12
- 1.2.2 相關(guān)解決方法的理論研究12-14
- 1.3 本文研究內(nèi)容14-15
- 1.4 本文組織結(jié)構(gòu)15-16
- 第2章 相關(guān)技術(shù)研究16-25
- 2.1 Hadoop分布式平臺介紹16-20
- 2.1.1 Hadoop概述16
- 2.1.2 分布式文件系統(tǒng)HDFS16-18
- 2.1.3 分布式編程模型Map Reduce18-20
- 2.2 Hadoop處理小文件時存在的問題20-22
- 2.2.1 存儲問題21-22
- 2.2.2 讀寫問題22
- 2.3 Hadoop安全問題22-23
- 2.4 本章小結(jié)23-25
- 第3章 基于Sequence File的小文件合并算法及優(yōu)化25-35
- 3.1 Hadoop自帶的決方案25-28
- 3.1.1 Hadoop Archive25-26
- 3.1.2 Sequence File26-27
- 3.1.3 Combine File Input Format27-28
- 3.2 系統(tǒng)總體結(jié)構(gòu)的設(shè)計與實現(xiàn)28-32
- 3.2.1 系統(tǒng)總體結(jié)構(gòu)的設(shè)計28
- 3.2.2 系統(tǒng)總體結(jié)構(gòu)的實現(xiàn)28-32
- 3.3 Sequence File合并算法的優(yōu)化32-34
- 3.3.1 元數(shù)據(jù)結(jié)構(gòu)的優(yōu)化32-33
- 3.3.2 小文件合并優(yōu)化算法33-34
- 3.4 本章小結(jié)34-35
- 第4章 小文件合并后訪問算法35-48
- 4.1 系統(tǒng)架構(gòu)設(shè)計35-36
- 4.2 基于Mysql索引的基本結(jié)構(gòu)36
- 4.3 基于Map Reduce生成的My Sql索引結(jié)構(gòu)36-40
- 4.3.1 創(chuàng)建Map Reduce與數(shù)據(jù)庫的數(shù)據(jù)交互36-37
- 4.3.2 基于Map Reduce生成索引算法37-39
- 4.3.3 重寫數(shù)據(jù)輸出接39-40
- 4.4 單個小文件訪問算法及優(yōu)化40-47
- 4.4.1 基于My SQL的小文件查詢與搜索算法40-42
- 4.4.2 查找小文件算法42-45
- 4.4.3 預(yù)取小文件索引算法45
- 4.4.4 單個文件下載算法及優(yōu)化45-47
- 4.5 本章小結(jié)47-48
- 第5章 系統(tǒng)測試與分析48-59
- 5.1 實驗?zāi)康?/span>48
- 5.2 實驗環(huán)境和數(shù)據(jù)48-50
- 5.3 測試的項目與目標(biāo)50-58
- 5.3.1 實驗用到的Java程序50
- 5.3.2 上傳文件測試50-53
- 5.3.3 訪問小文件測試53-58
- 5.4 本章小結(jié)58-59
- 結(jié)論59-60
- 參考文獻(xiàn)60-63
- 攻讀碩士學(xué)位期間承擔(dān)的科研任務(wù)與主要成果63-64
- 致謝64-65
- 作者簡介65
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前6條
1 欒亞建;黃爛,
本文編號:893657
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/893657.html
最近更新
教材專著