基于HDFS的小文件存儲方法的研究與應(yīng)用

發(fā)布時間：2017-09-21 09:20

本文關(guān)鍵詞：基于HDFS的小文件存儲方法的研究與應(yīng)用

更多相關(guān)文章： HDFS 小文件 MySQL 索引 索引預(yù)取

【摘要】：隨著科學(xué)技術(shù)的不斷發(fā)展,傳統(tǒng)的存儲方法已經(jīng)無法滿足當(dāng)前海量數(shù)據(jù)的存取需求,海量數(shù)據(jù)的存儲和處理成為當(dāng)下研究的一個新課題。分布式計算平臺Hadoop因其開源的優(yōu)良特性,高吞吐量、高可靠性和伸縮性等優(yōu)點,已經(jīng)廣泛的應(yīng)用在云計算領(lǐng)域。Hadoop核心技術(shù)之一的分布式文件系統(tǒng)HDFS,對計算機(jī)的硬件要求低,并具有高容錯性,現(xiàn)已廣泛應(yīng)用于存儲大規(guī)模的數(shù)據(jù)文件。然而,HDFS的設(shè)計是針對海量的大規(guī)模數(shù)據(jù)文件,在存取小文件方面性能還不夠高效。本文針對HDFS在小文件存儲方面的低效問題,結(jié)合公安實用云存儲平臺的系統(tǒng)要求,提出可行的小文件存儲方案來提升整個系統(tǒng)性能。首先,為了解決HDFS存儲大量小文件對Name Node造成的內(nèi)存資源耗費的問題,在對HDFS自帶的小文件存儲方法進(jìn)行分析之后,設(shè)計了一個獨立的小文件處理模塊,將海量小文件在上傳HDFS之前進(jìn)行預(yù)合并,減輕Name Node內(nèi)存的存儲壓力,提高存儲效率。其次,為了滿足公安系統(tǒng)高安全性的需求,提出通過在集群中添加一臺數(shù)據(jù)服務(wù)器對小文件的元數(shù)據(jù)進(jìn)行備份,來減少當(dāng)Name Node出現(xiàn)故障時可能出現(xiàn)的信息丟失情況,提高系統(tǒng)的安全性。為了實現(xiàn)合并后小文件的快速訪問,提出在數(shù)據(jù)服務(wù)器上創(chuàng)建My Sql數(shù)據(jù)庫,保存小文件的索引信息,為訪問小文件提供索引;同時根據(jù)公安系統(tǒng)中數(shù)據(jù)的相關(guān)性,提出了小文件索引信息預(yù)取方案,提高小文件的讀取速度。最后,通過模擬實驗,對優(yōu)化后的算法和HDFS自帶的算法在小文件存儲和訪問兩面的性能進(jìn)行比較,驗證優(yōu)化后的算法的可行性和有效性。
【關(guān)鍵詞】：HDFS 小文件 MySQL 索引 索引預(yù)取
【學(xué)位授予單位】：燕山大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2015
【分類號】：TP333
【目錄】：

摘要5-6
Abstract6-10
第1章緒論10-16
1.1 研究背景10-11
1.2 國內(nèi)外研究現(xiàn)狀11-14
1.2.1 Hadoop技術(shù)的新要求11-12
1.2.2 相關(guān)解決方法的理論研究12-14
1.3 本文研究內(nèi)容14-15
1.4 本文組織結(jié)構(gòu)15-16
第2章相關(guān)技術(shù)研究16-25
2.1 Hadoop分布式平臺介紹16-20
2.1.1 Hadoop概述16
2.1.2 分布式文件系統(tǒng)HDFS16-18
2.1.3 分布式編程模型Map Reduce18-20
2.2 Hadoop處理小文件時存在的問題20-22
2.2.1 存儲問題21-22
2.2.2 讀寫問題22
2.3 Hadoop安全問題22-23
2.4 本章小結(jié)23-25
第3章基于Sequence File的小文件合并算法及優(yōu)化25-35
3.1 Hadoop自帶的決方案25-28
3.1.1 Hadoop Archive25-26
3.1.2 Sequence File26-27
3.1.3 Combine File Input Format27-28
3.2 系統(tǒng)總體結(jié)構(gòu)的設(shè)計與實現(xiàn)28-32
3.2.1 系統(tǒng)總體結(jié)構(gòu)的設(shè)計28
3.2.2 系統(tǒng)總體結(jié)構(gòu)的實現(xiàn)28-32
3.3 Sequence File合并算法的優(yōu)化32-34
3.3.1 元數(shù)據(jù)結(jié)構(gòu)的優(yōu)化32-33
3.3.2 小文件合并優(yōu)化算法33-34
3.4 本章小結(jié)34-35
第4章小文件合并后訪問算法35-48
4.1 系統(tǒng)架構(gòu)設(shè)計35-36
4.2 基于Mysql索引的基本結(jié)構(gòu)36
4.3 基于Map Reduce生成的My Sql索引結(jié)構(gòu)36-40
4.3.1 創(chuàng)建Map Reduce與數(shù)據(jù)庫的數(shù)據(jù)交互36-37
4.3.2 基于Map Reduce生成索引算法37-39
4.3.3 重寫數(shù)據(jù)輸出接39-40
4.4 單個小文件訪問算法及優(yōu)化40-47
4.4.1 基于My SQL的小文件查詢與搜索算法40-42
4.4.2 查找小文件算法42-45
4.4.3 預(yù)取小文件索引算法45
4.4.4 單個文件下載算法及優(yōu)化45-47
4.5 本章小結(jié)47-48
第5章系統(tǒng)測試與分析48-59
5.1 實驗?zāi)康?/span>48
5.2 實驗環(huán)境和數(shù)據(jù)48-50
5.3 測試的項目與目標(biāo)50-58
5.3.1 實驗用到的Java程序50
5.3.2 上傳文件測試50-53
5.3.3 訪問小文件測試53-58
5.4 本章小結(jié)58-59
結(jié)論59-60
參考文獻(xiàn)60-63
攻讀碩士學(xué)位期間承擔(dān)的科研任務(wù)與主要成果63-64
致謝64-65
作者簡介65

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前6條

1 欒亞建;黃爛，

本文編號：893657

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jisuanjikexuelunwen/893657.html

上一篇：X-DSP定點乘累加的設(shè)計優(yōu)化與驗證
下一篇：基于單片機(jī)的遠(yuǎn)程控制智能澆水系統(tǒng)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于HDFS的小文件存儲方法的研究與應(yīng)用