Hadoop集群中小文件的存取優(yōu)化研究
發(fā)布時間:2022-10-30 09:16
近年來,全球大數(shù)據(jù)進(jìn)入加速發(fā)展階段,數(shù)據(jù)總量每年增長50%,呈現(xiàn)出海量聚集、爆發(fā)增長的態(tài)勢,引領(lǐng)轉(zhuǎn)型的新特征,如何存儲、分析和利用這些數(shù)據(jù)是當(dāng)前人類急需解決的一大難題。由HDFS、MapReduce、Hive、HBase等組件構(gòu)成的Hadoop憑借其出色的性能、穩(wěn)定安全的生態(tài)體系和開源等優(yōu)勢逐漸成為了通用的大數(shù)據(jù)存儲平臺,然而由于固定的NameNode內(nèi)存有對應(yīng)文件數(shù)量上限的限制,使其并不適合存儲海量小文件。因而在查閱相關(guān)文獻(xiàn)及研究、分析了HDFS存取文件的過程、HBase讀取數(shù)據(jù)的過程后,本文提出一種海量小文件存取優(yōu)化方案,主要做了以下研究:針對目前業(yè)內(nèi)沒有明確給出小文件的度量標(biāo)準(zhǔn),而且當(dāng)超大規(guī)模的小文件存儲在HDFS中時,必將出現(xiàn)因元數(shù)據(jù)量的急劇增長導(dǎo)致的內(nèi)存緊張問題,本文提出了確定適合硬件配置的大、小文件判定閾值的方法和結(jié)合背包數(shù)學(xué)模型與KMeans聚類算法的合并方法。首先利用Hadoop性能測試工具TestDFSIO確定適合硬件環(huán)境的大、小文件判定閾值,將目標(biāo)文件分為大文件和小文件;然后采用背包模型下的K-Means聚類算法將待處理的文件分為多個聚類簇,再用貪心搜索策略分別選取...
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.3 本文研究內(nèi)容
1.4 本文結(jié)構(gòu)安排
第二章 Hadoop集群及相關(guān)技術(shù)介紹
2.1 Hadoop體系架構(gòu)
2.2 分布式文件系統(tǒng)HDFS
2.2.1 HDFS系統(tǒng)架構(gòu)及特征
2.2.2 HDFS數(shù)據(jù)交互
2.3 HBase分布式數(shù)據(jù)庫
2.3.1 HBase數(shù)據(jù)庫架構(gòu)
2.3.2 HBase數(shù)據(jù)結(jié)構(gòu)
2.4 MySQL數(shù)據(jù)庫
2.5 Ehcache緩存框架
2.6 背包問題數(shù)學(xué)模型
2.6.1 0 -1 背包問題概述
2.6.2 貪心算法
2.7 K-Means聚類算法
2.8 本章小結(jié)
第三章 海量小文件存儲優(yōu)化研究
3.1 NameNode內(nèi)存消耗分析
3.2 現(xiàn)有解決方案
3.2.1 Hadoop Archives方案
3.2.2 SequenceFile方案和MapFile方案
3.2.3 CombineFile方案
3.3 小文件存儲方案設(shè)計
3.4 文件大、小判定模塊
3.4.1 大、小文件判定閾值的選取
3.4.2 判定算法描述
3.5 文件合并模塊
3.5.1 貪心搜索策略
3.5.2 背包模型下的K-Means聚類合并方法
3.5.3 算法實現(xiàn)過程
3.6 實驗結(jié)果與分析
3.6.1 實驗環(huán)境及內(nèi)容
3.6.2 大、小文件判定閾值T的確定
3.6.3 文件合并的均勻性測試
3.6.4 寫入性能測試
3.6.5 內(nèi)存占用測試
3.7 本章小結(jié)
第四章 海量小文件讀取優(yōu)化研究
4.1 文件訪問時間分析
4.2 文件索引模塊
4.2.1 索引實現(xiàn)過程
4.2.2 HBase索引表設(shè)計
4.3 文件緩存模塊
4.3.1 緩存結(jié)構(gòu)設(shè)計
4.3.2 緩存置換策略
4.4 小文件讀取模塊
4.4.1 小文件讀取方法設(shè)計
4.4.2 小文件讀取過程的描述
4.5 文件管理方法
4.5.1 添加文件方法
4.5.2 刪除文件方法
4.5.3 替換文件方法
4.6 實驗結(jié)果與分析
4.6.1 實驗環(huán)境及內(nèi)容
4.6.2 讀取性能測試
4.7 本章小結(jié)
第五章 HDFS文件管理演示系統(tǒng)設(shè)計與實現(xiàn)
5.1 系統(tǒng)需求及可行性分析
5.1.1 系統(tǒng)需求分析
5.1.2 系統(tǒng)可行性分析
5.2 系統(tǒng)開發(fā)環(huán)境
5.2.1 硬件環(huán)境
5.2.2 軟件環(huán)境
5.3 系統(tǒng)功能詳細(xì)介紹
5.3.1 用戶登錄模塊
5.3.2 配置文件選擇模塊
5.3.3 HDFS文件管理模塊
5.3.4 用戶信息管理模塊
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表論文和參與科研情況
致謝
【參考文獻(xiàn)】:
期刊論文
[1]大數(shù)據(jù)管理系統(tǒng)的歷史、現(xiàn)狀與未來[J]. 杜小勇,盧衛(wèi),張峰. 軟件學(xué)報. 2019(01)
[2]中醫(yī)云健康平臺的體系架構(gòu)研究[J]. 丁琪,侯曦,溫川飆. 中國數(shù)字醫(yī)學(xué). 2018(10)
[3]基于貪心算法的一致性哈希負(fù)載均衡優(yōu)化[J]. 王誠,李奇源. 南京郵電大學(xué)學(xué)報(自然科學(xué)版). 2018(03)
[4]航空貨運中海量小文件的存儲優(yōu)化[J]. 李國,李汶曉,徐俊潔. 計算機工程與設(shè)計. 2018(05)
[5]基于螢火蟲優(yōu)化的副本放置方法[J]. 李君,侯孟書. 計算機應(yīng)用研究. 2019(02)
[6]HDFS中海量小文件合并與預(yù)取優(yōu)化方法的研究[J]. 鄭通,郭衛(wèi)斌,范貴生. 計算機科學(xué). 2017(S2)
[7]SCoS:基于Spark的并行譜聚類算法設(shè)計與實現(xiàn)[J]. 朱光輝,黃圣彬,袁春風(fēng),黃宜華. 計算機學(xué)報. 2018(04)
[8]Hadoop平臺下海量圖像處理實現(xiàn)[J]. 譚臺哲,向云鵬. 計算機工程與設(shè)計. 2017(04)
[9]大數(shù)據(jù)熱點技術(shù)綜述[J]. 陳軍成,丁治明,高需. 北京工業(yè)大學(xué)學(xué)報. 2017(03)
[10]基于改進(jìn)型K-means聚類的溫度插值算法[J]. 杜景林,沈曉燕. 計算機工程與設(shè)計. 2016(11)
碩士論文
[1]基于Hadoop的離線數(shù)據(jù)分析平臺設(shè)計與實現(xiàn)[D]. 朱雪.河北工程大學(xué) 2018
[2]基于Hadoop的航空貨運海量小文件存儲研究[D]. 李汶曉.中國民航大學(xué) 2018
[3]基于HBase的車輛軌跡數(shù)據(jù)管理與分析[D]. 雷云鵬.西南交通大學(xué) 2017
[4]改進(jìn)步長與策略的果蠅優(yōu)化算法及其應(yīng)用[D]. 桂龍.安徽大學(xué) 2017
[5]基于HDFS的海量小文件存儲策略的研究[D]. 徐士坤.北京工業(yè)大學(xué) 2017
[6]面向海量小文件存取的HDFS優(yōu)化研究[D]. 李鐵.東華大學(xué) 2015
[7]Hadoop小文件存儲管理的研究與實現(xiàn)[D]. 左大鵬.北京交通大學(xué) 2015
[8]k-means聚類算法的改進(jìn)研究及其應(yīng)用[D]. 王康.大連理工大學(xué) 2014
[9]數(shù)據(jù)緩存實現(xiàn)快速數(shù)據(jù)訪問的設(shè)計[D]. 關(guān)海生.上海交通大學(xué) 2012
本文編號:3698618
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.3 本文研究內(nèi)容
1.4 本文結(jié)構(gòu)安排
第二章 Hadoop集群及相關(guān)技術(shù)介紹
2.1 Hadoop體系架構(gòu)
2.2 分布式文件系統(tǒng)HDFS
2.2.1 HDFS系統(tǒng)架構(gòu)及特征
2.2.2 HDFS數(shù)據(jù)交互
2.3 HBase分布式數(shù)據(jù)庫
2.3.1 HBase數(shù)據(jù)庫架構(gòu)
2.3.2 HBase數(shù)據(jù)結(jié)構(gòu)
2.4 MySQL數(shù)據(jù)庫
2.5 Ehcache緩存框架
2.6 背包問題數(shù)學(xué)模型
2.6.1 0 -1 背包問題概述
2.6.2 貪心算法
2.7 K-Means聚類算法
2.8 本章小結(jié)
第三章 海量小文件存儲優(yōu)化研究
3.1 NameNode內(nèi)存消耗分析
3.2 現(xiàn)有解決方案
3.2.1 Hadoop Archives方案
3.2.2 SequenceFile方案和MapFile方案
3.2.3 CombineFile方案
3.3 小文件存儲方案設(shè)計
3.4 文件大、小判定模塊
3.4.1 大、小文件判定閾值的選取
3.4.2 判定算法描述
3.5 文件合并模塊
3.5.1 貪心搜索策略
3.5.2 背包模型下的K-Means聚類合并方法
3.5.3 算法實現(xiàn)過程
3.6 實驗結(jié)果與分析
3.6.1 實驗環(huán)境及內(nèi)容
3.6.2 大、小文件判定閾值T的確定
3.6.3 文件合并的均勻性測試
3.6.4 寫入性能測試
3.6.5 內(nèi)存占用測試
3.7 本章小結(jié)
第四章 海量小文件讀取優(yōu)化研究
4.1 文件訪問時間分析
4.2 文件索引模塊
4.2.1 索引實現(xiàn)過程
4.2.2 HBase索引表設(shè)計
4.3 文件緩存模塊
4.3.1 緩存結(jié)構(gòu)設(shè)計
4.3.2 緩存置換策略
4.4 小文件讀取模塊
4.4.1 小文件讀取方法設(shè)計
4.4.2 小文件讀取過程的描述
4.5 文件管理方法
4.5.1 添加文件方法
4.5.2 刪除文件方法
4.5.3 替換文件方法
4.6 實驗結(jié)果與分析
4.6.1 實驗環(huán)境及內(nèi)容
4.6.2 讀取性能測試
4.7 本章小結(jié)
第五章 HDFS文件管理演示系統(tǒng)設(shè)計與實現(xiàn)
5.1 系統(tǒng)需求及可行性分析
5.1.1 系統(tǒng)需求分析
5.1.2 系統(tǒng)可行性分析
5.2 系統(tǒng)開發(fā)環(huán)境
5.2.1 硬件環(huán)境
5.2.2 軟件環(huán)境
5.3 系統(tǒng)功能詳細(xì)介紹
5.3.1 用戶登錄模塊
5.3.2 配置文件選擇模塊
5.3.3 HDFS文件管理模塊
5.3.4 用戶信息管理模塊
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表論文和參與科研情況
致謝
【參考文獻(xiàn)】:
期刊論文
[1]大數(shù)據(jù)管理系統(tǒng)的歷史、現(xiàn)狀與未來[J]. 杜小勇,盧衛(wèi),張峰. 軟件學(xué)報. 2019(01)
[2]中醫(yī)云健康平臺的體系架構(gòu)研究[J]. 丁琪,侯曦,溫川飆. 中國數(shù)字醫(yī)學(xué). 2018(10)
[3]基于貪心算法的一致性哈希負(fù)載均衡優(yōu)化[J]. 王誠,李奇源. 南京郵電大學(xué)學(xué)報(自然科學(xué)版). 2018(03)
[4]航空貨運中海量小文件的存儲優(yōu)化[J]. 李國,李汶曉,徐俊潔. 計算機工程與設(shè)計. 2018(05)
[5]基于螢火蟲優(yōu)化的副本放置方法[J]. 李君,侯孟書. 計算機應(yīng)用研究. 2019(02)
[6]HDFS中海量小文件合并與預(yù)取優(yōu)化方法的研究[J]. 鄭通,郭衛(wèi)斌,范貴生. 計算機科學(xué). 2017(S2)
[7]SCoS:基于Spark的并行譜聚類算法設(shè)計與實現(xiàn)[J]. 朱光輝,黃圣彬,袁春風(fēng),黃宜華. 計算機學(xué)報. 2018(04)
[8]Hadoop平臺下海量圖像處理實現(xiàn)[J]. 譚臺哲,向云鵬. 計算機工程與設(shè)計. 2017(04)
[9]大數(shù)據(jù)熱點技術(shù)綜述[J]. 陳軍成,丁治明,高需. 北京工業(yè)大學(xué)學(xué)報. 2017(03)
[10]基于改進(jìn)型K-means聚類的溫度插值算法[J]. 杜景林,沈曉燕. 計算機工程與設(shè)計. 2016(11)
碩士論文
[1]基于Hadoop的離線數(shù)據(jù)分析平臺設(shè)計與實現(xiàn)[D]. 朱雪.河北工程大學(xué) 2018
[2]基于Hadoop的航空貨運海量小文件存儲研究[D]. 李汶曉.中國民航大學(xué) 2018
[3]基于HBase的車輛軌跡數(shù)據(jù)管理與分析[D]. 雷云鵬.西南交通大學(xué) 2017
[4]改進(jìn)步長與策略的果蠅優(yōu)化算法及其應(yīng)用[D]. 桂龍.安徽大學(xué) 2017
[5]基于HDFS的海量小文件存儲策略的研究[D]. 徐士坤.北京工業(yè)大學(xué) 2017
[6]面向海量小文件存取的HDFS優(yōu)化研究[D]. 李鐵.東華大學(xué) 2015
[7]Hadoop小文件存儲管理的研究與實現(xiàn)[D]. 左大鵬.北京交通大學(xué) 2015
[8]k-means聚類算法的改進(jìn)研究及其應(yīng)用[D]. 王康.大連理工大學(xué) 2014
[9]數(shù)據(jù)緩存實現(xiàn)快速數(shù)據(jù)訪問的設(shè)計[D]. 關(guān)海生.上海交通大學(xué) 2012
本文編號:3698618
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3698618.html
最近更新
教材專著