一種基于Hadoop/MapReduce的可擴展存儲系統(tǒng)架構研究
發(fā)布時間:2020-12-19 22:31
隨著互聯(lián)網(wǎng)的高速發(fā)展,數(shù)據(jù)規(guī)模以指數(shù)級的速度增加,如何來存儲和處理這些數(shù)據(jù)是一個挑戰(zhàn)性的問題。Hadoop允許用戶不熟悉分布式的情況下,充分利用海量存儲的集群和高速計算,做分布式應用程序開發(fā)。Hadoop最出名的是MapReduce分布式計算框架和它的分布式文件系統(tǒng)HDFS。主要特點是:成本低,擴展能力非常好,效率高,出色的可靠性。它是可以運行在在多個操作系統(tǒng)和商用類硬件上的系統(tǒng)。但是,HDFS設計的初衷是存儲大文件的,當面向某些特定應用的時候,應用會產(chǎn)生大量的小文件,小文件的增多就會導致文件存儲速度過慢,系統(tǒng)使用內(nèi)存急劇升高。針對這一問題,提出了一種新的架構HUST MAP-REDUCE FRAMEWORK(HMRF),采用了文件合并的思想對小文件合并成為大文件的方法,對小文件存儲進行了優(yōu)化處理。實驗表明,基于Hadoop/MapReduce的可擴展存儲系統(tǒng)架構(HMRF)能夠很好的存儲大量小文件;贖MRF,名稱節(jié)點內(nèi)存平均降低了63.2%,數(shù)據(jù)節(jié)點內(nèi)存平均降低了38.7%,小文件寫入速度平均增加了171%。
【文章來源】:華中科技大學湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:56 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景
1.2 研究現(xiàn)狀
1.3 論文結構簡介
1.4 課題來源
2 Hadoop 相關技術介紹
2.1 Apache hadoop 項目
2.2 MapReduce 編程模型
2.3 Hadoop 分布式文件系統(tǒng) HDFS
2.4 HDFS 的讀寫流程分析
2.5 本章小結
3 一種基于 Hadoop/MapReduce 的可擴展存儲系統(tǒng)架構
3.1 小文件存儲性能分析
3.2 基于 Hadoop/MapReduce 的存儲系統(tǒng)架構
3.3 文件合并功能模塊設計與實現(xiàn)
3.4 小文件索引信息列表模塊
3.5 讀文件和刪除文件
3.6 HMRF 可擴展性
3.7 本章小結
4 系統(tǒng)測試與分析
4.1 實驗平臺的搭建
4.2 HMRF 與 HDFS 性能對比測試
4.3 HMRF 可擴展性能測試
4.4 本章小結
5 總結及展望
5.1 總結
5.2 進一步工作和展望
致謝
參考文獻
【參考文獻】:
期刊論文
[1]基于Hadoop的Web日志挖掘[J]. 程苗,陳華平. 計算機工程. 2011(11)
[2]Hadoop下的分布式搜索引擎[J]. 胡彧,封俊. 計算機系統(tǒng)應用. 2010(07)
[3]基于MapReduce的PCA異常流量檢測系統(tǒng)實現(xiàn)[J]. 黃志蘭,丁圣勇,楊國良,羅頌鋒. 電信科學. 2010(06)
[4]基于Hadoop的海量數(shù)據(jù)管理系統(tǒng)[J]. 多雪松,張晶,高強. 微計算機信息. 2010(13)
[5]基于MapReduce的并行貝葉斯分類算法的設計與實現(xiàn)[J]. 丁光華,周繼鵬,周敏. 微計算機信息. 2010(09)
[6]基于Nutch的專題網(wǎng)頁資源采集服務系統(tǒng)的設計與實現(xiàn)[J]. 常智榮,馬自衛(wèi),李高虎. 現(xiàn)代圖書情報技術. 2010(03)
[7]基于MapReduce模型的分布式Word文檔破解[J]. 陳勤,方海英,褚一平,黃劍軍. 計算機系統(tǒng)應用. 2010(03)
[8]基于集群系統(tǒng)的空間數(shù)據(jù)并行處理策略研究[J]. 劉旭輝,韓冀中,賀勁,韓承德. 高技術通訊. 2009(10)
[9]Hadoop集群和單機數(shù)據(jù)處理的耗時對比實驗[J]. 曾理,王以群. 硅谷. 2009(19)
[10]云計算及其應用的開源實現(xiàn)研究[J]. 趙華茗,李春旺,李宇,周強. 現(xiàn)代圖書情報技術. 2009(09)
碩士論文
[1]基于Hadoop的海量圖象數(shù)據(jù)管理[D]. 李波.華東師范大學 2011
[2]基于Hadoop平臺的數(shù)據(jù)分析和應用[D]. 姜文.北京郵電大學 2011
[3]基于HADOOP的數(shù)據(jù)挖掘研究[D]. 楊宸鑄.重慶大學 2010
[4]基于Hadoop平臺的通信數(shù)據(jù)分布式查詢算法的設計與實現(xiàn)[D]. 陳勇.北京交通大學 2009
[5]云計算中的網(wǎng)絡拓撲設計和Hadoop平臺研究[D]. 鄧自立.中國科學技術大學 2009
本文編號:2926686
【文章來源】:華中科技大學湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:56 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景
1.2 研究現(xiàn)狀
1.3 論文結構簡介
1.4 課題來源
2 Hadoop 相關技術介紹
2.1 Apache hadoop 項目
2.2 MapReduce 編程模型
2.3 Hadoop 分布式文件系統(tǒng) HDFS
2.4 HDFS 的讀寫流程分析
2.5 本章小結
3 一種基于 Hadoop/MapReduce 的可擴展存儲系統(tǒng)架構
3.1 小文件存儲性能分析
3.2 基于 Hadoop/MapReduce 的存儲系統(tǒng)架構
3.3 文件合并功能模塊設計與實現(xiàn)
3.4 小文件索引信息列表模塊
3.5 讀文件和刪除文件
3.6 HMRF 可擴展性
3.7 本章小結
4 系統(tǒng)測試與分析
4.1 實驗平臺的搭建
4.2 HMRF 與 HDFS 性能對比測試
4.3 HMRF 可擴展性能測試
4.4 本章小結
5 總結及展望
5.1 總結
5.2 進一步工作和展望
致謝
參考文獻
【參考文獻】:
期刊論文
[1]基于Hadoop的Web日志挖掘[J]. 程苗,陳華平. 計算機工程. 2011(11)
[2]Hadoop下的分布式搜索引擎[J]. 胡彧,封俊. 計算機系統(tǒng)應用. 2010(07)
[3]基于MapReduce的PCA異常流量檢測系統(tǒng)實現(xiàn)[J]. 黃志蘭,丁圣勇,楊國良,羅頌鋒. 電信科學. 2010(06)
[4]基于Hadoop的海量數(shù)據(jù)管理系統(tǒng)[J]. 多雪松,張晶,高強. 微計算機信息. 2010(13)
[5]基于MapReduce的并行貝葉斯分類算法的設計與實現(xiàn)[J]. 丁光華,周繼鵬,周敏. 微計算機信息. 2010(09)
[6]基于Nutch的專題網(wǎng)頁資源采集服務系統(tǒng)的設計與實現(xiàn)[J]. 常智榮,馬自衛(wèi),李高虎. 現(xiàn)代圖書情報技術. 2010(03)
[7]基于MapReduce模型的分布式Word文檔破解[J]. 陳勤,方海英,褚一平,黃劍軍. 計算機系統(tǒng)應用. 2010(03)
[8]基于集群系統(tǒng)的空間數(shù)據(jù)并行處理策略研究[J]. 劉旭輝,韓冀中,賀勁,韓承德. 高技術通訊. 2009(10)
[9]Hadoop集群和單機數(shù)據(jù)處理的耗時對比實驗[J]. 曾理,王以群. 硅谷. 2009(19)
[10]云計算及其應用的開源實現(xiàn)研究[J]. 趙華茗,李春旺,李宇,周強. 現(xiàn)代圖書情報技術. 2009(09)
碩士論文
[1]基于Hadoop的海量圖象數(shù)據(jù)管理[D]. 李波.華東師范大學 2011
[2]基于Hadoop平臺的數(shù)據(jù)分析和應用[D]. 姜文.北京郵電大學 2011
[3]基于HADOOP的數(shù)據(jù)挖掘研究[D]. 楊宸鑄.重慶大學 2010
[4]基于Hadoop平臺的通信數(shù)據(jù)分布式查詢算法的設計與實現(xiàn)[D]. 陳勇.北京交通大學 2009
[5]云計算中的網(wǎng)絡拓撲設計和Hadoop平臺研究[D]. 鄧自立.中國科學技術大學 2009
本文編號:2926686
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2926686.html
最近更新
教材專著