一種基于Hadoop/MapReduce的可擴(kuò)展存儲(chǔ)系統(tǒng)架構(gòu)研究
發(fā)布時(shí)間:2020-12-19 22:31
隨著互聯(lián)網(wǎng)的高速發(fā)展,數(shù)據(jù)規(guī)模以指數(shù)級(jí)的速度增加,如何來存儲(chǔ)和處理這些數(shù)據(jù)是一個(gè)挑戰(zhàn)性的問題。Hadoop允許用戶不熟悉分布式的情況下,充分利用海量存儲(chǔ)的集群和高速計(jì)算,做分布式應(yīng)用程序開發(fā)。Hadoop最出名的是MapReduce分布式計(jì)算框架和它的分布式文件系統(tǒng)HDFS。主要特點(diǎn)是:成本低,擴(kuò)展能力非常好,效率高,出色的可靠性。它是可以運(yùn)行在在多個(gè)操作系統(tǒng)和商用類硬件上的系統(tǒng)。但是,HDFS設(shè)計(jì)的初衷是存儲(chǔ)大文件的,當(dāng)面向某些特定應(yīng)用的時(shí)候,應(yīng)用會(huì)產(chǎn)生大量的小文件,小文件的增多就會(huì)導(dǎo)致文件存儲(chǔ)速度過慢,系統(tǒng)使用內(nèi)存急劇升高。針對(duì)這一問題,提出了一種新的架構(gòu)HUST MAP-REDUCE FRAMEWORK(HMRF),采用了文件合并的思想對(duì)小文件合并成為大文件的方法,對(duì)小文件存儲(chǔ)進(jìn)行了優(yōu)化處理。實(shí)驗(yàn)表明,基于Hadoop/MapReduce的可擴(kuò)展存儲(chǔ)系統(tǒng)架構(gòu)(HMRF)能夠很好的存儲(chǔ)大量小文件;贖MRF,名稱節(jié)點(diǎn)內(nèi)存平均降低了63.2%,數(shù)據(jù)節(jié)點(diǎn)內(nèi)存平均降低了38.7%,小文件寫入速度平均增加了171%。
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:56 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景
1.2 研究現(xiàn)狀
1.3 論文結(jié)構(gòu)簡(jiǎn)介
1.4 課題來源
2 Hadoop 相關(guān)技術(shù)介紹
2.1 Apache hadoop 項(xiàng)目
2.2 MapReduce 編程模型
2.3 Hadoop 分布式文件系統(tǒng) HDFS
2.4 HDFS 的讀寫流程分析
2.5 本章小結(jié)
3 一種基于 Hadoop/MapReduce 的可擴(kuò)展存儲(chǔ)系統(tǒng)架構(gòu)
3.1 小文件存儲(chǔ)性能分析
3.2 基于 Hadoop/MapReduce 的存儲(chǔ)系統(tǒng)架構(gòu)
3.3 文件合并功能模塊設(shè)計(jì)與實(shí)現(xiàn)
3.4 小文件索引信息列表模塊
3.5 讀文件和刪除文件
3.6 HMRF 可擴(kuò)展性
3.7 本章小結(jié)
4 系統(tǒng)測(cè)試與分析
4.1 實(shí)驗(yàn)平臺(tái)的搭建
4.2 HMRF 與 HDFS 性能對(duì)比測(cè)試
4.3 HMRF 可擴(kuò)展性能測(cè)試
4.4 本章小結(jié)
5 總結(jié)及展望
5.1 總結(jié)
5.2 進(jìn)一步工作和展望
致謝
參考文獻(xiàn)
【參考文獻(xiàn)】:
期刊論文
[1]基于Hadoop的Web日志挖掘[J]. 程苗,陳華平. 計(jì)算機(jī)工程. 2011(11)
[2]Hadoop下的分布式搜索引擎[J]. 胡彧,封俊. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2010(07)
[3]基于MapReduce的PCA異常流量檢測(cè)系統(tǒng)實(shí)現(xiàn)[J]. 黃志蘭,丁圣勇,楊國(guó)良,羅頌鋒. 電信科學(xué). 2010(06)
[4]基于Hadoop的海量數(shù)據(jù)管理系統(tǒng)[J]. 多雪松,張晶,高強(qiáng). 微計(jì)算機(jī)信息. 2010(13)
[5]基于MapReduce的并行貝葉斯分類算法的設(shè)計(jì)與實(shí)現(xiàn)[J]. 丁光華,周繼鵬,周敏. 微計(jì)算機(jī)信息. 2010(09)
[6]基于Nutch的專題網(wǎng)頁資源采集服務(wù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 常智榮,馬自衛(wèi),李高虎. 現(xiàn)代圖書情報(bào)技術(shù). 2010(03)
[7]基于MapReduce模型的分布式Word文檔破解[J]. 陳勤,方海英,褚一平,黃劍軍. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2010(03)
[8]基于集群系統(tǒng)的空間數(shù)據(jù)并行處理策略研究[J]. 劉旭輝,韓冀中,賀勁,韓承德. 高技術(shù)通訊. 2009(10)
[9]Hadoop集群和單機(jī)數(shù)據(jù)處理的耗時(shí)對(duì)比實(shí)驗(yàn)[J]. 曾理,王以群. 硅谷. 2009(19)
[10]云計(jì)算及其應(yīng)用的開源實(shí)現(xiàn)研究[J]. 趙華茗,李春旺,李宇,周強(qiáng). 現(xiàn)代圖書情報(bào)技術(shù). 2009(09)
碩士論文
[1]基于Hadoop的海量圖象數(shù)據(jù)管理[D]. 李波.華東師范大學(xué) 2011
[2]基于Hadoop平臺(tái)的數(shù)據(jù)分析和應(yīng)用[D]. 姜文.北京郵電大學(xué) 2011
[3]基于HADOOP的數(shù)據(jù)挖掘研究[D]. 楊宸鑄.重慶大學(xué) 2010
[4]基于Hadoop平臺(tái)的通信數(shù)據(jù)分布式查詢算法的設(shè)計(jì)與實(shí)現(xiàn)[D]. 陳勇.北京交通大學(xué) 2009
[5]云計(jì)算中的網(wǎng)絡(luò)拓?fù)湓O(shè)計(jì)和Hadoop平臺(tái)研究[D]. 鄧自立.中國(guó)科學(xué)技術(shù)大學(xué) 2009
本文編號(hào):2926686
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:56 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景
1.2 研究現(xiàn)狀
1.3 論文結(jié)構(gòu)簡(jiǎn)介
1.4 課題來源
2 Hadoop 相關(guān)技術(shù)介紹
2.1 Apache hadoop 項(xiàng)目
2.2 MapReduce 編程模型
2.3 Hadoop 分布式文件系統(tǒng) HDFS
2.4 HDFS 的讀寫流程分析
2.5 本章小結(jié)
3 一種基于 Hadoop/MapReduce 的可擴(kuò)展存儲(chǔ)系統(tǒng)架構(gòu)
3.1 小文件存儲(chǔ)性能分析
3.2 基于 Hadoop/MapReduce 的存儲(chǔ)系統(tǒng)架構(gòu)
3.3 文件合并功能模塊設(shè)計(jì)與實(shí)現(xiàn)
3.4 小文件索引信息列表模塊
3.5 讀文件和刪除文件
3.6 HMRF 可擴(kuò)展性
3.7 本章小結(jié)
4 系統(tǒng)測(cè)試與分析
4.1 實(shí)驗(yàn)平臺(tái)的搭建
4.2 HMRF 與 HDFS 性能對(duì)比測(cè)試
4.3 HMRF 可擴(kuò)展性能測(cè)試
4.4 本章小結(jié)
5 總結(jié)及展望
5.1 總結(jié)
5.2 進(jìn)一步工作和展望
致謝
參考文獻(xiàn)
【參考文獻(xiàn)】:
期刊論文
[1]基于Hadoop的Web日志挖掘[J]. 程苗,陳華平. 計(jì)算機(jī)工程. 2011(11)
[2]Hadoop下的分布式搜索引擎[J]. 胡彧,封俊. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2010(07)
[3]基于MapReduce的PCA異常流量檢測(cè)系統(tǒng)實(shí)現(xiàn)[J]. 黃志蘭,丁圣勇,楊國(guó)良,羅頌鋒. 電信科學(xué). 2010(06)
[4]基于Hadoop的海量數(shù)據(jù)管理系統(tǒng)[J]. 多雪松,張晶,高強(qiáng). 微計(jì)算機(jī)信息. 2010(13)
[5]基于MapReduce的并行貝葉斯分類算法的設(shè)計(jì)與實(shí)現(xiàn)[J]. 丁光華,周繼鵬,周敏. 微計(jì)算機(jī)信息. 2010(09)
[6]基于Nutch的專題網(wǎng)頁資源采集服務(wù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 常智榮,馬自衛(wèi),李高虎. 現(xiàn)代圖書情報(bào)技術(shù). 2010(03)
[7]基于MapReduce模型的分布式Word文檔破解[J]. 陳勤,方海英,褚一平,黃劍軍. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2010(03)
[8]基于集群系統(tǒng)的空間數(shù)據(jù)并行處理策略研究[J]. 劉旭輝,韓冀中,賀勁,韓承德. 高技術(shù)通訊. 2009(10)
[9]Hadoop集群和單機(jī)數(shù)據(jù)處理的耗時(shí)對(duì)比實(shí)驗(yàn)[J]. 曾理,王以群. 硅谷. 2009(19)
[10]云計(jì)算及其應(yīng)用的開源實(shí)現(xiàn)研究[J]. 趙華茗,李春旺,李宇,周強(qiáng). 現(xiàn)代圖書情報(bào)技術(shù). 2009(09)
碩士論文
[1]基于Hadoop的海量圖象數(shù)據(jù)管理[D]. 李波.華東師范大學(xué) 2011
[2]基于Hadoop平臺(tái)的數(shù)據(jù)分析和應(yīng)用[D]. 姜文.北京郵電大學(xué) 2011
[3]基于HADOOP的數(shù)據(jù)挖掘研究[D]. 楊宸鑄.重慶大學(xué) 2010
[4]基于Hadoop平臺(tái)的通信數(shù)據(jù)分布式查詢算法的設(shè)計(jì)與實(shí)現(xiàn)[D]. 陳勇.北京交通大學(xué) 2009
[5]云計(jì)算中的網(wǎng)絡(luò)拓?fù)湓O(shè)計(jì)和Hadoop平臺(tái)研究[D]. 鄧自立.中國(guó)科學(xué)技術(shù)大學(xué) 2009
本文編號(hào):2926686
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2926686.html
最近更新
教材專著