Hadoop小文件處理技術(shù)的研究和實(shí)現(xiàn)
發(fā)布時(shí)間:2020-11-10 22:46
隨著Internet的飛速發(fā)展,傳統(tǒng)的技術(shù)架構(gòu)在處理海量數(shù)據(jù)方面顯得越來(lái)越乏力。Hadoop作為一種能夠?qū)A繑?shù)據(jù)進(jìn)行高效地分布式處理框架,由底層HDFS文件系統(tǒng)和上層MapReduce編程模型構(gòu)成;采用主從式架構(gòu)設(shè)計(jì)模式的HDFS文件系統(tǒng)在單名稱節(jié)點(diǎn)方面的設(shè)置簡(jiǎn)化了文件系統(tǒng)的結(jié)構(gòu),然而也產(chǎn)生了小文件存儲(chǔ)效率低的問(wèn)題。 針對(duì)Hadoop在處理小文件時(shí)存儲(chǔ)效率低下和大量的小文件給MapReduce處理帶來(lái)的超負(fù)荷,本文提出基于歸檔文件技術(shù)和序列文件技術(shù)解決Hadoop小文件問(wèn)題,基本思想是通過(guò)將小文件合并后分塊存儲(chǔ),然后建立小文件到大文件的映射。本文對(duì)Hadoop小文件的優(yōu)化處理方案進(jìn)行了系統(tǒng)的測(cè)試,建立不同的測(cè)試用例,包括直接讀取小文件和讀取合并后的小文件,通過(guò)比較直接從本地文件系統(tǒng)和HDFS文件系統(tǒng)上傳文件的時(shí)間、合并前后訪問(wèn)文件的時(shí)間和讀取文件時(shí)系統(tǒng)的內(nèi)存占用率,驗(yàn)證了本文設(shè)計(jì)的方案適用于MapReduce計(jì)算模型,可以提高小文件隨機(jī)訪問(wèn)的效率。
【學(xué)位單位】:南京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2013
【中圖分類】:TP338.8
【文章目錄】:
摘要
Abstract
專用術(shù)語(yǔ)注釋表
第一章 緒論
1.1 研究背景
1.2 研究現(xiàn)狀
1.2.1 Hadoop 小文件處理
1.2.2 Hadoop 技術(shù)上的新需求
1.3 研究?jī)?nèi)容與意義
1.4 本文的組織
第二章 相關(guān)技術(shù)研究
2.1 Hadoop 分布式平臺(tái)結(jié)構(gòu)
2.1.1 HDFS 分布式存儲(chǔ)架構(gòu)
2.1.2 相關(guān)通信協(xié)議
2.1.3 MapReduce 編程框架
2.1.4 MapReduce 作業(yè)執(zhí)行流程
2.2 Trie 樹(shù)索引
2.3 Hadoop 處理小文件相關(guān)技術(shù)
2.4 Hadoop 處理小文件關(guān)鍵問(wèn)題
2.4.1 存儲(chǔ)問(wèn)題
2.4.2 讀寫(xiě)問(wèn)題
2.5 本章小結(jié)
第三章 小文件解決方案的分析和設(shè)計(jì)
3.1 歸檔文件和序列化文件
3.1.1 歸檔文件技術(shù)
3.1.2 序列化文件技術(shù)
3.2 系統(tǒng)總體結(jié)構(gòu)設(shè)計(jì)
3.3 小文件存儲(chǔ)優(yōu)化結(jié)構(gòu)設(shè)計(jì)
3.3.1 小文件優(yōu)化方案
3.3.2 小文件優(yōu)化方案設(shè)計(jì)
3.3.3 小文件優(yōu)化方案的不足之處
3.4 小文件索引的結(jié)構(gòu)設(shè)計(jì)
3.5 小文件優(yōu)化算法設(shè)計(jì)
3.5.1 Writable 類和 SequenceFile 類
3.5.2 數(shù)據(jù)類型設(shè)計(jì)
3.5.3 合并算法的設(shè)計(jì)
3.6 可行性分析
3.7 本章小結(jié)
第四章 小文件解決方案的實(shí)現(xiàn)
4.1 總體架構(gòu)實(shí)現(xiàn)
4.2 小文件存儲(chǔ)優(yōu)化的實(shí)現(xiàn)
4.2.1 HDFS 的 I/O 數(shù)據(jù)檢查
4.2.2 數(shù)據(jù)壓縮
4.3 小文件合并算法
4.3.1 數(shù)據(jù)的 I/O 序列化操作
4.3.2 合并算法的實(shí)現(xiàn)
4.4 小文件索引創(chuàng)建的實(shí)現(xiàn)
4.5 本章小結(jié)
第五章 系統(tǒng)測(cè)試與分析
5.1 實(shí)驗(yàn)環(huán)境
5.2 實(shí)驗(yàn)用到的主要 JAVA 類
5.3 實(shí)驗(yàn)結(jié)果分析與比較
5.3.1 上傳文件測(cè)試
5.3.2 訪問(wèn)文件測(cè)試
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 工作總結(jié)
6.2 工作展望
參考文獻(xiàn)
附錄 1 攻讀碩士學(xué)位期間參加的科研項(xiàng)目
致謝
【參考文獻(xiàn)】
本文編號(hào):2878417
【學(xué)位單位】:南京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2013
【中圖分類】:TP338.8
【文章目錄】:
摘要
Abstract
專用術(shù)語(yǔ)注釋表
第一章 緒論
1.1 研究背景
1.2 研究現(xiàn)狀
1.2.1 Hadoop 小文件處理
1.2.2 Hadoop 技術(shù)上的新需求
1.3 研究?jī)?nèi)容與意義
1.4 本文的組織
第二章 相關(guān)技術(shù)研究
2.1 Hadoop 分布式平臺(tái)結(jié)構(gòu)
2.1.1 HDFS 分布式存儲(chǔ)架構(gòu)
2.1.2 相關(guān)通信協(xié)議
2.1.3 MapReduce 編程框架
2.1.4 MapReduce 作業(yè)執(zhí)行流程
2.2 Trie 樹(shù)索引
2.3 Hadoop 處理小文件相關(guān)技術(shù)
2.4 Hadoop 處理小文件關(guān)鍵問(wèn)題
2.4.1 存儲(chǔ)問(wèn)題
2.4.2 讀寫(xiě)問(wèn)題
2.5 本章小結(jié)
第三章 小文件解決方案的分析和設(shè)計(jì)
3.1 歸檔文件和序列化文件
3.1.1 歸檔文件技術(shù)
3.1.2 序列化文件技術(shù)
3.2 系統(tǒng)總體結(jié)構(gòu)設(shè)計(jì)
3.3 小文件存儲(chǔ)優(yōu)化結(jié)構(gòu)設(shè)計(jì)
3.3.1 小文件優(yōu)化方案
3.3.2 小文件優(yōu)化方案設(shè)計(jì)
3.3.3 小文件優(yōu)化方案的不足之處
3.4 小文件索引的結(jié)構(gòu)設(shè)計(jì)
3.5 小文件優(yōu)化算法設(shè)計(jì)
3.5.1 Writable 類和 SequenceFile 類
3.5.2 數(shù)據(jù)類型設(shè)計(jì)
3.5.3 合并算法的設(shè)計(jì)
3.6 可行性分析
3.7 本章小結(jié)
第四章 小文件解決方案的實(shí)現(xiàn)
4.1 總體架構(gòu)實(shí)現(xiàn)
4.2 小文件存儲(chǔ)優(yōu)化的實(shí)現(xiàn)
4.2.1 HDFS 的 I/O 數(shù)據(jù)檢查
4.2.2 數(shù)據(jù)壓縮
4.3 小文件合并算法
4.3.1 數(shù)據(jù)的 I/O 序列化操作
4.3.2 合并算法的實(shí)現(xiàn)
4.4 小文件索引創(chuàng)建的實(shí)現(xiàn)
4.5 本章小結(jié)
第五章 系統(tǒng)測(cè)試與分析
5.1 實(shí)驗(yàn)環(huán)境
5.2 實(shí)驗(yàn)用到的主要 JAVA 類
5.3 實(shí)驗(yàn)結(jié)果分析與比較
5.3.1 上傳文件測(cè)試
5.3.2 訪問(wèn)文件測(cè)試
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 工作總結(jié)
6.2 工作展望
參考文獻(xiàn)
附錄 1 攻讀碩士學(xué)位期間參加的科研項(xiàng)目
致謝
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 程瑩;張?jiān)朴?徐雷;房秉毅;;基于Hadoop及關(guān)系型數(shù)據(jù)庫(kù)的海量數(shù)據(jù)分析研究[J];電信科學(xué);2010年11期
2 劉旭輝;韓冀中;賀勁;韓承德;;基于集群系統(tǒng)的空間數(shù)據(jù)并行處理策略研究[J];高技術(shù)通訊;2009年10期
3 欒亞建;黃翀民;龔高晟;趙鐵柱;;Hadoop平臺(tái)的性能優(yōu)化研究[J];計(jì)算機(jī)工程;2010年14期
4 曾龍海;張博鋒;張麗華;何冰;吳耿鋒;徐煒民;;基于云計(jì)算平臺(tái)的虛擬集群構(gòu)建技術(shù)研究[J];微電子學(xué)與計(jì)算機(jī);2010年08期
相關(guān)碩士學(xué)位論文 前4條
1 泰冬雪;基于Hadoop的海量小文件處理方法的研究[D];遼寧大學(xué);2011年
2 朱珠;基于Hadoop的海量數(shù)據(jù)處理模型研究和應(yīng)用[D];北京郵電大學(xué);2008年
3 李云桃;基于Hadoop的海量數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2009年
4 黃曉云;基于HDFS的云存儲(chǔ)服務(wù)系統(tǒng)研究[D];大連海事大學(xué);2010年
本文編號(hào):2878417
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2878417.html
最近更新
教材專著