Hadoop小文件處理技術(shù)的研究和實現(xiàn)

發(fā)布時間：2020-11-10 22:46

　　隨著Internet的飛速發(fā)展，傳統(tǒng)的技術(shù)架構(gòu)在處理海量數(shù)據(jù)方面顯得越來越乏力。Hadoop作為一種能夠?qū)Ａ繑?shù)據(jù)進行高效地分布式處理框架，由底層HDFS文件系統(tǒng)和上層MapReduce編程模型構(gòu)成；采用主從式架構(gòu)設(shè)計模式的HDFS文件系統(tǒng)在單名稱節(jié)點方面的設(shè)置簡化了文件系統(tǒng)的結(jié)構(gòu)，然而也產(chǎn)生了小文件存儲效率低的問題。針對Hadoop在處理小文件時存儲效率低下和大量的小文件給MapReduce處理帶來的超負(fù)荷,本文提出基于歸檔文件技術(shù)和序列文件技術(shù)解決Hadoop小文件問題，基本思想是通過將小文件合并后分塊存儲，然后建立小文件到大文件的映射。本文對Hadoop小文件的優(yōu)化處理方案進行了系統(tǒng)的測試，建立不同的測試用例，包括直接讀取小文件和讀取合并后的小文件，通過比較直接從本地文件系統(tǒng)和HDFS文件系統(tǒng)上傳文件的時間、合并前后訪問文件的時間和讀取文件時系統(tǒng)的內(nèi)存占用率，驗證了本文設(shè)計的方案適用于MapReduce計算模型，可以提高小文件隨機訪問的效率。
【學(xué)位單位】：南京郵電大學(xué)
【學(xué)位級別】：碩士
【學(xué)位年份】：2013
【中圖分類】：TP338.8
【文章目錄】：
摘要
Abstract
專用術(shù)語注釋表
第一章緒論
    1.1 研究背景
    1.2 研究現(xiàn)狀
        1.2.1 Hadoop 小文件處理
        1.2.2 Hadoop 技術(shù)上的新需求
    1.3 研究內(nèi)容與意義
    1.4 本文的組織
第二章相關(guān)技術(shù)研究
    2.1 Hadoop 分布式平臺結(jié)構(gòu)
        2.1.1 HDFS 分布式存儲架構(gòu)
        2.1.2 相關(guān)通信協(xié)議
        2.1.3 MapReduce 編程框架
        2.1.4 MapReduce 作業(yè)執(zhí)行流程
    2.2 Trie 樹索引
    2.3 Hadoop 處理小文件相關(guān)技術(shù)
    2.4 Hadoop 處理小文件關(guān)鍵問題
        2.4.1 存儲問題
        2.4.2 讀寫問題
    2.5 本章小結(jié)
第三章小文件解決方案的分析和設(shè)計
    3.1 歸檔文件和序列化文件
        3.1.1 歸檔文件技術(shù)
        3.1.2 序列化文件技術(shù)
    3.2 系統(tǒng)總體結(jié)構(gòu)設(shè)計
    3.3 小文件存儲優(yōu)化結(jié)構(gòu)設(shè)計
        3.3.1 小文件優(yōu)化方案
        3.3.2 小文件優(yōu)化方案設(shè)計
        3.3.3 小文件優(yōu)化方案的不足之處
    3.4 小文件索引的結(jié)構(gòu)設(shè)計
    3.5 小文件優(yōu)化算法設(shè)計
        3.5.1 Writable 類和 SequenceFile 類
        3.5.2 數(shù)據(jù)類型設(shè)計
        3.5.3 合并算法的設(shè)計
    3.6 可行性分析
    3.7 本章小結(jié)
第四章小文件解決方案的實現(xiàn)
    4.1 總體架構(gòu)實現(xiàn)
    4.2 小文件存儲優(yōu)化的實現(xiàn)
        4.2.1 HDFS 的 I/O 數(shù)據(jù)檢查
        4.2.2 數(shù)據(jù)壓縮
    4.3 小文件合并算法
        4.3.1 數(shù)據(jù)的 I/O 序列化操作
        4.3.2 合并算法的實現(xiàn)
    4.4 小文件索引創(chuàng)建的實現(xiàn)
    4.5 本章小結(jié)
第五章系統(tǒng)測試與分析
    5.1 實驗環(huán)境
    5.2 實驗用到的主要 JAVA 類
    5.3 實驗結(jié)果分析與比較
        5.3.1 上傳文件測試
        5.3.2 訪問文件測試
    5.4 本章小結(jié)
第六章總結(jié)與展望
    6.1 工作總結(jié)
    6.2 工作展望
參考文獻
附錄 1 攻讀碩士學(xué)位期間參加的科研項目
致謝

【參考文獻】

相關(guān)期刊論文前4條

1 程瑩;張云勇;徐雷;房秉毅;;基于Hadoop及關(guān)系型數(shù)據(jù)庫的海量數(shù)據(jù)分析研究[J];電信科學(xué);2010年11期

2 劉旭輝;韓冀中;賀勁;韓承德;;基于集群系統(tǒng)的空間數(shù)據(jù)并行處理策略研究[J];高技術(shù)通訊;2009年10期

3 欒亞建;黃翀民;龔高晟;趙鐵柱;;Hadoop平臺的性能優(yōu)化研究[J];計算機工程;2010年14期

4 曾龍海;張博鋒;張麗華;何冰;吳耿鋒;徐煒民;;基于云計算平臺的虛擬集群構(gòu)建技術(shù)研究[J];微電子學(xué)與計算機;2010年08期

相關(guān)碩士學(xué)位論文前4條

1 泰冬雪;基于Hadoop的海量小文件處理方法的研究[D];遼寧大學(xué);2011年

2 朱珠;基于Hadoop的海量數(shù)據(jù)處理模型研究和應(yīng)用[D];北京郵電大學(xué);2008年

3 李云桃;基于Hadoop的海量數(shù)據(jù)處理系統(tǒng)的設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2009年

4 黃曉云;基于HDFS的云存儲服務(wù)系統(tǒng)研究[D];大連海事大學(xué);2010年

本文編號：2878417

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2878417.html

上一篇：3D地學(xué)模型管理系統(tǒng)的設(shè)計與實現(xiàn)
下一篇：移動網(wǎng)絡(luò)流量測量系統(tǒng)研究與開發(fā)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

Hadoop小文件處理技術(shù)的研究和實現(xiàn)