基于HDFS平臺的海量小文件存儲與訪問優(yōu)化策略研究
發(fā)布時間:2020-12-16 07:12
由于近年來大數(shù)據(jù)技術(shù)發(fā)展迅猛,使得數(shù)據(jù)量呈井噴式的增長。這對數(shù)據(jù)的存儲與訪問技術(shù)來說是極具挑戰(zhàn)性的難題。為了應(yīng)對這種情形,許多大數(shù)據(jù)處理系統(tǒng)應(yīng)運(yùn)而生。目前,Hadoop分布式文件系統(tǒng)(HDFS)作為個中翹楚,具有高容錯度、高擴(kuò)展性、高吞吐量和高可靠性的特點(diǎn),成為了業(yè)界和學(xué)術(shù)界最為流行的分布式文件存儲系統(tǒng)。然而,由于本身的架構(gòu)特點(diǎn)和其特有的讀寫機(jī)制所限,HDFS僅在超大文件的讀取和訪問上表現(xiàn)良好。在應(yīng)對海量小文件場景時卻有著天然的不足:1)HDFS的主從式的系統(tǒng)架構(gòu)和以數(shù)據(jù)塊的形式存儲文件的存儲機(jī)制,使得其在存儲大量小文件時,會給系統(tǒng)主節(jié)點(diǎn)帶來巨大的內(nèi)存消耗,從而降低文件的存儲效率;2)頻繁的文件訪問操作將對元數(shù)據(jù)管理節(jié)點(diǎn)和數(shù)據(jù)存儲節(jié)點(diǎn)磁盤造成較大的訪問壓力,使文件的訪問效率降低。在已有的研究當(dāng)中,解決HDFS平臺小文件存取效率問題的主要思路有:對于存儲效率的提升,通過采用合并存儲的方式,達(dá)到減少文件個數(shù)的目的,從而緩解主節(jié)點(diǎn)的內(nèi)存壓力;對于訪問效率的提升,通過為HDFS的架構(gòu)增設(shè)緩存機(jī)制,以減少節(jié)點(diǎn)間通信時間開銷,提升訪問效率。本文在前人的研究基礎(chǔ)之上,展開了對HDFS中小文件存取效率...
【文章來源】:北京工業(yè)大學(xué)北京市 211工程院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 選題背景和研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 小文件存儲優(yōu)化的研究現(xiàn)狀
1.2.2 小文件訪問優(yōu)化的研究現(xiàn)狀
1.3 本文研究內(nèi)容及主要貢獻(xiàn)
1.4 本文的組織結(jié)構(gòu)
第2章 相關(guān)技術(shù)研究
2.1 Hadoop分布式文件系統(tǒng)
2.1.1 HDFS系統(tǒng)架構(gòu)
2.1.2 HDFS的文件讀寫機(jī)制
2.1.3 HDFS的小文件問題
2.2 小文件存儲優(yōu)化的關(guān)鍵技術(shù)研究
2.2.1 小文件存儲的開銷模型
2.2.2 Hadoop的解決方案
2.2.3 基于相關(guān)性的合并
2.2.4 基于文件分布的合并
2.3 小文件訪問優(yōu)化的關(guān)鍵技術(shù)研究
2.3.1 小文件訪問的開銷模型
2.3.2 緩存與緩存替換技術(shù)
2.4 本章小結(jié)
第3章 基于文件相關(guān)度和文件分布的小文件合并存儲策略
3.1 基本思想
3.2 文件相關(guān)度
3.3 算法設(shè)計
3.4 算法實(shí)現(xiàn)
3.5 本章小結(jié)
第4章 基于文件駐留價值的小文件分層緩存
4.1 基本思想
4.2 緩存文件的價值判斷
4.2.1 緩存價值的影響因素
4.2.2 文件的價值判斷函數(shù)
4.3 小文件的分層緩存與緩存替換
4.3.1 分層依據(jù)
4.3.2 緩存的更新過程
4.4 本章小結(jié)
第5章 系統(tǒng)架構(gòu)與實(shí)驗(yàn)分析
5.1 系統(tǒng)架構(gòu)
5.2 實(shí)驗(yàn)環(huán)境
5.2.1 硬件環(huán)境
5.2.2 軟件環(huán)境
5.3 小文件存儲優(yōu)化效果
5.3.1 文件存儲的時間開銷對比
5.3.2 Namenode內(nèi)存開銷對比
5.3.3 文件的空間局部性對比
5.4 小文件訪問優(yōu)化效果
5.4.1 緩存命中率對比
5.4.2 文件訪問效率對比
5.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間獲得的科研成果
致謝
本文編號:2919755
【文章來源】:北京工業(yè)大學(xué)北京市 211工程院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 選題背景和研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 小文件存儲優(yōu)化的研究現(xiàn)狀
1.2.2 小文件訪問優(yōu)化的研究現(xiàn)狀
1.3 本文研究內(nèi)容及主要貢獻(xiàn)
1.4 本文的組織結(jié)構(gòu)
第2章 相關(guān)技術(shù)研究
2.1 Hadoop分布式文件系統(tǒng)
2.1.1 HDFS系統(tǒng)架構(gòu)
2.1.2 HDFS的文件讀寫機(jī)制
2.1.3 HDFS的小文件問題
2.2 小文件存儲優(yōu)化的關(guān)鍵技術(shù)研究
2.2.1 小文件存儲的開銷模型
2.2.2 Hadoop的解決方案
2.2.3 基于相關(guān)性的合并
2.2.4 基于文件分布的合并
2.3 小文件訪問優(yōu)化的關(guān)鍵技術(shù)研究
2.3.1 小文件訪問的開銷模型
2.3.2 緩存與緩存替換技術(shù)
2.4 本章小結(jié)
第3章 基于文件相關(guān)度和文件分布的小文件合并存儲策略
3.1 基本思想
3.2 文件相關(guān)度
3.3 算法設(shè)計
3.4 算法實(shí)現(xiàn)
3.5 本章小結(jié)
第4章 基于文件駐留價值的小文件分層緩存
4.1 基本思想
4.2 緩存文件的價值判斷
4.2.1 緩存價值的影響因素
4.2.2 文件的價值判斷函數(shù)
4.3 小文件的分層緩存與緩存替換
4.3.1 分層依據(jù)
4.3.2 緩存的更新過程
4.4 本章小結(jié)
第5章 系統(tǒng)架構(gòu)與實(shí)驗(yàn)分析
5.1 系統(tǒng)架構(gòu)
5.2 實(shí)驗(yàn)環(huán)境
5.2.1 硬件環(huán)境
5.2.2 軟件環(huán)境
5.3 小文件存儲優(yōu)化效果
5.3.1 文件存儲的時間開銷對比
5.3.2 Namenode內(nèi)存開銷對比
5.3.3 文件的空間局部性對比
5.4 小文件訪問優(yōu)化效果
5.4.1 緩存命中率對比
5.4.2 文件訪問效率對比
5.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間獲得的科研成果
致謝
本文編號:2919755
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2919755.html
最近更新
教材專著