面向HDFS的批量文件存儲(chǔ)性能的研究與優(yōu)化
本文關(guān)鍵詞:面向HDFS的批量文件存儲(chǔ)性能的研究與優(yōu)化,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著經(jīng)濟(jì)、社會(huì)和科技的發(fā)展,個(gè)人電腦、智能手機(jī)等設(shè)備大規(guī)模普及,互聯(lián)網(wǎng)應(yīng)用越來越廣泛和深入,人們進(jìn)入了大數(shù)據(jù)的時(shí)代。云計(jì)算、大數(shù)據(jù)、云存儲(chǔ)共同組成了學(xué)術(shù)界和商業(yè)界研究的前沿課題。Hadoop是目前主流的開源大數(shù)據(jù)平臺(tái),已經(jīng)成為處理大數(shù)據(jù)問題事實(shí)上的標(biāo)準(zhǔn),它涵蓋一個(gè)能夠?qū)崿F(xiàn)云計(jì)算、云存儲(chǔ)功能的生態(tài)系統(tǒng);其中HDFS作為Hadoop最底層的基礎(chǔ)設(shè)施,為其提供了高可靠性、高可擴(kuò)展性的數(shù)據(jù)存儲(chǔ)管理服務(wù),HDFS的工作效率直接決定了Hadoop其他上層工具的性能,也極大地影響了基于HDFS的應(yīng)用系統(tǒng)的工作效率。 HDFS盡管具有很多優(yōu)點(diǎn),但是依舊處于不斷發(fā)展成熟的過程中,特別是當(dāng)處理大規(guī)模數(shù)據(jù)集時(shí)會(huì)出現(xiàn)很多問題,具體表現(xiàn)在NameNode節(jié)點(diǎn)單點(diǎn)失效、NameNode節(jié)點(diǎn)內(nèi)存瓶頸和負(fù)載過大、大量文件訪問時(shí)DataNode節(jié)點(diǎn)磁盤I/O尋址頻繁、HDFS集群后臺(tái)管理工作負(fù)載過大等等,這些都極大地制約了HDFS作為一個(gè)分布式文件存儲(chǔ)系統(tǒng)的應(yīng)用。為此,本文在對(duì)]HDFS進(jìn)行詳細(xì)介紹和相關(guān)性能因素分析的基礎(chǔ)上,從訪問性能和系統(tǒng)架構(gòu)兩方面對(duì)HDFS進(jìn)行了優(yōu)化,進(jìn)一步提高HDFS的工作效率。本文的主要工作及創(chuàng)新點(diǎn)如下: 1,在研讀HDFS系統(tǒng)源代碼的基礎(chǔ)上,介紹了HDFS典型操作流程和后臺(tái)管理工作,剖析了HDFS中元數(shù)據(jù)架構(gòu)體系和通信機(jī)制,討論了HDFS系統(tǒng)在批量文件處理時(shí)面臨的一些問題和缺陷。 2,針對(duì)批量文件存儲(chǔ)時(shí)存在的問題,重構(gòu)了批量文件存儲(chǔ)的機(jī)制和讀寫流程。在寫入批量用戶文件時(shí),Client客戶端將批量文件合并成一個(gè)組文件,并且創(chuàng)建用戶文件、數(shù)據(jù)片段、組文件、數(shù)據(jù)塊之間的映射元數(shù)據(jù),然后將組文件和相關(guān)元數(shù)據(jù)都存儲(chǔ)到HDFS中;在讀取批量用戶文件時(shí),Client客戶端首先獲取用戶文件的元數(shù)據(jù),其次按照存儲(chǔ)位置對(duì)數(shù)據(jù)片段進(jìn)行分類,然后按類向DataNode發(fā)出數(shù)據(jù)讀取請(qǐng)求,獲得所有數(shù)據(jù)片斷,最后將數(shù)據(jù)片段組裝成用戶所求的文件。 3,在批量文件存儲(chǔ)優(yōu)化的基礎(chǔ)上,提出了將NameNode節(jié)點(diǎn)中容易分離的元數(shù)據(jù)遷移存儲(chǔ)到Redis服務(wù)器節(jié)點(diǎn)的方法,實(shí)現(xiàn)“元數(shù)據(jù)分布,訪問分布”,以此來進(jìn)一步降低NameNode節(jié)點(diǎn)的內(nèi)存消耗和訪問負(fù)載。 4,對(duì)于以上的優(yōu)化方案,在HDFS開源系統(tǒng)上做了編程實(shí)現(xiàn),并進(jìn)行了實(shí)驗(yàn)測(cè)試,實(shí)驗(yàn)結(jié)果驗(yàn)證了優(yōu)化策略的有效性。
【關(guān)鍵詞】:Hadoop分布式文件系統(tǒng) 批量文件 系統(tǒng)架構(gòu) Redis
【學(xué)位授予單位】:南京師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP333
【目錄】:
- 摘要4-5
- Abstract5-11
- 第一章 緒論11-16
- 1.1 研究背景和意義11-12
- 1.2 研究現(xiàn)狀12-14
- 1.3 本文主要工作及結(jié)構(gòu)安排14-16
- 第二章 HDFS系統(tǒng)的介紹和性能相關(guān)因素分析16-30
- 2.1 HDFS系統(tǒng)中的元數(shù)據(jù)分析16-22
- 2.1.1 文件和目錄的元數(shù)據(jù)信息16-18
- 2.1.2 數(shù)據(jù)塊及副本的元數(shù)據(jù)信息18-19
- 2.1.3 文件、數(shù)據(jù)塊、數(shù)據(jù)節(jié)點(diǎn)之間的映射關(guān)系19-20
- 2.1.4 NameNode節(jié)點(diǎn)集中統(tǒng)一管理的元數(shù)據(jù)信息20-22
- 2.2 HDFS系統(tǒng)中的通信機(jī)制分析22-24
- 2.3 HDFS系統(tǒng)中典型操作解析24-26
- 2.3.1 文件寫入操作24-25
- 2.3.2 文件讀取操作25-26
- 2.3.3 數(shù)據(jù)塊復(fù)制操作26
- 2.4 HDFS系統(tǒng)中主要后臺(tái)管理工作26-28
- 2.5 HDFS系統(tǒng)性能相關(guān)因素分析與面臨的問題28-30
- 第三章 HDFS中批量文件存儲(chǔ)的優(yōu)化30-54
- 3.1 批量文件存儲(chǔ)的優(yōu)化策略30-35
- 3.1.1 文件數(shù)據(jù)部署原則32
- 3.1.2 用戶文件合并操作32-33
- 3.1.3 數(shù)據(jù)片段的關(guān)聯(lián)性分析33
- 3.1.4 數(shù)據(jù)片段的組裝33-34
- 3.1.5 “先偽刪除,后真刪除”策略34-35
- 3.2 相關(guān)的元數(shù)據(jù)類型與結(jié)構(gòu)35-36
- 3.3 相關(guān)算法36-41
- 3.3.1 文件數(shù)據(jù)部署算法36-38
- 3.3.2 用戶文件合并算法38-39
- 3.3.3 數(shù)據(jù)片段關(guān)聯(lián)性分析算法39-40
- 3.3.4 數(shù)據(jù)片段的組裝算法40-41
- 3.4 批量文件的操作流程與接口41-45
- 3.4.1 批量文件的寫入操作41-42
- 3.4.2 批量文件的讀取操作42-44
- 3.4.3 以組文件方式寫入的文件的刪除操作44-45
- 3.5 程序功能實(shí)現(xiàn)45-47
- 3.6 實(shí)驗(yàn)47-54
- 3.6.1 實(shí)驗(yàn)環(huán)境47
- 3.6.2 時(shí)間性能測(cè)試結(jié)果與數(shù)據(jù)分析47-51
- 3.6.3 NameNode元數(shù)據(jù)大小測(cè)試結(jié)果與數(shù)據(jù)分析51-54
- 第四章 HDFS系統(tǒng)架構(gòu)優(yōu)化方案54-69
- 4.1 NoSQL概述54-55
- 4.2 NoSQL數(shù)據(jù)庫(kù)產(chǎn)品簡(jiǎn)介55-57
- 4.3 Redis數(shù)據(jù)庫(kù)介紹57-61
- 4.3.1 Redis是什么57-58
- 4.3.2 Redis的數(shù)據(jù)類型58-59
- 4.3.3 Redis的客戶端庫(kù)59
- 4.3.4 Redis的事務(wù)、持久化與主從復(fù)制59-61
- 4.4 HDFS系統(tǒng)架構(gòu)的優(yōu)化策略61-64
- 4.5 程序功能實(shí)現(xiàn)64-65
- 4.6 實(shí)驗(yàn)65-69
- 4.6.1 實(shí)驗(yàn)環(huán)境65
- 4.6.2 時(shí)間性能測(cè)試結(jié)果與數(shù)據(jù)分析65-67
- 4.6.3 NameNode元數(shù)據(jù)大小測(cè)試結(jié)果與數(shù)據(jù)分析67-69
- 第五章 總結(jié)和展望69-71
- 5.1 總結(jié)69-70
- 5.2 展望70-71
- 參考文獻(xiàn)71-75
- 致謝75
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前9條
1 張健;;云計(jì)算概念和影響力解析[J];電信網(wǎng)技術(shù);2009年01期
2 王敏;;改進(jìn)的雙向選擇排序算法[J];信息技術(shù);2010年09期
3 范凱;;NoSQL數(shù)據(jù)庫(kù)綜述[J];程序員;2010年06期
4 曹寧;吳中海;劉宏志;張齊勛;;HDFS下載效率的優(yōu)化[J];計(jì)算機(jī)應(yīng)用;2010年08期
5 張春明;芮建武;何婷婷;;一種Hadoop小文件存儲(chǔ)和讀取的方法[J];計(jì)算機(jī)應(yīng)用與軟件;2012年11期
6 江敏;雙向選擇排序算法[J];泰州職業(yè)技術(shù)學(xué)院學(xué)報(bào);2005年01期
7 周可;王樺;李春花;;云存儲(chǔ)技術(shù)及其應(yīng)用[J];中興通訊技術(shù);2010年04期
8 劉小俊;徐正全;潘少明;;一種結(jié)合RDBMS和Hadoop的海量小文件存儲(chǔ)方法[J];武漢大學(xué)學(xué)報(bào)(信息科學(xué)版);2013年01期
9 洪旭升;林世平;;基于MapFile的HDFS小文件存儲(chǔ)效率問題[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2012年11期
本文關(guān)鍵詞:面向HDFS的批量文件存儲(chǔ)性能的研究與優(yōu)化,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):452357
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/452357.html