MapReduce計(jì)算模型性能優(yōu)化的研究
本文關(guān)鍵詞:MapReduce計(jì)算模型性能優(yōu)化的研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:伴隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,每天會(huì)產(chǎn)生海量數(shù)據(jù),數(shù)據(jù)處于爆炸式的增長(zhǎng)狀態(tài),這預(yù)示著大數(shù)據(jù)時(shí)代的到來(lái)。大數(shù)據(jù)時(shí)代的數(shù)據(jù)具有數(shù)量大、結(jié)構(gòu)復(fù)雜的特點(diǎn),導(dǎo)致數(shù)據(jù)存儲(chǔ)和計(jì)算難度的加大。Google提出的MapReduce分布式計(jì)算模型簡(jiǎn)化了海量數(shù)據(jù)計(jì)算的問(wèn)題,成為研究的熱點(diǎn)。所以本文對(duì)MapReduce技術(shù)的研究和性能的優(yōu)化具有實(shí)際意義。MapReduce是一種分布式計(jì)算模型,它簡(jiǎn)化了程序員編寫(xiě)分布式程序的步驟,因此被廣泛應(yīng)用于大數(shù)據(jù)領(lǐng)域。Hadoop是MapReduce的開(kāi)源實(shí)現(xiàn),具備海量數(shù)據(jù)處理的能力。然而,它的一些處理機(jī)制影響了性能的發(fā)揮。比如:當(dāng)數(shù)據(jù)出現(xiàn)傾斜時(shí),原有的劃分方法不能保證節(jié)點(diǎn)的負(fù)載均衡,集群性能會(huì)受影響。因此,需要優(yōu)化現(xiàn)有的處理機(jī)制。本文研究的主要內(nèi)容是:首先對(duì)Hadoop平臺(tái)進(jìn)行簡(jiǎn)單介紹,重點(diǎn)研究MapReduce計(jì)算模型,對(duì)其組成模塊和運(yùn)行機(jī)制進(jìn)行深入的分析。在分析MapReduce源碼的基礎(chǔ)上,發(fā)現(xiàn)了當(dāng)數(shù)據(jù)存在傾斜時(shí)節(jié)點(diǎn)會(huì)出現(xiàn)負(fù)載不均的問(wèn)題和在異構(gòu)環(huán)境下推測(cè)執(zhí)行機(jī)制效率低的問(wèn)題。針對(duì)數(shù)據(jù)存在傾斜負(fù)載不均的問(wèn)題,本文提出了一種抽樣的方法,利用抽樣獲取Map端中間結(jié)果的分布信息,在抽樣的基礎(chǔ)上結(jié)合數(shù)據(jù)局部性產(chǎn)生劃分函數(shù),可以使節(jié)點(diǎn)負(fù)載趨于均衡。針對(duì)原有的推測(cè)執(zhí)行機(jī)制效率低的問(wèn)題,本文提出了一種改進(jìn)的LATE算法,在LATE算法的基礎(chǔ)上,利用節(jié)點(diǎn)歷史信息和數(shù)據(jù)局部性特點(diǎn)選擇快節(jié)點(diǎn)備份執(zhí)行,可以更準(zhǔn)確的發(fā)現(xiàn)慢任務(wù),提高集群的吞吐率。最后,本文搭建了實(shí)驗(yàn)平臺(tái)對(duì)抽樣劃分方法和改進(jìn)型的LATE算法進(jìn)行實(shí)驗(yàn)驗(yàn)證。根據(jù)實(shí)驗(yàn)結(jié)果,本文提出的改進(jìn)算法可以有效提高M(jìn)apReduce的性能。
【關(guān)鍵詞】:大數(shù)據(jù) MapReduce 抽樣 推測(cè)執(zhí)行 負(fù)載平衡
【學(xué)位授予單位】:山東建筑大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13
【目錄】:
- 摘要4-5
- ABSTRACT5-10
- 第1章 緒論10-14
- 1.1 研究背景及意義10-11
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀11-12
- 1.3 本文的研究?jī)?nèi)容12-13
- 1.4 論文的組織結(jié)構(gòu)13-14
- 第2章 相關(guān)技術(shù)介紹14-24
- 2.1 云計(jì)算介紹14-16
- 2.1.1 云計(jì)算的概念14
- 2.1.2 云計(jì)算體系結(jié)構(gòu)14-16
- 2.1.3 云計(jì)算平臺(tái)16
- 2.2 MapReduce介紹16-19
- 2.2.1 MapReduce編程模型16-17
- 2.2.2 MapReduce的應(yīng)用17-18
- 2.2.3 MapReduce傾斜問(wèn)題18-19
- 2.3 Hadoop介紹19-22
- 2.3.1 Hadoop簡(jiǎn)介19-21
- 2.3.2 Hadoop生態(tài)系統(tǒng)21-22
- 2.4 本章小結(jié)22-24
- 第3章 基于抽樣的負(fù)載均衡策略24-37
- 3.1 MapReduce數(shù)據(jù)分配問(wèn)題24-26
- 3.1.1 Map階段和Reduce階段數(shù)據(jù)分配情況24-25
- 3.1.2 數(shù)據(jù)傾斜的原因25-26
- 3.2 抽樣模型26-28
- 3.2.1 抽樣的種類26
- 3.2.2 抽樣過(guò)程26-27
- 3.2.3 理論分析27-28
- 3.3 數(shù)據(jù)分配策略28-30
- 3.4 改進(jìn)后的MapReduce整體設(shè)計(jì)30-33
- 3.5 實(shí)驗(yàn)結(jié)果與分析33-36
- 3.5.1 實(shí)驗(yàn)環(huán)境搭建33
- 3.5.2 實(shí)驗(yàn)結(jié)果分析33-36
- 3.6 本章小結(jié)36-37
- 第4章 MapReduce調(diào)度算法的優(yōu)化37-44
- 4.1 MapReduce調(diào)度算法存在的問(wèn)題37-38
- 4.2 改進(jìn)LATE調(diào)度器38-40
- 4.3 實(shí)驗(yàn)結(jié)果與分析40-43
- 4.3.1 實(shí)驗(yàn)環(huán)境搭建40-41
- 4.3.2 實(shí)驗(yàn)結(jié)果分析41-43
- 4.4 本章小結(jié)43-44
- 第5章 總結(jié)與展望44-46
- 5.1 總結(jié)44-45
- 5.2 展望45-46
- 參考文獻(xiàn)46-50
- 后記50-51
- 攻讀碩士學(xué)位期間論文發(fā)表及科研情況51
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前8條
1 萬(wàn)聰;王翠榮;王聰;賈朔;;MapReduce模型中reduce階段負(fù)載均衡分區(qū)算法研究[J];小型微型計(jì)算機(jī)系統(tǒng);2015年02期
2 韓蕾;孫徐湛;吳志川;陳立軍;;MapReduce上基于抽樣的數(shù)據(jù)劃分最優(yōu)化研究[J];計(jì)算機(jī)研究與發(fā)展;2013年S2期
3 董新華;李瑞軒;周灣灣;王聰;薛正元;廖東杰;;Hadoop系統(tǒng)性能優(yōu)化與功能增強(qiáng)綜述[J];計(jì)算機(jī)研究與發(fā)展;2013年S2期
4 周家?guī)?王琦;高軍;;一種基于動(dòng)態(tài)劃分的MapReduce負(fù)載均衡方法[J];計(jì)算機(jī)研究與發(fā)展;2013年S1期
5 傅杰;都志輝;;一種周期性MapReduce作業(yè)的負(fù)載均衡策略[J];計(jì)算機(jī)科學(xué);2013年03期
6 馮士雍;倪加勛;鄒國(guó)華;;抽樣調(diào)查理論與方法(第二版)[J];中國(guó)統(tǒng)計(jì);2012年09期
7 李喬;鄭嘯;;云計(jì)算研究現(xiàn)狀綜述[J];計(jì)算機(jī)科學(xué);2011年04期
8 張建勛;古志民;鄭超;;云計(jì)算研究進(jìn)展綜述[J];計(jì)算機(jī)應(yīng)用研究;2010年02期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條
1 李海峰;基于抽樣估計(jì)的MapReduce負(fù)載平衡研究[D];大連海事大學(xué);2014年
2 鄒鵬;基于抽樣分區(qū)解決MapReduce中的數(shù)據(jù)傾斜問(wèn)題[D];大連理工大學(xué);2013年
3 余基映;MapReduce模型的數(shù)據(jù)分配策略研究[D];華中科技大學(xué);2013年
4 李麗英;面向一種云計(jì)算平臺(tái)的任務(wù)調(diào)度技術(shù)研究[D];湖南大學(xué);2011年
本文關(guān)鍵詞:MapReduce計(jì)算模型性能優(yōu)化的研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):328871
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/328871.html