改進(jìn)型MapReduce框架的研究與設(shè)計(jì)
發(fā)布時(shí)間:2021-01-03 21:15
隨著云計(jì)算迎來(lái)了蓬勃的發(fā)展,Hadoop作為開(kāi)源云計(jì)算平臺(tái),得到了國(guó)內(nèi)外很多公司和高校的青睞。相應(yīng)的,作為Hadoop的子項(xiàng)目和分布式并行處理框架的MapReduce,目前基于它的應(yīng)用越來(lái)越多,特別是在大數(shù)據(jù)量處理方面,通過(guò)將應(yīng)用任務(wù)并行化,使應(yīng)用系統(tǒng)的處理性能有了很大的提升。但隨著應(yīng)用的廣泛性和多樣性,針對(duì)具體應(yīng)用,其暴露出來(lái)的不足和需要改進(jìn)之處越來(lái)越多,Hadoop還沒(méi)有到達(dá)1.0版本。本文主要對(duì)MapReduce框架做以下幾方面的探討:(1)簡(jiǎn)要介紹了并行計(jì)算、分布式計(jì)算、云計(jì)算三種計(jì)算模型的定義及其相關(guān)概念,通過(guò)分析總結(jié)出MapReduce框架是符合三種計(jì)算模型的。引入Hadoop和MapReduce框架處理流程和機(jī)制,為下文提出改進(jìn)方案奠定基礎(chǔ)(2)通過(guò)剖析具體應(yīng)用以及深入分析框架處理流程和相關(guān)源代碼實(shí)現(xiàn),總結(jié)實(shí)際應(yīng)用中出現(xiàn)的一些影響執(zhí)行效率的問(wèn)題,如數(shù)據(jù)傾斜問(wèn)題、規(guī)約任務(wù)不均衡問(wèn)題和規(guī)約調(diào)度問(wèn)題等(3)提供了針對(duì)出現(xiàn)問(wèn)題的改進(jìn)方案,主要實(shí)現(xiàn)了針對(duì)中間結(jié)果進(jìn)行切割的切分函數(shù)、啟動(dòng)新規(guī)約任務(wù)的機(jī)制以及相應(yīng)的調(diào)度機(jī)制,給出了改進(jìn)后的方案設(shè)計(jì)架構(gòu)和實(shí)現(xiàn)(4)經(jīng)過(guò)多次、不同級(jí)別數(shù)據(jù)量...
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
云計(jì)算的層次及服務(wù)
apReduce框架附帶了一個(gè)包含許多實(shí)用型的Mapper、Redueer和分區(qū)函數(shù)的類庫(kù)。推測(cè)式執(zhí)行方式所謂的推測(cè)執(zhí)行,就是當(dāng)所有任務(wù)都開(kāi)始運(yùn)行之后,作業(yè)追蹤器(JobTracker)會(huì)統(tǒng)計(jì)所有任務(wù)的平均進(jìn)度,如果某個(gè)任務(wù)所在的任務(wù)節(jié)點(diǎn)的機(jī)器配置比較低或者CPU負(fù)責(zé)很高(原因很多),導(dǎo)致任務(wù)執(zhí)行比總體任務(wù)的平均執(zhí)行要慢,此時(shí)作業(yè)追蹤器會(huì)啟動(dòng)一個(gè)新的任務(wù)來(lái)執(zhí)行相同的操作,原有任務(wù)和新任務(wù)哪個(gè)先執(zhí)行完就把另外一個(gè)停止掉。以下是推測(cè)執(zhí)行的兩個(gè)配置項(xiàng),它們默認(rèn)值是truemaPred.maP.tasks.sPeeulative.execution二truemaPred.reduce.tasks.sPeculative.execution二true2.4.4Hadoop工作流程HDFS和MapReduee配合的整個(gè)工作過(guò)程如下圖[4]151所示:
業(yè)的所有任務(wù),這些任務(wù)通常分散于不同的任務(wù)節(jié)點(diǎn)上,主節(jié)點(diǎn)監(jiān)控它們的執(zhí)行,重新執(zhí)行已經(jīng)失敗的任務(wù)。而任務(wù)節(jié)點(diǎn)僅負(fù)責(zé)執(zhí)行由主節(jié)點(diǎn)指派的任務(wù)。圖4典型的 HadoopCluster架構(gòu)圖Hadoop的客戶端提交作業(yè)(jar包/可執(zhí)行程序等)和配置信息給作業(yè)追蹤器,作業(yè)配置是由輸入/輸出的路徑、供映射函數(shù)和規(guī)約函數(shù)和作業(yè)的其他的參數(shù)等構(gòu)成。作業(yè)追蹤器通過(guò)心跳信息將配置等信息給任務(wù)節(jié)點(diǎn),同時(shí)調(diào)度任務(wù)并監(jiān)控
本文編號(hào):2955500
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
云計(jì)算的層次及服務(wù)
apReduce框架附帶了一個(gè)包含許多實(shí)用型的Mapper、Redueer和分區(qū)函數(shù)的類庫(kù)。推測(cè)式執(zhí)行方式所謂的推測(cè)執(zhí)行,就是當(dāng)所有任務(wù)都開(kāi)始運(yùn)行之后,作業(yè)追蹤器(JobTracker)會(huì)統(tǒng)計(jì)所有任務(wù)的平均進(jìn)度,如果某個(gè)任務(wù)所在的任務(wù)節(jié)點(diǎn)的機(jī)器配置比較低或者CPU負(fù)責(zé)很高(原因很多),導(dǎo)致任務(wù)執(zhí)行比總體任務(wù)的平均執(zhí)行要慢,此時(shí)作業(yè)追蹤器會(huì)啟動(dòng)一個(gè)新的任務(wù)來(lái)執(zhí)行相同的操作,原有任務(wù)和新任務(wù)哪個(gè)先執(zhí)行完就把另外一個(gè)停止掉。以下是推測(cè)執(zhí)行的兩個(gè)配置項(xiàng),它們默認(rèn)值是truemaPred.maP.tasks.sPeeulative.execution二truemaPred.reduce.tasks.sPeculative.execution二true2.4.4Hadoop工作流程HDFS和MapReduee配合的整個(gè)工作過(guò)程如下圖[4]151所示:
業(yè)的所有任務(wù),這些任務(wù)通常分散于不同的任務(wù)節(jié)點(diǎn)上,主節(jié)點(diǎn)監(jiān)控它們的執(zhí)行,重新執(zhí)行已經(jīng)失敗的任務(wù)。而任務(wù)節(jié)點(diǎn)僅負(fù)責(zé)執(zhí)行由主節(jié)點(diǎn)指派的任務(wù)。圖4典型的 HadoopCluster架構(gòu)圖Hadoop的客戶端提交作業(yè)(jar包/可執(zhí)行程序等)和配置信息給作業(yè)追蹤器,作業(yè)配置是由輸入/輸出的路徑、供映射函數(shù)和規(guī)約函數(shù)和作業(yè)的其他的參數(shù)等構(gòu)成。作業(yè)追蹤器通過(guò)心跳信息將配置等信息給任務(wù)節(jié)點(diǎn),同時(shí)調(diào)度任務(wù)并監(jiān)控
本文編號(hào):2955500
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2955500.html
最近更新
教材專著