改進型MapReduce框架的研究與設(shè)計
發(fā)布時間:2021-01-03 21:15
隨著云計算迎來了蓬勃的發(fā)展,Hadoop作為開源云計算平臺,得到了國內(nèi)外很多公司和高校的青睞。相應(yīng)的,作為Hadoop的子項目和分布式并行處理框架的MapReduce,目前基于它的應(yīng)用越來越多,特別是在大數(shù)據(jù)量處理方面,通過將應(yīng)用任務(wù)并行化,使應(yīng)用系統(tǒng)的處理性能有了很大的提升。但隨著應(yīng)用的廣泛性和多樣性,針對具體應(yīng)用,其暴露出來的不足和需要改進之處越來越多,Hadoop還沒有到達1.0版本。本文主要對MapReduce框架做以下幾方面的探討:(1)簡要介紹了并行計算、分布式計算、云計算三種計算模型的定義及其相關(guān)概念,通過分析總結(jié)出MapReduce框架是符合三種計算模型的。引入Hadoop和MapReduce框架處理流程和機制,為下文提出改進方案奠定基礎(chǔ)(2)通過剖析具體應(yīng)用以及深入分析框架處理流程和相關(guān)源代碼實現(xiàn),總結(jié)實際應(yīng)用中出現(xiàn)的一些影響執(zhí)行效率的問題,如數(shù)據(jù)傾斜問題、規(guī)約任務(wù)不均衡問題和規(guī)約調(diào)度問題等(3)提供了針對出現(xiàn)問題的改進方案,主要實現(xiàn)了針對中間結(jié)果進行切割的切分函數(shù)、啟動新規(guī)約任務(wù)的機制以及相應(yīng)的調(diào)度機制,給出了改進后的方案設(shè)計架構(gòu)和實現(xiàn)(4)經(jīng)過多次、不同級別數(shù)據(jù)量...
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
云計算的層次及服務(wù)
apReduce框架附帶了一個包含許多實用型的Mapper、Redueer和分區(qū)函數(shù)的類庫。推測式執(zhí)行方式所謂的推測執(zhí)行,就是當所有任務(wù)都開始運行之后,作業(yè)追蹤器(JobTracker)會統(tǒng)計所有任務(wù)的平均進度,如果某個任務(wù)所在的任務(wù)節(jié)點的機器配置比較低或者CPU負責(zé)很高(原因很多),導(dǎo)致任務(wù)執(zhí)行比總體任務(wù)的平均執(zhí)行要慢,此時作業(yè)追蹤器會啟動一個新的任務(wù)來執(zhí)行相同的操作,原有任務(wù)和新任務(wù)哪個先執(zhí)行完就把另外一個停止掉。以下是推測執(zhí)行的兩個配置項,它們默認值是truemaPred.maP.tasks.sPeeulative.execution二truemaPred.reduce.tasks.sPeculative.execution二true2.4.4Hadoop工作流程HDFS和MapReduee配合的整個工作過程如下圖[4]151所示:
業(yè)的所有任務(wù),這些任務(wù)通常分散于不同的任務(wù)節(jié)點上,主節(jié)點監(jiān)控它們的執(zhí)行,重新執(zhí)行已經(jīng)失敗的任務(wù)。而任務(wù)節(jié)點僅負責(zé)執(zhí)行由主節(jié)點指派的任務(wù)。圖4典型的 HadoopCluster架構(gòu)圖Hadoop的客戶端提交作業(yè)(jar包/可執(zhí)行程序等)和配置信息給作業(yè)追蹤器,作業(yè)配置是由輸入/輸出的路徑、供映射函數(shù)和規(guī)約函數(shù)和作業(yè)的其他的參數(shù)等構(gòu)成。作業(yè)追蹤器通過心跳信息將配置等信息給任務(wù)節(jié)點,同時調(diào)度任務(wù)并監(jiān)控
本文編號:2955500
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
云計算的層次及服務(wù)
apReduce框架附帶了一個包含許多實用型的Mapper、Redueer和分區(qū)函數(shù)的類庫。推測式執(zhí)行方式所謂的推測執(zhí)行,就是當所有任務(wù)都開始運行之后,作業(yè)追蹤器(JobTracker)會統(tǒng)計所有任務(wù)的平均進度,如果某個任務(wù)所在的任務(wù)節(jié)點的機器配置比較低或者CPU負責(zé)很高(原因很多),導(dǎo)致任務(wù)執(zhí)行比總體任務(wù)的平均執(zhí)行要慢,此時作業(yè)追蹤器會啟動一個新的任務(wù)來執(zhí)行相同的操作,原有任務(wù)和新任務(wù)哪個先執(zhí)行完就把另外一個停止掉。以下是推測執(zhí)行的兩個配置項,它們默認值是truemaPred.maP.tasks.sPeeulative.execution二truemaPred.reduce.tasks.sPeculative.execution二true2.4.4Hadoop工作流程HDFS和MapReduee配合的整個工作過程如下圖[4]151所示:
業(yè)的所有任務(wù),這些任務(wù)通常分散于不同的任務(wù)節(jié)點上,主節(jié)點監(jiān)控它們的執(zhí)行,重新執(zhí)行已經(jīng)失敗的任務(wù)。而任務(wù)節(jié)點僅負責(zé)執(zhí)行由主節(jié)點指派的任務(wù)。圖4典型的 HadoopCluster架構(gòu)圖Hadoop的客戶端提交作業(yè)(jar包/可執(zhí)行程序等)和配置信息給作業(yè)追蹤器,作業(yè)配置是由輸入/輸出的路徑、供映射函數(shù)和規(guī)約函數(shù)和作業(yè)的其他的參數(shù)等構(gòu)成。作業(yè)追蹤器通過心跳信息將配置等信息給任務(wù)節(jié)點,同時調(diào)度任務(wù)并監(jiān)控
本文編號:2955500
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2955500.html
最近更新
教材專著