基于MapReduce的科學(xué)計(jì)算應(yīng)用性能分析與優(yōu)化
發(fā)布時(shí)間:2020-05-17 01:27
【摘要】: Google設(shè)計(jì)提出的MapReduce并行編程模型有效地把并行程序的編寫者從一些瑣碎的編程困難中解放出來。程序員無需為并行程序的任務(wù)調(diào)度、資源管理以及容錯(cuò)性方面花費(fèi)過多的精力。如今此模型被廣泛地運(yùn)用于眾多海量數(shù)據(jù)并行處理應(yīng)用中。由于此框架把并行應(yīng)用的編寫者從并行處理、容錯(cuò)處理以及節(jié)點(diǎn)負(fù)載平衡此類繁瑣工作中解放出來,它極大的提高了集群中并行數(shù)據(jù)處理程序開發(fā)的效率 科學(xué)計(jì)算應(yīng)用,作為一類具有實(shí)用意義的應(yīng)用一直沒有能夠移植于這個(gè)成功的MapReduce平臺(tái)上。本文選取SPLASH-2測試集中兩個(gè)具有代表意義的科學(xué)計(jì)算應(yīng)用Water和基數(shù)排序進(jìn)行研究,把它們移植到兩個(gè)開源的MapReduce框架Hadoop和Phoenix上,分別部署于集群環(huán)境和多核平臺(tái)。通過這樣來分析MapReduce平臺(tái)上運(yùn)行此類應(yīng)用時(shí)遇到的性能瓶頸,找出其對(duì)應(yīng)的框架設(shè)計(jì)問題。為兩個(gè)不同平臺(tái)上的實(shí)現(xiàn),尤其為集群平臺(tái)上的,更做了許多具有針對(duì)型的測試和分析。 從實(shí)驗(yàn)的結(jié)果中我們發(fā)現(xiàn),在多核平臺(tái)上,內(nèi)存空間限制了應(yīng)用的規(guī)模。而集群上,由于框架設(shè)計(jì)的原則和科學(xué)計(jì)算應(yīng)用的行為特征不符合,缺乏底層存儲(chǔ)系統(tǒng)的支持,導(dǎo)致了在數(shù)據(jù)變型、傳輸方面帶來了額外的運(yùn)行開銷,從而使得運(yùn)行整體時(shí)間大大拉長。當(dāng)輸入數(shù)據(jù)量增長時(shí),運(yùn)行速度急劇下降。原有的MapReduce接口也不能直觀的運(yùn)用于開發(fā)此類應(yīng)用,在這些應(yīng)用移植到MapReduce過程中給程序員帶來了額外的工作量。 本文針對(duì)以上問題,提出一套可行的優(yōu)化方案。針對(duì)MapReduce框架,本文提出要增加編程接口類型,以支持科學(xué)計(jì)算的需求。同時(shí)為了避免多個(gè)迭代中的數(shù)據(jù)冗余傳輸,要在調(diào)度過程中注意,盡量分配處理相同數(shù)據(jù)的任務(wù)到同一個(gè)計(jì)算節(jié)點(diǎn)。而在集群MapReduce實(shí)現(xiàn)方面,底層通用的文件系統(tǒng)無法適應(yīng)科學(xué)計(jì)算應(yīng)用的需要,應(yīng)該增加對(duì)特殊數(shù)據(jù)結(jié)構(gòu)的底層支持。通過這些優(yōu)化措施,能夠使得科學(xué)計(jì)算應(yīng)用高效地運(yùn)行于MapReduce這個(gè)廣泛被接受的分布式平臺(tái)之上。
【學(xué)位授予單位】:復(fù)旦大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2010
【分類號(hào)】:TP338.6
本文編號(hào):2667686
【學(xué)位授予單位】:復(fù)旦大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2010
【分類號(hào)】:TP338.6
【引證文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前3條
1 薛正元;基于云計(jì)算技術(shù)的郵件過濾機(jī)制研究與實(shí)現(xiàn)[D];鄭州大學(xué);2012年
2 付天新;基于MapReduce模型的生態(tài)遙感參數(shù)反演并行化方法與實(shí)現(xiàn)[D];蘭州交通大學(xué);2012年
3 曹旭;Hadoop平臺(tái)下海量日志數(shù)據(jù)處理模型的研究及改進(jìn)[D];浙江理工大學(xué);2013年
,本文編號(hào):2667686
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2667686.html
最近更新
教材專著