面向高性能計算平臺的Hadoop框架研究及優(yōu)化
發(fā)布時間:2017-11-20 17:19
本文關鍵詞:面向高性能計算平臺的Hadoop框架研究及優(yōu)化
更多相關文章: Map Reduce 高性能計算 多層存儲架構 Hadoop
【摘要】:隨著信息化時代的發(fā)展,各種各樣的數(shù)據(jù)隨之而來,數(shù)據(jù)結構多樣化以及數(shù)據(jù)規(guī)模對相關技術提出了巨大挑戰(zhàn)。對于處理大數(shù)據(jù)的許多應用,MapReduce編程框架的優(yōu)勢很明顯,在谷歌、阿里巴巴等國內(nèi)外著名互聯(lián)網(wǎng)公司得到很好的應用。目前高性能計算機的性能不斷提高,在生物、天體物理學等領域得到廣泛應用。因此,能否充分利用現(xiàn)有的高性能計算平臺并在其上高效部署和使用MapReduce編程框架成為了人們關注的熱點研究問題。本文在高性能計算機上成功部署MapReduce編程框架的基礎上,分析其在I/O過程以及任務調(diào)度中存在的問題,對存在的問題深入剖析,并提出優(yōu)化方法。本文的研究工作主要包括以下幾個方面。(1)研究了面向高性能計算平臺的Hadoop框架涉及的理論和技術,對MapReduce編程模型以及主要I/O過程進行深入的分析。MapReduce編程模型直接部署在高性能計算機上,會產(chǎn)生兼容性、數(shù)據(jù)本地化優(yōu)勢減少和I/O競爭加劇等問題。目前該課題研究主要集中在對中間數(shù)據(jù)網(wǎng)絡傳輸和存儲方式的優(yōu)化,取得了一定的效果。本文結合目前研究成果,對任務調(diào)度和存儲資源管理等方面進行進一步優(yōu)化。(2)對于面向?qū)ο蟠鎯ο到y(tǒng)高性能計算機的Hadoop平臺,提出一種基于節(jié)點網(wǎng)絡內(nèi)存的shuffle過程優(yōu)化策略,并設計了任務調(diào)度和文件系統(tǒng)兩個層次的實現(xiàn)方法。同時針對共享文件系統(tǒng)處理中間數(shù)據(jù)和臨時數(shù)據(jù)的I/O效率問題,提出了一種基于均衡調(diào)度的高性能計算平臺的Hadoop框架I/O優(yōu)化方法。通過分析各存儲節(jié)點的I/O負載信息,實時選擇存儲目標,從而實現(xiàn)存儲系統(tǒng)的動態(tài)負載均衡。(3)對于面向多層存儲架構高性能計算機的Hadoop平臺,提出了一種I/O加速節(jié)點多分組的任務調(diào)度方法,利用節(jié)點對應不同reduce任務中間結果量優(yōu)化調(diào)度策略。對于多作業(yè)的情況,提出了基于存儲服務隔離的I/O服務質(zhì)量維護方法,為高優(yōu)先級的作業(yè)提供獨立存儲服務,保證存儲服務質(zhì)量。(4)在對象存儲系統(tǒng)高性能計算機和多層存儲架構高性能計算機的模擬實驗環(huán)境中分別對上述幾類優(yōu)化方法進行實驗驗證。通過與現(xiàn)有方法進行對比,驗證優(yōu)化方法的效果,并對實驗結果進行深入分析。
【學位授予單位】:國防科學技術大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP38
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李春艷;張學杰;;基于高性能計算的開源云平臺性能評估[J];計算機應用;2013年12期
2 亓開元;韓燕波;趙卓峰;房俊;;支持高并發(fā)數(shù)據(jù)流處理的MapReduce中間結果緩存[J];計算機研究與發(fā)展;2013年01期
3 黃,
本文編號:1207929
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1207929.html
最近更新
教材專著