Spark性能建模系統(tǒng)的設(shè)計與實現(xiàn)
發(fā)布時間:2021-06-11 13:16
隨著云計算、移動計算等技術(shù)的快速發(fā)展和廣泛應(yīng)用,互聯(lián)網(wǎng)所產(chǎn)生的數(shù)據(jù)量正在以指數(shù)級的速度增長。面對海量數(shù)據(jù)的處理和挖掘需求,業(yè)界逐漸發(fā)展出了眾多大數(shù)據(jù)處理技術(shù)及相關(guān)開發(fā)框架。為了應(yīng)對不同的使用場景,Spark大數(shù)據(jù)處理框架提供了上百個配置項。由于Spark的配置參數(shù)對應(yīng)用的運行性能有著顯著的影響,因此對Spark配置進行調(diào)優(yōu)是一項十分必要的工作。為了提高Spark框架的運行效率,國內(nèi)外研究者在多個方向做出了努力。其中自動化配置參數(shù)優(yōu)化方法的研究尚處于探索階段,F(xiàn)有的自動化優(yōu)化方法對成本的考慮較為不足,難以應(yīng)用于實際工作場景,而且其優(yōu)化效果也有著較大的提升空間。針對上述問題,本文給出一種基于機器學(xué)習(xí)的性能建模的方法,預(yù)測目標應(yīng)用在不同的配置參數(shù)下的執(zhí)行時間,并在此基礎(chǔ)上實現(xiàn)配置參數(shù)的優(yōu)化任務(wù)。該方法的主要思路為:建立應(yīng)用與模型數(shù)據(jù)庫,保存多種應(yīng)用信息及其機器學(xué)習(xí)模型;對于需要預(yù)測在各種配置下執(zhí)行時間的目標應(yīng)用,首先從數(shù)據(jù)庫中查找并提取關(guān)鍵信息,用以指導(dǎo)目標應(yīng)用樣本數(shù)據(jù)的獲取;隨后基于機器學(xué)習(xí)算法對樣本數(shù)據(jù)進行訓(xùn)練以構(gòu)建目標應(yīng)用的性能預(yù)測模型。本文的主要工作包括:(1)應(yīng)用執(zhí)行狀態(tài)監(jiān)控。將目...
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【部分圖文】:
集群模式下Spark架構(gòu)圖
訓(xùn)練與應(yīng)用的工作流,并實現(xiàn)一定程度的自動化,使得整個系統(tǒng)可以在沒有或很少人工介入的情況下實現(xiàn)持續(xù)運行。圖3.1 系統(tǒng)組織結(jié)構(gòu)圖如圖 3.1 所示,通過對分布式數(shù)據(jù)計算框架優(yōu)化系統(tǒng)的架構(gòu)和現(xiàn)有研究基礎(chǔ)的分析,可以發(fā)現(xiàn)系統(tǒng)主體結(jié)構(gòu)可以分為集群與應(yīng)用程序的狀態(tài)監(jiān)控、歷史運行數(shù)據(jù)的存儲與管理、應(yīng)用負載的自動化性能調(diào)優(yōu)、統(tǒng)一管理平臺等四個部分。接下來將對這四個主要部分進行詳細說明。
應(yīng)用在運行時的 Stage 劃分情況、各階段占用的資源等上文討論的采集提取數(shù)值,配置參數(shù)集合 相關(guān)特征包括各個關(guān)鍵配置項進行篩選與轉(zhuǎn)換之后的結(jié)果。圖3.2 性能建模方法設(shè)計如圖 3.2 所示,本文設(shè)計的性能建模部分由應(yīng)用運行環(huán)境控制、運行時數(shù)據(jù)采集與提取、模型樣本數(shù)據(jù)庫、可轉(zhuǎn)移知識提取、復(fù)合模型構(gòu)建等模塊組成。對于給定的一個目標應(yīng)用,首先需要獲取其相關(guān)應(yīng)用特征,為此需要運行該目標應(yīng)用負載獲取其運行時數(shù)據(jù)記錄,并從中提取出描述應(yīng)用特性的關(guān)鍵數(shù)據(jù)集合。由于是基于機器學(xué)習(xí)的建模方法,為了使機器學(xué)習(xí)訓(xùn)練樣本覆蓋盡可能大的特征空間,需要選出對最終結(jié)果影響程度更大的配置參數(shù)集合。通過使用應(yīng)用相關(guān)特征進行應(yīng)用相
【參考文獻】:
期刊論文
[1]基于運行數(shù)據(jù)分析的Spark任務(wù)參數(shù)優(yōu)化[J]. 陳僑安,李峰,曹越,龍明盛. 計算機工程與科學(xué). 2016(01)
[2]大規(guī)模圖數(shù)據(jù)匹配技術(shù)綜述[J]. 于靜,劉燕兵,張宇,劉夢雅,譚建龍,郭莉. 計算機研究與發(fā)展. 2015(02)
[3]云計算及其關(guān)鍵技術(shù)[J]. 陳全,鄧倩妮. 計算機應(yīng)用. 2009(09)
本文編號:3224607
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【部分圖文】:
集群模式下Spark架構(gòu)圖
訓(xùn)練與應(yīng)用的工作流,并實現(xiàn)一定程度的自動化,使得整個系統(tǒng)可以在沒有或很少人工介入的情況下實現(xiàn)持續(xù)運行。圖3.1 系統(tǒng)組織結(jié)構(gòu)圖如圖 3.1 所示,通過對分布式數(shù)據(jù)計算框架優(yōu)化系統(tǒng)的架構(gòu)和現(xiàn)有研究基礎(chǔ)的分析,可以發(fā)現(xiàn)系統(tǒng)主體結(jié)構(gòu)可以分為集群與應(yīng)用程序的狀態(tài)監(jiān)控、歷史運行數(shù)據(jù)的存儲與管理、應(yīng)用負載的自動化性能調(diào)優(yōu)、統(tǒng)一管理平臺等四個部分。接下來將對這四個主要部分進行詳細說明。
應(yīng)用在運行時的 Stage 劃分情況、各階段占用的資源等上文討論的采集提取數(shù)值,配置參數(shù)集合 相關(guān)特征包括各個關(guān)鍵配置項進行篩選與轉(zhuǎn)換之后的結(jié)果。圖3.2 性能建模方法設(shè)計如圖 3.2 所示,本文設(shè)計的性能建模部分由應(yīng)用運行環(huán)境控制、運行時數(shù)據(jù)采集與提取、模型樣本數(shù)據(jù)庫、可轉(zhuǎn)移知識提取、復(fù)合模型構(gòu)建等模塊組成。對于給定的一個目標應(yīng)用,首先需要獲取其相關(guān)應(yīng)用特征,為此需要運行該目標應(yīng)用負載獲取其運行時數(shù)據(jù)記錄,并從中提取出描述應(yīng)用特性的關(guān)鍵數(shù)據(jù)集合。由于是基于機器學(xué)習(xí)的建模方法,為了使機器學(xué)習(xí)訓(xùn)練樣本覆蓋盡可能大的特征空間,需要選出對最終結(jié)果影響程度更大的配置參數(shù)集合。通過使用應(yīng)用相關(guān)特征進行應(yīng)用相
【參考文獻】:
期刊論文
[1]基于運行數(shù)據(jù)分析的Spark任務(wù)參數(shù)優(yōu)化[J]. 陳僑安,李峰,曹越,龍明盛. 計算機工程與科學(xué). 2016(01)
[2]大規(guī)模圖數(shù)據(jù)匹配技術(shù)綜述[J]. 于靜,劉燕兵,張宇,劉夢雅,譚建龍,郭莉. 計算機研究與發(fā)展. 2015(02)
[3]云計算及其關(guān)鍵技術(shù)[J]. 陳全,鄧倩妮. 計算機應(yīng)用. 2009(09)
本文編號:3224607
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3224607.html
最近更新
教材專著