面向內(nèi)存計(jì)算的Spark性能優(yōu)化技術(shù)研究
發(fā)布時間:2021-01-05 00:58
大數(shù)據(jù)平臺Spark近年間已逐漸成為業(yè)界熱點(diǎn),其基于內(nèi)存計(jì)算的特性在機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等迭代式應(yīng)用場景中可以提供非?斓娜蝿(wù)運(yùn)行速度,現(xiàn)已被應(yīng)用于百度、美團(tuán)、騰訊和阿里巴巴等公司的業(yè)務(wù)中。最大的Spark集群擁有數(shù)千節(jié)點(diǎn)和TB級內(nèi)存,支持處理的數(shù)據(jù)量級高達(dá)PB級,然而集群節(jié)點(diǎn)之間因?yàn)榈赜虿町、配置更新和集群擴(kuò)展等原因往往存在較高的異構(gòu)性,如何更好的利用集群中的資源來提高平臺性能現(xiàn)已成為當(dāng)前研究的熱門方向。本文針對Spark運(yùn)行過程中的任務(wù)調(diào)度與緩存替換兩個方面,對其性能優(yōu)化技術(shù)進(jìn)行深入的研究與改進(jìn),主要工作分為兩部分,即提出基于改進(jìn)量子蟻群算法的任務(wù)調(diào)度機(jī)制和提出基于RDD權(quán)重和雙隊(duì)列的緩存替換與預(yù)加載機(jī)制。下面將詳細(xì)介紹上述兩部分的研究工作:1.提出一種基于改進(jìn)量子蟻群算法的任務(wù)調(diào)度機(jī)制。針對Spark默認(rèn)任務(wù)調(diào)度機(jī)制導(dǎo)致高性能節(jié)點(diǎn)的硬件優(yōu)勢無法被充分利用,從而造成任務(wù)分配不均和內(nèi)存頻繁溢出的問題,首先,綜合考慮節(jié)點(diǎn)的硬件能力、當(dāng)前狀態(tài)和網(wǎng)絡(luò)傳輸速度,結(jié)合內(nèi)存溢出現(xiàn)象對任務(wù)完成時間造成的影響,從而設(shè)計(jì)一種異構(gòu)集群中的任務(wù)完成時間度量方法。然后在量子蟻群算法的基礎(chǔ)上進(jìn)行改進(jìn),通過最大最...
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:76 頁
【學(xué)位級別】:碩士
【部分圖文】:
隨數(shù)據(jù)文件大小變化的任務(wù)完成時間情況1并統(tǒng)計(jì)上述多次仿真實(shí)驗(yàn)中各算法的最優(yōu)解、最差解、采用最優(yōu)解和最差解之間的極差R來表示其波動性,以及其標(biāo)準(zhǔn)差σ來體現(xiàn)各算法解的穩(wěn)定性,如表
重慶郵電大學(xué)碩士學(xué)位論文第3章基于量子蟻群算法的任務(wù)調(diào)度機(jī)制33從實(shí)驗(yàn)結(jié)果可以看出,本文提出的改進(jìn)量子蟻群算法與ACO和QACO算法相比,可以進(jìn)一步尋找更優(yōu)的分配方案,實(shí)現(xiàn)任務(wù)完成時間的優(yōu)化。從上述圖表中可以看出,無論是多次仿真結(jié)果的均值,還是其在多次仿真實(shí)驗(yàn)中取得的最優(yōu)解,本文提出的改進(jìn)量子蟻群算法在解方案的質(zhì)量上都略優(yōu)于ACO算法和QACO算法,在總體任務(wù)完成時間方面,本文提出的改進(jìn)量子蟻群算法相較于ACO算法縮短15.61%,相較于QACO算法縮短1.06%。取20次重復(fù)實(shí)驗(yàn)中各算法解的極差R和標(biāo)準(zhǔn)差進(jìn)行分析,可以發(fā)現(xiàn)在數(shù)據(jù)文件大小不同的情況下,本章提出的改進(jìn)量子蟻群算法上述兩項(xiàng)指標(biāo)都低于ACO算法和QACO算法,故改進(jìn)量子蟻群算法尋找到的解相較于ACO算法和QACO算法來說都較為穩(wěn)定,在最優(yōu)解附近波動的范圍校隨機(jī)選取一次仿真實(shí)驗(yàn)的過程,針對改進(jìn)量子蟻群算法、ACO算法、QACO算法的收斂過程,繪制包含其迭代輪次和對應(yīng)的最優(yōu)解值的比較圖,如圖3.4所示。其中圖3.4(a)包括全部1000次迭代輪次,而由于算法初期收斂速度較快,為了能更清晰地進(jìn)行展示,選取算法初期的前60輪迭代情況展示在圖3.4(b)。(a)(b)圖3.4隨著迭代輪次變化的收斂情況圖3.4描述了三種算法的當(dāng)前最優(yōu)解隨迭代次數(shù)增加而變化的趨勢,從圖中可以看出在算法初期,雖然ACO算法的收斂速度很快,但是一段時間之后該算法出現(xiàn)早熟現(xiàn)象,陷入停滯狀態(tài)并無法繼續(xù)進(jìn)行全局搜索,最終陷入局部最優(yōu)解。而本文提出的改進(jìn)量子蟻群算法由于采用災(zāi)變作為種群進(jìn)化后期的擾動因素,并對量子信息素概率幅上下限進(jìn)行了控制,從而一直保持種群進(jìn)行全局搜索的能力,使算法結(jié)果隨著迭代輪次的增加呈波動下降的趨勢,最終搜索到相較于ACO算法和QACO算法更優(yōu)的解。
重慶郵電大學(xué)碩士學(xué)位論文第3章基于量子蟻群算法的任務(wù)調(diào)度機(jī)制34再驗(yàn)證本章設(shè)計(jì)的基于改進(jìn)量子蟻群算法的任務(wù)調(diào)度機(jī)制Spark默認(rèn)任務(wù)調(diào)度機(jī)制、RBA算法[17]比較,在任務(wù)完成時間和內(nèi)存溢出次數(shù)上是否得到了優(yōu)化。針對不同大小的數(shù)據(jù)文件,采用和上述實(shí)驗(yàn)相同的方法,將本章提出的基于改進(jìn)量子蟻群算法的任務(wù)調(diào)度機(jī)制與Spark默認(rèn)任務(wù)調(diào)度機(jī)制、RBA算法進(jìn)行比較,仿真測試其任務(wù)完成時間。本章提出的量子蟻群算法取迭代輪次1000次,個體數(shù)為120,為了保證實(shí)驗(yàn)的公平性,每組實(shí)驗(yàn)執(zhí)行20次,取其平均值作為最終結(jié)果,繪制成柱狀圖如圖3.5所示。圖3.5隨數(shù)據(jù)文件大小變化的任務(wù)完成時間情況2從實(shí)驗(yàn)結(jié)果可以看出,本章提出的基于改進(jìn)量子蟻群算法的任務(wù)調(diào)度機(jī)制,能夠有效減少任務(wù)完成時間,在相同的數(shù)據(jù)文件大小下與Spark默認(rèn)任務(wù)調(diào)度機(jī)制和RBA算法相比在任務(wù)完成時間上更有優(yōu)勢,與Spark默認(rèn)任務(wù)調(diào)度機(jī)制相比平均可以減少21.2%,與現(xiàn)有的RBA算法相比平均減少10.9%。當(dāng)任務(wù)數(shù)據(jù)文件大小在0.5G左右時,本章機(jī)制較Spark默認(rèn)任務(wù)調(diào)度機(jī)制在任務(wù)完成時間上僅減少14.5%,而當(dāng)任務(wù)數(shù)據(jù)文件大小增加到2G時,可以減少26.3%的任務(wù)完成時間。所以,隨著任務(wù)數(shù)據(jù)文件大小的增加,Spark默認(rèn)任務(wù)調(diào)度機(jī)制的任務(wù)完成時間增加顯著,是由于當(dāng)任務(wù)數(shù)據(jù)文件較大時數(shù)據(jù)在不同節(jié)點(diǎn)上分布的不均衡性更加明顯,而本章所提出的基于改進(jìn)量子蟻群算法的任務(wù)調(diào)度機(jī)制的任務(wù)完成時間并未大幅度增加。綜上所述,本章提出的基于改進(jìn)量子蟻群算法的任務(wù)調(diào)度機(jī)制綜合
本文編號:2957698
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:76 頁
【學(xué)位級別】:碩士
【部分圖文】:
隨數(shù)據(jù)文件大小變化的任務(wù)完成時間情況1并統(tǒng)計(jì)上述多次仿真實(shí)驗(yàn)中各算法的最優(yōu)解、最差解、采用最優(yōu)解和最差解之間的極差R來表示其波動性,以及其標(biāo)準(zhǔn)差σ來體現(xiàn)各算法解的穩(wěn)定性,如表
重慶郵電大學(xué)碩士學(xué)位論文第3章基于量子蟻群算法的任務(wù)調(diào)度機(jī)制33從實(shí)驗(yàn)結(jié)果可以看出,本文提出的改進(jìn)量子蟻群算法與ACO和QACO算法相比,可以進(jìn)一步尋找更優(yōu)的分配方案,實(shí)現(xiàn)任務(wù)完成時間的優(yōu)化。從上述圖表中可以看出,無論是多次仿真結(jié)果的均值,還是其在多次仿真實(shí)驗(yàn)中取得的最優(yōu)解,本文提出的改進(jìn)量子蟻群算法在解方案的質(zhì)量上都略優(yōu)于ACO算法和QACO算法,在總體任務(wù)完成時間方面,本文提出的改進(jìn)量子蟻群算法相較于ACO算法縮短15.61%,相較于QACO算法縮短1.06%。取20次重復(fù)實(shí)驗(yàn)中各算法解的極差R和標(biāo)準(zhǔn)差進(jìn)行分析,可以發(fā)現(xiàn)在數(shù)據(jù)文件大小不同的情況下,本章提出的改進(jìn)量子蟻群算法上述兩項(xiàng)指標(biāo)都低于ACO算法和QACO算法,故改進(jìn)量子蟻群算法尋找到的解相較于ACO算法和QACO算法來說都較為穩(wěn)定,在最優(yōu)解附近波動的范圍校隨機(jī)選取一次仿真實(shí)驗(yàn)的過程,針對改進(jìn)量子蟻群算法、ACO算法、QACO算法的收斂過程,繪制包含其迭代輪次和對應(yīng)的最優(yōu)解值的比較圖,如圖3.4所示。其中圖3.4(a)包括全部1000次迭代輪次,而由于算法初期收斂速度較快,為了能更清晰地進(jìn)行展示,選取算法初期的前60輪迭代情況展示在圖3.4(b)。(a)(b)圖3.4隨著迭代輪次變化的收斂情況圖3.4描述了三種算法的當(dāng)前最優(yōu)解隨迭代次數(shù)增加而變化的趨勢,從圖中可以看出在算法初期,雖然ACO算法的收斂速度很快,但是一段時間之后該算法出現(xiàn)早熟現(xiàn)象,陷入停滯狀態(tài)并無法繼續(xù)進(jìn)行全局搜索,最終陷入局部最優(yōu)解。而本文提出的改進(jìn)量子蟻群算法由于采用災(zāi)變作為種群進(jìn)化后期的擾動因素,并對量子信息素概率幅上下限進(jìn)行了控制,從而一直保持種群進(jìn)行全局搜索的能力,使算法結(jié)果隨著迭代輪次的增加呈波動下降的趨勢,最終搜索到相較于ACO算法和QACO算法更優(yōu)的解。
重慶郵電大學(xué)碩士學(xué)位論文第3章基于量子蟻群算法的任務(wù)調(diào)度機(jī)制34再驗(yàn)證本章設(shè)計(jì)的基于改進(jìn)量子蟻群算法的任務(wù)調(diào)度機(jī)制Spark默認(rèn)任務(wù)調(diào)度機(jī)制、RBA算法[17]比較,在任務(wù)完成時間和內(nèi)存溢出次數(shù)上是否得到了優(yōu)化。針對不同大小的數(shù)據(jù)文件,采用和上述實(shí)驗(yàn)相同的方法,將本章提出的基于改進(jìn)量子蟻群算法的任務(wù)調(diào)度機(jī)制與Spark默認(rèn)任務(wù)調(diào)度機(jī)制、RBA算法進(jìn)行比較,仿真測試其任務(wù)完成時間。本章提出的量子蟻群算法取迭代輪次1000次,個體數(shù)為120,為了保證實(shí)驗(yàn)的公平性,每組實(shí)驗(yàn)執(zhí)行20次,取其平均值作為最終結(jié)果,繪制成柱狀圖如圖3.5所示。圖3.5隨數(shù)據(jù)文件大小變化的任務(wù)完成時間情況2從實(shí)驗(yàn)結(jié)果可以看出,本章提出的基于改進(jìn)量子蟻群算法的任務(wù)調(diào)度機(jī)制,能夠有效減少任務(wù)完成時間,在相同的數(shù)據(jù)文件大小下與Spark默認(rèn)任務(wù)調(diào)度機(jī)制和RBA算法相比在任務(wù)完成時間上更有優(yōu)勢,與Spark默認(rèn)任務(wù)調(diào)度機(jī)制相比平均可以減少21.2%,與現(xiàn)有的RBA算法相比平均減少10.9%。當(dāng)任務(wù)數(shù)據(jù)文件大小在0.5G左右時,本章機(jī)制較Spark默認(rèn)任務(wù)調(diào)度機(jī)制在任務(wù)完成時間上僅減少14.5%,而當(dāng)任務(wù)數(shù)據(jù)文件大小增加到2G時,可以減少26.3%的任務(wù)完成時間。所以,隨著任務(wù)數(shù)據(jù)文件大小的增加,Spark默認(rèn)任務(wù)調(diào)度機(jī)制的任務(wù)完成時間增加顯著,是由于當(dāng)任務(wù)數(shù)據(jù)文件較大時數(shù)據(jù)在不同節(jié)點(diǎn)上分布的不均衡性更加明顯,而本章所提出的基于改進(jìn)量子蟻群算法的任務(wù)調(diào)度機(jī)制的任務(wù)完成時間并未大幅度增加。綜上所述,本章提出的基于改進(jìn)量子蟻群算法的任務(wù)調(diào)度機(jī)制綜合
本文編號:2957698
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2957698.html
最近更新
教材專著