當(dāng)前位置：主頁 > 科技論文 > 計(jì)算機(jī)應(yīng)用論文 >

面向內(nèi)存計(jì)算的Spark性能優(yōu)化技術(shù)研究

發(fā)布時(shí)間：2021-01-05 00:58

　　大數(shù)據(jù)平臺Spark近年間已逐漸成為業(yè)界熱點(diǎn),其基于內(nèi)存計(jì)算的特性在機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等迭代式應(yīng)用場景中可以提供非�？斓娜蝿�(wù)運(yùn)行速度,現(xiàn)已被應(yīng)用于百度、美團(tuán)、騰訊和阿里巴巴等公司的業(yè)務(wù)中。最大的Spark集群擁有數(shù)千節(jié)點(diǎn)和TB級內(nèi)存,支持處理的數(shù)據(jù)量級高達(dá)PB級,然而集群節(jié)點(diǎn)之間因?yàn)榈赜虿町�、配置更新和集群擴(kuò)展等原因往往存在較高的異構(gòu)性,如何更好的利用集群中的資源來提高平臺性能現(xiàn)已成為當(dāng)前研究的熱門方向。本文針對Spark運(yùn)行過程中的任務(wù)調(diào)度與緩存替換兩個方面,對其性能優(yōu)化技術(shù)進(jìn)行深入的研究與改進(jìn),主要工作分為兩部分,即提出基于改進(jìn)量子蟻群算法的任務(wù)調(diào)度機(jī)制和提出基于RDD權(quán)重和雙隊(duì)列的緩存替換與預(yù)加載機(jī)制。下面將詳細(xì)介紹上述兩部分的研究工作:1.提出一種基于改進(jìn)量子蟻群算法的任務(wù)調(diào)度機(jī)制。針對Spark默認(rèn)任務(wù)調(diào)度機(jī)制導(dǎo)致高性能節(jié)點(diǎn)的硬件優(yōu)勢無法被充分利用,從而造成任務(wù)分配不均和內(nèi)存頻繁溢出的問題,首先,綜合考慮節(jié)點(diǎn)的硬件能力、當(dāng)前狀態(tài)和網(wǎng)絡(luò)傳輸速度,結(jié)合內(nèi)存溢出現(xiàn)象對任務(wù)完成時(shí)間造成的影響,從而設(shè)計(jì)一種異構(gòu)集群中的任務(wù)完成時(shí)間度量方法。然后在量子蟻群算法的基礎(chǔ)上進(jìn)行改進(jìn),通過最大最...

【文章來源】：重慶郵電大學(xué)重慶市

【文章頁數(shù)】：76 頁

【學(xué)位級別】：碩士

【部分圖文】：

隨數(shù)據(jù)文件大小變化的任務(wù)完成時(shí)間情況1并統(tǒng)計(jì)上述多次仿真實(shí)驗(yàn)中各算法的最優(yōu)解、最差解、采用最優(yōu)解和最差解之間的極差R來表示其波動性，以及其標(biāo)準(zhǔn)差σ來體現(xiàn)各算法解的穩(wěn)定性，如表

比較圖,迭代,情況,算法

重慶郵電大學(xué)碩士學(xué)位論文第3章基于量子蟻群算法的任務(wù)調(diào)度機(jī)制33從實(shí)驗(yàn)結(jié)果可以看出，本文提出的改進(jìn)量子蟻群算法與ACO和QACO算法相比，可以進(jìn)一步尋找更優(yōu)的分配方案，實(shí)現(xiàn)任務(wù)完成時(shí)間的優(yōu)化。從上述圖表中可以看出，無論是多次仿真結(jié)果的均值，還是其在多次仿真實(shí)驗(yàn)中取得的最優(yōu)解，本文提出的改進(jìn)量子蟻群算法在解方案的質(zhì)量上都略優(yōu)于ACO算法和QACO算法，在總體任務(wù)完成時(shí)間方面，本文提出的改進(jìn)量子蟻群算法相較于ACO算法縮短15.61%，相較于QACO算法縮短1.06%。取20次重復(fù)實(shí)驗(yàn)中各算法解的極差R和標(biāo)準(zhǔn)差進(jìn)行分析，可以發(fā)現(xiàn)在數(shù)據(jù)文件大小不同的情況下，本章提出的改進(jìn)量子蟻群算法上述兩項(xiàng)指標(biāo)都低于ACO算法和QACO算法，故改進(jìn)量子蟻群算法尋找到的解相較于ACO算法和QACO算法來說都較為穩(wěn)定，在最優(yōu)解附近波動的范圍校隨機(jī)選取一次仿真實(shí)驗(yàn)的過程，針對改進(jìn)量子蟻群算法、ACO算法、QACO算法的收斂過程，繪制包含其迭代輪次和對應(yīng)的最優(yōu)解值的比較圖，如圖3.4所示。其中圖3.4(a)包括全部1000次迭代輪次，而由于算法初期收斂速度較快，為了能更清晰地進(jìn)行展示，選取算法初期的前60輪迭代情況展示在圖3.4(b)。(a)(b)圖3.4隨著迭代輪次變化的收斂情況圖3.4描述了三種算法的當(dāng)前最優(yōu)解隨迭代次數(shù)增加而變化的趨勢，從圖中可以看出在算法初期，雖然ACO算法的收斂速度很快，但是一段時(shí)間之后該算法出現(xiàn)早熟現(xiàn)象，陷入停滯狀態(tài)并無法繼續(xù)進(jìn)行全局搜索，最終陷入局部最優(yōu)解。而本文提出的改進(jìn)量子蟻群算法由于采用災(zāi)變作為種群進(jìn)化后期的擾動因素，并對量子信息素概率幅上下限進(jìn)行了控制，從而一直保持種群進(jìn)行全局搜索的能力，使算法結(jié)果隨著迭代輪次的增加呈波動下降的趨勢，最終搜索到相較于ACO算法和QACO算法更優(yōu)的解。

柱狀圖,任務(wù)調(diào)度,數(shù)據(jù)文件,機(jī)制

重慶郵電大學(xué)碩士學(xué)位論文第3章基于量子蟻群算法的任務(wù)調(diào)度機(jī)制34再驗(yàn)證本章設(shè)計(jì)的基于改進(jìn)量子蟻群算法的任務(wù)調(diào)度機(jī)制Spark默認(rèn)任務(wù)調(diào)度機(jī)制、RBA算法[17]比較，在任務(wù)完成時(shí)間和內(nèi)存溢出次數(shù)上是否得到了優(yōu)化。針對不同大小的數(shù)據(jù)文件，采用和上述實(shí)驗(yàn)相同的方法，將本章提出的基于改進(jìn)量子蟻群算法的任務(wù)調(diào)度機(jī)制與Spark默認(rèn)任務(wù)調(diào)度機(jī)制、RBA算法進(jìn)行比較，仿真測試其任務(wù)完成時(shí)間。本章提出的量子蟻群算法取迭代輪次1000次，個體數(shù)為120，為了保證實(shí)驗(yàn)的公平性，每組實(shí)驗(yàn)執(zhí)行20次，取其平均值作為最終結(jié)果，繪制成柱狀圖如圖3.5所示。圖3.5隨數(shù)據(jù)文件大小變化的任務(wù)完成時(shí)間情況2從實(shí)驗(yàn)結(jié)果可以看出，本章提出的基于改進(jìn)量子蟻群算法的任務(wù)調(diào)度機(jī)制，能夠有效減少任務(wù)完成時(shí)間，在相同的數(shù)據(jù)文件大小下與Spark默認(rèn)任務(wù)調(diào)度機(jī)制和RBA算法相比在任務(wù)完成時(shí)間上更有優(yōu)勢，與Spark默認(rèn)任務(wù)調(diào)度機(jī)制相比平均可以減少21.2%，與現(xiàn)有的RBA算法相比平均減少10.9%。當(dāng)任務(wù)數(shù)據(jù)文件大小在0.5G左右時(shí)，本章機(jī)制較Spark默認(rèn)任務(wù)調(diào)度機(jī)制在任務(wù)完成時(shí)間上僅減少14.5%，而當(dāng)任務(wù)數(shù)據(jù)文件大小增加到2G時(shí)，可以減少26.3%的任務(wù)完成時(shí)間。所以，隨著任務(wù)數(shù)據(jù)文件大小的增加，Spark默認(rèn)任務(wù)調(diào)度機(jī)制的任務(wù)完成時(shí)間增加顯著，是由于當(dāng)任務(wù)數(shù)據(jù)文件較大時(shí)數(shù)據(jù)在不同節(jié)點(diǎn)上分布的不均衡性更加明顯，而本章所提出的基于改進(jìn)量子蟻群算法的任務(wù)調(diào)度機(jī)制的任務(wù)完成時(shí)間并未大幅度增加。綜上所述，本章提出的基于改進(jìn)量子蟻群算法的任務(wù)調(diào)度機(jī)制綜合

本文編號：2957698

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/2957698.html

上一篇：基于自適應(yīng)分割算法與遷移學(xué)習(xí)的棉桃識別方法研究
下一篇：車聯(lián)網(wǎng)中基于MEC的V2X卸載與資源分配

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向內(nèi)存計(jì)算的Spark性能優(yōu)化技術(shù)研究