天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

面向機(jī)器學(xué)習(xí)任務(wù)的集群調(diào)度系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2021-01-11 07:19
  隨著深度學(xué)習(xí)在圖像識(shí)別與分類、語言翻譯、風(fēng)格遷移、自然語言處理等領(lǐng)域的大量應(yīng)用與實(shí)踐,以深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)業(yè)務(wù)正快速在各類企業(yè)中大規(guī)模地落地。目前機(jī)器學(xué)習(xí)工作負(fù)載在大規(guī)模集群上運(yùn)行仍存在諸多問題:首先從資源層面,相較于傳統(tǒng)的工作負(fù)載,機(jī)器學(xué)習(xí)的模型訓(xùn)練任務(wù)在資源使用方面具有異構(gòu)性,同時(shí)對(duì)硬件資源又有極強(qiáng)的敏感性。其次在任務(wù)層面,機(jī)器學(xué)習(xí)任務(wù)的類別和優(yōu)先級(jí)相較于傳統(tǒng)的任務(wù)也更為復(fù)雜,需要考慮任務(wù)的后續(xù)訓(xùn)練時(shí)間、訓(xùn)練速度、分布式的架構(gòu)選擇等不同方面的因素。最后從高層業(yè)務(wù)角度,以自動(dòng)機(jī)器學(xué)習(xí)為代表的部分業(yè)務(wù)對(duì)資源的需求較大,容易造成資源的緊張。由于這些問題的存在,進(jìn)行機(jī)器學(xué)習(xí)業(yè)務(wù)的開發(fā)與運(yùn)維人員通常需要對(duì)集群進(jìn)行手動(dòng)的維護(hù)工作。現(xiàn)有的工作流一方面要求較高的人力成本,另一方面沒有辦法通過調(diào)度層面的優(yōu)化提高集群利用率,延長(zhǎng)了機(jī)器學(xué)習(xí)任務(wù)從數(shù)據(jù)準(zhǔn)備到模型訓(xùn)練再到模型發(fā)布與部署整個(gè)流程所需的時(shí)間。針對(duì)機(jī)器學(xué)習(xí)工作負(fù)載在集群上的特點(diǎn),本文提出了面向機(jī)器學(xué)習(xí)場(chǎng)景的集群調(diào)度與資源管理系統(tǒng),在保證集群上的硬件加速器資源的利用率的同時(shí),降低機(jī)器學(xué)習(xí)任務(wù)的訓(xùn)練時(shí)間,提高訓(xùn)練效率,同時(shí)支持基于多維度優(yōu)先級(jí)的... 

【文章來源】:上海交通大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:105 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

面向機(jī)器學(xué)習(xí)任務(wù)的集群調(diào)度系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)


–1機(jī)器學(xué)習(xí)平臺(tái)的不同組件

情況,機(jī)器學(xué)習(xí),資源


面向機(jī)器學(xué)習(xí)任務(wù)的集群調(diào)度系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)圖2–5某一時(shí)刻集群使用情況Figure2–5Clusterusageataspecifictimestamp圖2–6在線服務(wù)與集群其他服務(wù)的對(duì)比Figure2–6Comparisonbetweenonlineserviceandotherservicesinthecluster和內(nèi)存使用失衡的情況發(fā)生。除此之外,本課題根據(jù)集群任務(wù)的類型進(jìn)行了統(tǒng)計(jì),由圖2–6可知。以網(wǎng)絡(luò)服務(wù)為代表的在線業(yè)務(wù)通常呈現(xiàn)出占用資源多,同時(shí)波動(dòng)不明顯的特征。這也是由業(yè)務(wù)的性質(zhì)決定的。一般而言在線業(yè)務(wù)是長(zhǎng)時(shí)運(yùn)行的任務(wù),通常不會(huì)有頻繁的起停。而以批處理和機(jī)器學(xué)習(xí)模型訓(xùn)練任務(wù)為代表的離線任務(wù),通常具有任務(wù)起停頻繁,運(yùn)行時(shí)間短的特點(diǎn)。實(shí)驗(yàn)結(jié)果表明在線業(yè)務(wù)占用集群資源的大部分,而離線任務(wù)相較于在線業(yè)務(wù),請(qǐng)求量雖大但資源使用率低。2.2.3問題總結(jié)與分析本節(jié)主要介紹了研究的問題,通過對(duì)多個(gè)不同方面的論述,總結(jié)了目前機(jī)器學(xué)習(xí)業(yè)務(wù)在企業(yè)落地的一些問題:目前在大規(guī)模集群上針對(duì)機(jī)器學(xué)習(xí)工作負(fù)載的特點(diǎn)缺乏優(yōu)化。機(jī)器學(xué)習(xí)任務(wù)的執(zhí)行與硬件的水平密切相關(guān)。當(dāng)其使用GPU等硬件加速器資源進(jìn)行訓(xùn)練時(shí),網(wǎng)絡(luò)會(huì)成為瓶頸,而當(dāng)使用CPU資源進(jìn)行計(jì)算時(shí),計(jì)算資源是瓶頸所在。目前在企業(yè)落地機(jī)器學(xué)習(xí)時(shí)缺乏對(duì)其負(fù)載特點(diǎn)的優(yōu)化,經(jīng)常會(huì)遇到如圖2–7所示的調(diào)度結(jié)果,將同一機(jī)器學(xué)習(xí)任務(wù)的不同實(shí)例放置在不同機(jī)器,甚至不同機(jī)架的機(jī)器上,沒有充分利用硬件加速器資源的拓?fù)浣Y(jié)構(gòu)以及任務(wù)對(duì)網(wǎng)絡(luò)的親和性,影響機(jī)器學(xué)習(xí)訓(xùn)練的訓(xùn)練速度,使得硬件資源的利用率因?yàn)橛?xùn)練時(shí)間的延長(zhǎng)而被拉低,部分資源被更長(zhǎng)時(shí)間占用,進(jìn)而影響后續(xù)任務(wù)的執(zhí)行。—18—

面向機(jī)器學(xué)習(xí)任務(wù)的集群調(diào)度系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)


–6在線服務(wù)與集群其他服務(wù)的對(duì)比

【參考文獻(xiàn)】:
期刊論文
[1]基于Kubernetes的PaaS平臺(tái)研究與實(shí)踐[J]. 宗序梅,任彥輝.  江蘇通信. 2018(02)
[2]Angel: a new large-scale machine learning system[J]. Jie Jiang,Lele Yu,Jiawei Jiang,Yuhong Liu,Bin Cui.  National Science Review. 2018(02)
[3]平行學(xué)習(xí)—機(jī)器學(xué)習(xí)的一個(gè)新型理論框架[J]. 李力,林懿倫,曹東璞,鄭南寧,王飛躍.  自動(dòng)化學(xué)報(bào). 2017(01)
[4]深度學(xué)習(xí)研究進(jìn)展[J]. 劉建偉,劉媛,羅雄麟.  計(jì)算機(jī)應(yīng)用研究. 2014(07)

碩士論文
[1]基于異構(gòu)計(jì)算的CNN并行框架的設(shè)計(jì)與實(shí)現(xiàn)[D]. 彭玉炳.電子科技大學(xué) 2016



本文編號(hào):2970341

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2970341.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5dac0***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com