基于Spark的分布式深度學(xué)習(xí)系統(tǒng)的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2024-01-17 15:13
近年來(lái)隨著大數(shù)據(jù)的到來(lái)與人工智能特別是深度學(xué)習(xí)的迅速發(fā)展,深度神經(jīng)網(wǎng)絡(luò)模型在諸多領(lǐng)域都取得突破性的進(jìn)展并得到了廣泛應(yīng)用,包括語(yǔ)音識(shí)別、圖像識(shí)別以及自然語(yǔ)言處理等。深度學(xué)習(xí)通過(guò)不斷的求導(dǎo)迭代更新模型來(lái)提高自己的能力,需要大量的計(jì)算,是典型的計(jì)算密集型任務(wù),因此這些神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程非常耗時(shí)。盡管近些年GPU(圖形處理器)的硬件技術(shù)、輕量級(jí)網(wǎng)絡(luò)模型和以及高效訓(xùn)練方法的研究取得了諸多的進(jìn)展,但是單機(jī)訓(xùn)練耗時(shí)依然過(guò)長(zhǎng)。其次,深度學(xué)習(xí)要求很大的模型與大量的訓(xùn)練數(shù)據(jù),同時(shí)研究表明數(shù)據(jù)規(guī)模與神經(jīng)網(wǎng)絡(luò)的性能成線性增長(zhǎng)關(guān)系,未來(lái)訓(xùn)練數(shù)據(jù)會(huì)達(dá)到PB、ZB級(jí)。隨著數(shù)據(jù)與模型參數(shù)量的越來(lái)越大,單機(jī)的內(nèi)存(或顯存)的增長(zhǎng)速度并不能與之相匹配。由此,單節(jié)點(diǎn)進(jìn)行深度學(xué)習(xí)訓(xùn)練已經(jīng)無(wú)法滿(mǎn)足要求。分布式由于其良好的靈活性與可擴(kuò)展性,可將單機(jī)資源有效的結(jié)合起來(lái),分布式深度學(xué)習(xí)成為解決該問(wèn)題的有效手段。首先,為了在上述背景下,本文創(chuàng)新性的基于Spark與Pytorch提出了一種基于數(shù)據(jù)并行策略的分布式深度學(xué)習(xí)方法與系統(tǒng)Dpplee3。系統(tǒng)采用參數(shù)服務(wù)器架構(gòu),利用Spark進(jìn)行分布式集群資源管理,同時(shí)完成數(shù)據(jù)模型分發(fā)等分布式任...
【文章頁(yè)數(shù)】:87 頁(yè)
【學(xué)位級(jí)別】:碩士
本文編號(hào):3879312
【文章頁(yè)數(shù)】:87 頁(yè)
【學(xué)位級(jí)別】:碩士
本文編號(hào):3879312
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3879312.html
最近更新
教材專(zhuān)著