高校人工智能實(shí)驗(yàn)室的規(guī)劃與建設(shè)
發(fā)布時(shí)間:2021-08-26 00:04
該文討論了高校在建設(shè)人工智能實(shí)驗(yàn)室時(shí),需考慮的計(jì)算能力、訓(xùn)練數(shù)據(jù)集、算法及框架這三大要素,設(shè)計(jì)了人工智能實(shí)驗(yàn)室的架構(gòu),并重點(diǎn)介紹了單機(jī)深度學(xué)習(xí)實(shí)驗(yàn)平臺(tái)和基于CPU加速云服務(wù)的共享深度學(xué)習(xí)實(shí)驗(yàn)平臺(tái)的設(shè)計(jì)思路和技術(shù)方案。此外,還介紹了人工智能實(shí)驗(yàn)課程的體系和實(shí)驗(yàn)項(xiàng)目。
【文章來源】:實(shí)驗(yàn)技術(shù)與管理. 2020,37(10)北大核心
【文章頁數(shù)】:7 頁
【部分圖文】:
深度學(xué)習(xí)工作站的體系結(jié)構(gòu)示例
GPU加速云平臺(tái)的體系結(jié)構(gòu)見圖2。底層是云平臺(tái)物理集群,包括CPU/GPU/FPGA等運(yùn)算資源、陣列等存儲(chǔ)資源,以及網(wǎng)卡等網(wǎng)絡(luò)資源。再上一層便是虛擬化管理程序(Hypervisor),負(fù)責(zé)將所有的硬件資源虛擬化并放入統(tǒng)一管理和分配的虛擬資源池,然后通過虛擬服務(wù)器(或容器)來對(duì)用戶需要的計(jì)算資源、存儲(chǔ)資源、網(wǎng)絡(luò)資源進(jìn)行定制和封裝,并通過網(wǎng)絡(luò)提交給用戶使用。只要網(wǎng)絡(luò)穩(wěn)定、高速,用戶基本上很難感覺出虛擬GPU服務(wù)器和物理虛擬GPU服務(wù)器的差別。通常GPU加速云平臺(tái)物理服務(wù)器采用機(jī)架式結(jié)構(gòu),在數(shù)據(jù)中心以集群方式運(yùn)行。圖3所示為一個(gè)基于GPU加速云平臺(tái)的典型實(shí)驗(yàn)過程。用戶可以申請(qǐng)不同配置的虛擬GPU服務(wù)器,配置的資源越高,租賃的時(shí)間越長,費(fèi)用就越高。如果計(jì)算量比較大,還需租借多臺(tái)虛擬GPU服務(wù)器構(gòu)成計(jì)算集群,通過并行計(jì)算來加快模型的訓(xùn)練速度。申請(qǐng)成功后,云平臺(tái)會(huì)從資源池中劃出資源,分配給從模板中克隆出的GPU服務(wù)器。此時(shí)用戶可將訓(xùn)練資料從資料庫中提取出來并送入虛擬GPU計(jì)算集群進(jìn)行AI模型訓(xùn)練。訓(xùn)練結(jié)束后生成的模型存入AI模型庫。在需要使用AI模型的時(shí)候,將AI模型調(diào)入AI推理機(jī),同時(shí)為AI推理機(jī)送入實(shí)時(shí)數(shù)據(jù),最后將AI推理結(jié)果以報(bào)表、圖表等形式進(jìn)行展示。為了方便數(shù)據(jù)共享,鏡像/容器模板庫、訓(xùn)練資料庫、AI模型庫均可采用基于網(wǎng)絡(luò)云盤或云對(duì)象存儲(chǔ)來實(shí)現(xiàn)。
建設(shè)GPU加速私有云時(shí),通常需配置一個(gè)云管理服務(wù)器及若干計(jì)算服務(wù)器。在計(jì)算服務(wù)器上插GPU運(yùn)算加速卡,以單臺(tái)計(jì)算服務(wù)器插8塊GTX 1080 Ti GPU運(yùn)算加速卡為例,主機(jī)需配置單路或雙路8核以上CPU,因?yàn)樗酗@存合計(jì)11G×8=88G,所以主機(jī)需配4~6塊32G的DDR4內(nèi)存。如果采用的是本地存儲(chǔ)而非網(wǎng)絡(luò)存儲(chǔ),為了提高訓(xùn)練資料的加載速度,可將數(shù)據(jù)放入SSD固態(tài)硬盤。一臺(tái)計(jì)算服務(wù)器可以同時(shí)滿足8人實(shí)驗(yàn)需求,平均每人可分到3584CUDA核、11.5TFLOPS的AI計(jì)算資源。以此類推,每增加8人需增加一臺(tái)計(jì)算服務(wù)器。因此,若32人實(shí)驗(yàn),需配備1臺(tái)云管理服務(wù)器+4臺(tái)計(jì)算服務(wù)器。如果每人分配的資源再少一些的話,32人配2~3臺(tái)計(jì)算服務(wù)器也是可行的。3 人工智能實(shí)驗(yàn)項(xiàng)目設(shè)計(jì)
本文編號(hào):3363132
【文章來源】:實(shí)驗(yàn)技術(shù)與管理. 2020,37(10)北大核心
【文章頁數(shù)】:7 頁
【部分圖文】:
深度學(xué)習(xí)工作站的體系結(jié)構(gòu)示例
GPU加速云平臺(tái)的體系結(jié)構(gòu)見圖2。底層是云平臺(tái)物理集群,包括CPU/GPU/FPGA等運(yùn)算資源、陣列等存儲(chǔ)資源,以及網(wǎng)卡等網(wǎng)絡(luò)資源。再上一層便是虛擬化管理程序(Hypervisor),負(fù)責(zé)將所有的硬件資源虛擬化并放入統(tǒng)一管理和分配的虛擬資源池,然后通過虛擬服務(wù)器(或容器)來對(duì)用戶需要的計(jì)算資源、存儲(chǔ)資源、網(wǎng)絡(luò)資源進(jìn)行定制和封裝,并通過網(wǎng)絡(luò)提交給用戶使用。只要網(wǎng)絡(luò)穩(wěn)定、高速,用戶基本上很難感覺出虛擬GPU服務(wù)器和物理虛擬GPU服務(wù)器的差別。通常GPU加速云平臺(tái)物理服務(wù)器采用機(jī)架式結(jié)構(gòu),在數(shù)據(jù)中心以集群方式運(yùn)行。圖3所示為一個(gè)基于GPU加速云平臺(tái)的典型實(shí)驗(yàn)過程。用戶可以申請(qǐng)不同配置的虛擬GPU服務(wù)器,配置的資源越高,租賃的時(shí)間越長,費(fèi)用就越高。如果計(jì)算量比較大,還需租借多臺(tái)虛擬GPU服務(wù)器構(gòu)成計(jì)算集群,通過并行計(jì)算來加快模型的訓(xùn)練速度。申請(qǐng)成功后,云平臺(tái)會(huì)從資源池中劃出資源,分配給從模板中克隆出的GPU服務(wù)器。此時(shí)用戶可將訓(xùn)練資料從資料庫中提取出來并送入虛擬GPU計(jì)算集群進(jìn)行AI模型訓(xùn)練。訓(xùn)練結(jié)束后生成的模型存入AI模型庫。在需要使用AI模型的時(shí)候,將AI模型調(diào)入AI推理機(jī),同時(shí)為AI推理機(jī)送入實(shí)時(shí)數(shù)據(jù),最后將AI推理結(jié)果以報(bào)表、圖表等形式進(jìn)行展示。為了方便數(shù)據(jù)共享,鏡像/容器模板庫、訓(xùn)練資料庫、AI模型庫均可采用基于網(wǎng)絡(luò)云盤或云對(duì)象存儲(chǔ)來實(shí)現(xiàn)。
建設(shè)GPU加速私有云時(shí),通常需配置一個(gè)云管理服務(wù)器及若干計(jì)算服務(wù)器。在計(jì)算服務(wù)器上插GPU運(yùn)算加速卡,以單臺(tái)計(jì)算服務(wù)器插8塊GTX 1080 Ti GPU運(yùn)算加速卡為例,主機(jī)需配置單路或雙路8核以上CPU,因?yàn)樗酗@存合計(jì)11G×8=88G,所以主機(jī)需配4~6塊32G的DDR4內(nèi)存。如果采用的是本地存儲(chǔ)而非網(wǎng)絡(luò)存儲(chǔ),為了提高訓(xùn)練資料的加載速度,可將數(shù)據(jù)放入SSD固態(tài)硬盤。一臺(tái)計(jì)算服務(wù)器可以同時(shí)滿足8人實(shí)驗(yàn)需求,平均每人可分到3584CUDA核、11.5TFLOPS的AI計(jì)算資源。以此類推,每增加8人需增加一臺(tái)計(jì)算服務(wù)器。因此,若32人實(shí)驗(yàn),需配備1臺(tái)云管理服務(wù)器+4臺(tái)計(jì)算服務(wù)器。如果每人分配的資源再少一些的話,32人配2~3臺(tái)計(jì)算服務(wù)器也是可行的。3 人工智能實(shí)驗(yàn)項(xiàng)目設(shè)計(jì)
本文編號(hào):3363132
本文鏈接:http://sikaile.net/jiaoyulunwen/gaodengjiaoyulunwen/3363132.html
最近更新
教材專著