面向強(qiáng)化學(xué)習(xí)的FPGA硬件加速平臺(tái)的研究
發(fā)布時(shí)間:2020-07-04 03:59
【摘要】:近幾年來(lái)人工智能領(lǐng)域不斷發(fā)展,其中深度強(qiáng)化學(xué)習(xí)作為其核心算法,它將具有感知能力的深度學(xué)習(xí)技術(shù)和具有決策能力的強(qiáng)化學(xué)習(xí)技術(shù)相結(jié)合,已經(jīng)廣泛地應(yīng)用于工業(yè)制造、機(jī)器人控制、仿真模擬、游戲博弈等領(lǐng)域。深度強(qiáng)化學(xué)習(xí)屬于計(jì)算密集型算法,目前主流的訓(xùn)練深度強(qiáng)化學(xué)習(xí)的硬件框架為CPU+GPU,但是GPU的高功耗使得難以在移動(dòng)設(shè)備中部署。FPGA是一種可編程邏輯器件,具有低功耗、可配置、計(jì)算資源豐富等特點(diǎn),適合用于作為深度強(qiáng)化學(xué)習(xí)中的計(jì)算設(shè)備。DQN算法是深度強(qiáng)化學(xué)習(xí)中的一個(gè)重要算法,它使用神經(jīng)網(wǎng)絡(luò)感知環(huán)境產(chǎn)生動(dòng)作的Q值,并且使用了經(jīng)驗(yàn)池和目標(biāo)網(wǎng)絡(luò)的方法來(lái)穩(wěn)定訓(xùn)練。在此背景下,本課題使用CPU+FPGA的硬件框架,實(shí)現(xiàn)了DQN算法的訓(xùn)練。本課題使用PYNQ平臺(tái),該平臺(tái)基于CPU+FPGA硬件框架,使用Python語(yǔ)言庫(kù)對(duì)可編程邏輯進(jìn)行調(diào)用,適合實(shí)現(xiàn)深度強(qiáng)化學(xué)習(xí)算法的訓(xùn)練。在此基礎(chǔ)上,本課題對(duì)其中的DQN算法進(jìn)行細(xì)致分析,針對(duì)其用到的經(jīng)驗(yàn)池以及目標(biāo)網(wǎng)絡(luò)方法,使用Vivado HLS工具分別設(shè)計(jì)出動(dòng)作網(wǎng)絡(luò)、評(píng)估網(wǎng)絡(luò)、目標(biāo)網(wǎng)絡(luò)三個(gè)IP模塊用于加速計(jì)算,并將其集成到整個(gè)系統(tǒng)的硬件通路中。最后在Jupyter Notebook開(kāi)發(fā)環(huán)境下使用Python語(yǔ)言調(diào)用各個(gè)硬件模塊實(shí)現(xiàn)DQN算法的訓(xùn)練過(guò)程。實(shí)驗(yàn)結(jié)果顯示,在PYNQ平臺(tái)下實(shí)現(xiàn)的DQN算法能夠成功完成倒立擺任務(wù),在約300幕任務(wù)后就能夠逼近最高回報(bào)值,該實(shí)現(xiàn)的預(yù)估功耗僅為1.74W,對(duì)比同一算法在CPU和GPU上的實(shí)現(xiàn)結(jié)果,其能量效率分別為CPU的70.5倍和GPU的4.3倍,驗(yàn)證了本課題設(shè)想的深度強(qiáng)化學(xué)習(xí)低功耗、高效率實(shí)現(xiàn)方案的可行性。
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類(lèi)號(hào)】:TN791;TP181
【圖文】:
三層MLP結(jié)構(gòu)
三種激活函數(shù)輸出曲線圖
本文編號(hào):2740602
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類(lèi)號(hào)】:TN791;TP181
【圖文】:
三層MLP結(jié)構(gòu)
三種激活函數(shù)輸出曲線圖
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 傅啟明;劉全;王輝;肖飛;于俊;李嬌;;一種基于線性函數(shù)逼近的離策略Q(λ)算法[J];計(jì)算機(jī)學(xué)報(bào);2014年03期
2 高陽(yáng);周如益;王皓;曹志新;;平均獎(jiǎng)賞強(qiáng)化學(xué)習(xí)算法研究[J];計(jì)算機(jī)學(xué)報(bào);2007年08期
相關(guān)碩士學(xué)位論文 前2條
1 余奇;基于FPGA的深度學(xué)習(xí)加速器設(shè)計(jì)與實(shí)現(xiàn)[D];中國(guó)科學(xué)技術(shù)大學(xué);2016年
2 肖瀟;基于AXI的SoC互聯(lián)結(jié)構(gòu)的設(shè)計(jì)與驗(yàn)證[D];國(guó)防科學(xué)技術(shù)大學(xué);2015年
本文編號(hào):2740602
本文鏈接:http://sikaile.net/kejilunwen/dianzigongchenglunwen/2740602.html
最近更新
教材專(zhuān)著