面向強(qiáng)化學(xué)習(xí)的FPGA硬件加速平臺(tái)的研究

發(fā)布時(shí)間：2020-07-04 03:59

【摘要】：近幾年來(lái)人工智能領(lǐng)域不斷發(fā)展,其中深度強(qiáng)化學(xué)習(xí)作為其核心算法,它將具有感知能力的深度學(xué)習(xí)技術(shù)和具有決策能力的強(qiáng)化學(xué)習(xí)技術(shù)相結(jié)合,已經(jīng)廣泛地應(yīng)用于工業(yè)制造、機(jī)器人控制、仿真模擬、游戲博弈等領(lǐng)域。深度強(qiáng)化學(xué)習(xí)屬于計(jì)算密集型算法,目前主流的訓(xùn)練深度強(qiáng)化學(xué)習(xí)的硬件框架為CPU+GPU,但是GPU的高功耗使得難以在移動(dòng)設(shè)備中部署。FPGA是一種可編程邏輯器件,具有低功耗、可配置、計(jì)算資源豐富等特點(diǎn),適合用于作為深度強(qiáng)化學(xué)習(xí)中的計(jì)算設(shè)備。DQN算法是深度強(qiáng)化學(xué)習(xí)中的一個(gè)重要算法,它使用神經(jīng)網(wǎng)絡(luò)感知環(huán)境產(chǎn)生動(dòng)作的Q值,并且使用了經(jīng)驗(yàn)池和目標(biāo)網(wǎng)絡(luò)的方法來(lái)穩(wěn)定訓(xùn)練。在此背景下,本課題使用CPU+FPGA的硬件框架,實(shí)現(xiàn)了DQN算法的訓(xùn)練。本課題使用PYNQ平臺(tái),該平臺(tái)基于CPU+FPGA硬件框架,使用Python語(yǔ)言庫(kù)對(duì)可編程邏輯進(jìn)行調(diào)用,適合實(shí)現(xiàn)深度強(qiáng)化學(xué)習(xí)算法的訓(xùn)練。在此基礎(chǔ)上,本課題對(duì)其中的DQN算法進(jìn)行細(xì)致分析,針對(duì)其用到的經(jīng)驗(yàn)池以及目標(biāo)網(wǎng)絡(luò)方法,使用Vivado HLS工具分別設(shè)計(jì)出動(dòng)作網(wǎng)絡(luò)、評(píng)估網(wǎng)絡(luò)、目標(biāo)網(wǎng)絡(luò)三個(gè)IP模塊用于加速計(jì)算,并將其集成到整個(gè)系統(tǒng)的硬件通路中。最后在Jupyter Notebook開(kāi)發(fā)環(huán)境下使用Python語(yǔ)言調(diào)用各個(gè)硬件模塊實(shí)現(xiàn)DQN算法的訓(xùn)練過(guò)程。實(shí)驗(yàn)結(jié)果顯示,在PYNQ平臺(tái)下實(shí)現(xiàn)的DQN算法能夠成功完成倒立擺任務(wù),在約300幕任務(wù)后就能夠逼近最高回報(bào)值,該實(shí)現(xiàn)的預(yù)估功耗僅為1.74W,對(duì)比同一算法在CPU和GPU上的實(shí)現(xiàn)結(jié)果,其能量效率分別為CPU的70.5倍和GPU的4.3倍,驗(yàn)證了本課題設(shè)想的深度強(qiáng)化學(xué)習(xí)低功耗、高效率實(shí)現(xiàn)方案的可行性。
【學(xué)位授予單位】：電子科技大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2019
【分類(lèi)號(hào)】：TN791;TP181
【圖文】：

三層MLP結(jié)構(gòu)

面向強(qiáng)化學(xué)習(xí)的FPGA硬件加速平臺(tái)的研究

三種激活函數(shù)輸出曲線圖

【參考文獻(xiàn)】

相關(guān)期刊論文前2條

1 傅啟明;劉全;王輝;肖飛;于俊;李嬌;;一種基于線性函數(shù)逼近的離策略Q(λ)算法[J];計(jì)算機(jī)學(xué)報(bào);2014年03期

2 高陽(yáng);周如益;王皓;曹志新;;平均獎(jiǎng)賞強(qiáng)化學(xué)習(xí)算法研究[J];計(jì)算機(jī)學(xué)報(bào);2007年08期

相關(guān)碩士學(xué)位論文前2條

1 余奇;基于FPGA的深度學(xué)習(xí)加速器設(shè)計(jì)與實(shí)現(xiàn)[D];中國(guó)科學(xué)技術(shù)大學(xué);2016年

2 肖瀟;基于AXI的SoC互聯(lián)結(jié)構(gòu)的設(shè)計(jì)與驗(yàn)證[D];國(guó)防科學(xué)技術(shù)大學(xué);2015年

本文編號(hào)：2740602

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/dianzigongchenglunwen/2740602.html

上一篇：柔性硅基MOS電容制備及特性研究
下一篇：側(cè)向光柵耦合DFB-LD制備技術(shù)研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向強(qiáng)化學(xué)習(xí)的FPGA硬件加速平臺(tái)的研究