面向強化學(xué)習(xí)的FPGA硬件加速平臺的研究
發(fā)布時間:2020-07-04 03:59
【摘要】:近幾年來人工智能領(lǐng)域不斷發(fā)展,其中深度強化學(xué)習(xí)作為其核心算法,它將具有感知能力的深度學(xué)習(xí)技術(shù)和具有決策能力的強化學(xué)習(xí)技術(shù)相結(jié)合,已經(jīng)廣泛地應(yīng)用于工業(yè)制造、機器人控制、仿真模擬、游戲博弈等領(lǐng)域。深度強化學(xué)習(xí)屬于計算密集型算法,目前主流的訓(xùn)練深度強化學(xué)習(xí)的硬件框架為CPU+GPU,但是GPU的高功耗使得難以在移動設(shè)備中部署。FPGA是一種可編程邏輯器件,具有低功耗、可配置、計算資源豐富等特點,適合用于作為深度強化學(xué)習(xí)中的計算設(shè)備。DQN算法是深度強化學(xué)習(xí)中的一個重要算法,它使用神經(jīng)網(wǎng)絡(luò)感知環(huán)境產(chǎn)生動作的Q值,并且使用了經(jīng)驗池和目標(biāo)網(wǎng)絡(luò)的方法來穩(wěn)定訓(xùn)練。在此背景下,本課題使用CPU+FPGA的硬件框架,實現(xiàn)了DQN算法的訓(xùn)練。本課題使用PYNQ平臺,該平臺基于CPU+FPGA硬件框架,使用Python語言庫對可編程邏輯進行調(diào)用,適合實現(xiàn)深度強化學(xué)習(xí)算法的訓(xùn)練。在此基礎(chǔ)上,本課題對其中的DQN算法進行細致分析,針對其用到的經(jīng)驗池以及目標(biāo)網(wǎng)絡(luò)方法,使用Vivado HLS工具分別設(shè)計出動作網(wǎng)絡(luò)、評估網(wǎng)絡(luò)、目標(biāo)網(wǎng)絡(luò)三個IP模塊用于加速計算,并將其集成到整個系統(tǒng)的硬件通路中。最后在Jupyter Notebook開發(fā)環(huán)境下使用Python語言調(diào)用各個硬件模塊實現(xiàn)DQN算法的訓(xùn)練過程。實驗結(jié)果顯示,在PYNQ平臺下實現(xiàn)的DQN算法能夠成功完成倒立擺任務(wù),在約300幕任務(wù)后就能夠逼近最高回報值,該實現(xiàn)的預(yù)估功耗僅為1.74W,對比同一算法在CPU和GPU上的實現(xiàn)結(jié)果,其能量效率分別為CPU的70.5倍和GPU的4.3倍,驗證了本課題設(shè)想的深度強化學(xué)習(xí)低功耗、高效率實現(xiàn)方案的可行性。
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TN791;TP181
【圖文】:
三層MLP結(jié)構(gòu)
三種激活函數(shù)輸出曲線圖
本文編號:2740602
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TN791;TP181
【圖文】:
三層MLP結(jié)構(gòu)
三種激活函數(shù)輸出曲線圖
【參考文獻】
相關(guān)期刊論文 前2條
1 傅啟明;劉全;王輝;肖飛;于俊;李嬌;;一種基于線性函數(shù)逼近的離策略Q(λ)算法[J];計算機學(xué)報;2014年03期
2 高陽;周如益;王皓;曹志新;;平均獎賞強化學(xué)習(xí)算法研究[J];計算機學(xué)報;2007年08期
相關(guān)碩士學(xué)位論文 前2條
1 余奇;基于FPGA的深度學(xué)習(xí)加速器設(shè)計與實現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2016年
2 肖瀟;基于AXI的SoC互聯(lián)結(jié)構(gòu)的設(shè)計與驗證[D];國防科學(xué)技術(shù)大學(xué);2015年
本文編號:2740602
本文鏈接:http://sikaile.net/kejilunwen/dianzigongchenglunwen/2740602.html
最近更新
教材專著