基于深度強(qiáng)化學(xué)習(xí)的無人駕駛智能決策控制研究

發(fā)布時間：2020-07-16 04:24

【摘要】：隨著人工智能技術(shù)的發(fā)展,越來越多的智能應(yīng)用正在潛移默化的改變我們的生活。無人駕駛車輛是未來交通的發(fā)展方向,決策控制問題則是無人駕駛技術(shù)發(fā)展需要面對的重要問題。因此,將人工智能技術(shù)與無人駕駛決策領(lǐng)域相結(jié)合,有著十分廣闊的應(yīng)用前景和重要的研究意義。示教學(xué)習(xí)和強(qiáng)化學(xué)習(xí)都是訓(xùn)練智能體學(xué)習(xí)如何“做決策”的方法,它們有著各自的優(yōu)缺點(diǎn)。本文選擇并分析了兩種方法的代表性算法:數(shù)據(jù)聚集(Dataset Aggregation,DAgger)和深度確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG),發(fā)現(xiàn)DAgger算法雖然策略收斂較快,但示教策略限制了智能體的學(xué)習(xí)上限;而DDPG算法雖然不需要定義示教策略,但存在獎勵值函數(shù)難以定義、訓(xùn)練效果波動較大等缺陷。因此,本文針對無人駕駛決策控制問題,提出將示教學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合的解決方案,嘗試吸取示教學(xué)習(xí)算法的優(yōu)點(diǎn),對強(qiáng)化學(xué)習(xí)算法訓(xùn)練效果進(jìn)行提升�；贒DPG算法,本文提出了融合示教的DDPG算法(DDPG with Demonstration,DDPGw D)。算法的基本框架基于演員-評論家網(wǎng)絡(luò)結(jié)構(gòu),本文重新設(shè)計了評論家網(wǎng)絡(luò)的訓(xùn)練損失函數(shù),在原有的時序差分損失基礎(chǔ)上增加了對于示教數(shù)據(jù)的監(jiān)督損失,采用示教動作與當(dāng)前策略輸出動作的動作-價值函數(shù)(Q值)均方差的形式,并增加邊界值以保證監(jiān)督效果。本文從理論上對新框架下的網(wǎng)絡(luò)參數(shù)更新公式進(jìn)行了推導(dǎo)。針對DDPG訓(xùn)練波動較大的問題,本文提出了一種合成經(jīng)驗回放思路,嘗試在每個訓(xùn)練回合中都保證采樣一定比例的“表現(xiàn)好”的轉(zhuǎn)移過程,試圖保證訓(xùn)練數(shù)據(jù)的多樣性,提升網(wǎng)絡(luò)訓(xùn)練效果。對于初始訓(xùn)練階段,本文嘗試存儲每回合中最優(yōu)的轉(zhuǎn)移過程代替“表現(xiàn)好”的轉(zhuǎn)移過程,以解決“表現(xiàn)好”數(shù)據(jù)量過少的問題。結(jié)合示教監(jiān)督思路,本文設(shè)計了DDPGw D算法的總體訓(xùn)練流程。本文使用了人工智能領(lǐng)域常用的智能駕駛仿真環(huán)境,開源賽車模擬器(The Open Racing Car Simulator,TORCS)對算法進(jìn)行了仿真驗證,證明了上述算法在自動駕駛決策控制領(lǐng)域中的有效性。
【學(xué)位授予單位】：哈爾濱工業(yè)大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2018
【分類號】：U463.6;TP18
【圖文】：

車輛安全,智能,事故,基礎(chǔ)科學(xué)問題

a) 谷歌無人車誤撞公交 b) 特斯拉自動駕駛模式發(fā)生剮蹭事故圖 1-1 無人（智能）駕駛車輛安全事故時有發(fā)生2017 年 7 月，國務(wù)院確立了以智能無人系統(tǒng)作為重點(diǎn)發(fā)展目標(biāo)的人工智能技術(shù)研究規(guī)劃思路。本課題嘗試從示教學(xué)習(xí)、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等方法入手探索無人駕駛智能決策控制的基礎(chǔ)科學(xué)問題，從而進(jìn)一步突破無人駕駛車輛在

框架圖,示教學(xué)習(xí),框架,算法

圖 1-2 融合示教學(xué)習(xí)與算法框架強(qiáng)化學(xué)習(xí)的算法框架類駕駛員可以很輕松完成的復(fù)雜運(yùn)動控制，但對于智能駕駛系統(tǒng)大的困難。實際上對于大部分的智能系統(tǒng)而言，如果能把人類的到機(jī)器領(lǐng)域?qū)䴓O大地推動智能控制技術(shù)的發(fā)展。在之前的部化學(xué)習(xí)與示教學(xué)習(xí)相結(jié)合的方式，對兩種方法的缺陷都表現(xiàn)出一

框架圖,決策控制,框架,全局規(guī)劃