基于深度強(qiáng)化學(xué)習(xí)的虛擬無人車控制研究

發(fā)布時(shí)間：2020-05-05 19:37

【摘要】：無人車控制作為自動(dòng)駕駛系統(tǒng)最底層的模塊,對(duì)于自動(dòng)駕駛的安全性、舒適性至關(guān)重要。主流的無人車控制采用基于模型的方法,使用控制理論,需要手工設(shè)計(jì)控制器的參數(shù)�；谀Ｐ偷目刂品椒ǖ募航�(jīng)被廣泛地研究,其優(yōu)點(diǎn)是具有可解釋性,但是對(duì)于復(fù)雜的道路環(huán)境,控制器的參數(shù)將十分復(fù)雜。除此之外,傳統(tǒng)控制器不具備自適應(yīng)學(xué)習(xí)能力,即使存在一些自適應(yīng)參數(shù)調(diào)節(jié)方法,也往往會(huì)受限于模型的表達(dá)能力,對(duì)復(fù)雜道路環(huán)境不魯棒。針對(duì)以上問題,本文做了兩項(xiàng)工作提升無人車控制的性能:第一,使用深度強(qiáng)化學(xué)習(xí)代替?zhèn)鹘y(tǒng)控制方法。本文使用免模型、自學(xué)習(xí)的深度確定性策略梯度(DDPG)實(shí)現(xiàn)虛擬無人車的橫向和縱向聯(lián)合控制。DDPG是一種流行的、用于高維感知輸入、連續(xù)控制輸出的深度強(qiáng)化學(xué)習(xí)算法,它通過試錯(cuò)尋找最優(yōu)控制策略,不需要車輛動(dòng)力學(xué)模型以及環(huán)境模型;DDPG通過與環(huán)境交互進(jìn)行學(xué)習(xí),對(duì)環(huán)境變化更魯棒。本文在TORCS駕駛模擬器中驗(yàn)證了基于DDPG的無人車橫向和縱向聯(lián)合控制,控制誤差在合理范圍之內(nèi)。第二,由于深度強(qiáng)化學(xué)習(xí)需要大量試錯(cuò),某些試錯(cuò)行為可能是危險(xiǎn)的,特別在無人車控制任務(wù)中。本文提出使用少量先驗(yàn)知識(shí)加速深度強(qiáng)化學(xué)習(xí)的訓(xùn)練,減少試錯(cuò)次數(shù)。具體做法是將由少量先驗(yàn)知識(shí)設(shè)計(jì)的監(jiān)督器指導(dǎo)DDPG的訓(xùn)練。這樣的算法被稱為監(jiān)督式深度確定性策略梯度(Supervised DDPG)。本文在TORCS模擬器中比較了傳統(tǒng)控制方法(本文使用反饋控制器)、DDPG、Supervised DDPG三種模型在無人車橫向控制任務(wù)中的表現(xiàn),實(shí)驗(yàn)結(jié)果顯示,Supervised DDPG的控制性能比傳統(tǒng)控制方法更加精確,收斂速度相比于DDPG大大提升,減少了試錯(cuò)次數(shù)。
【圖文】：

控制系統(tǒng)圖,軟件系統(tǒng),控制系統(tǒng),模塊

一條帶有時(shí)間信息的軌跡曲線，用于底層控制模塊對(duì)車的實(shí)際控制。反饋控制是最底層逡逑的模塊，無人車的反饋控制和一般車輛的反饋控制并沒有本質(zhì)區(qū)別。二者都是基于一定逡逑的期望軌跡，計(jì)算當(dāng)前車輛的姿態(tài)和期望軌跡之間的誤差不斷地進(jìn)行反饋控制。如圖２．１逡逑所示，這些模塊相互耦合，，共同構(gòu)成了整個(gè)無人駕駛系統(tǒng)。逡逑感知邐；邋路由尋經(jīng)逡逑！感知物體信息丨逡逑｜位置／速度／朝向：邐＼ｍ］Ｌａｎｅ的丨】．列逡逑預(yù)測邐￥測外跡丨邋＞邋行為決策逡逑宏觀指令逡逑：、、邐ｖ逡逑Ｉ邋、▲vR逡逑一地面定Ｊ邋－－T碩鞴婊義稀觥鰣義希旒５鬮

本文編號(hào)：2650650

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/qiche/2650650.html

上一篇：基于機(jī)器視覺的前方車輛檢測與測距研究
下一篇：基于雷達(dá)和機(jī)器視覺的前車檢測預(yù)警技術(shù)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度強(qiáng)化學(xué)習(xí)的虛擬無人車控制研究