天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 汽車論文 >

基于深度強(qiáng)化學(xué)習(xí)的虛擬無人車控制研究

發(fā)布時(shí)間:2020-05-05 19:37
【摘要】:無人車控制作為自動(dòng)駕駛系統(tǒng)最底層的模塊,對(duì)于自動(dòng)駕駛的安全性、舒適性至關(guān)重要。主流的無人車控制采用基于模型的方法,使用控制理論,需要手工設(shè)計(jì)控制器的參數(shù);谀P偷目刂品椒ǖ募航(jīng)被廣泛地研究,其優(yōu)點(diǎn)是具有可解釋性,但是對(duì)于復(fù)雜的道路環(huán)境,控制器的參數(shù)將十分復(fù)雜。除此之外,傳統(tǒng)控制器不具備自適應(yīng)學(xué)習(xí)能力,即使存在一些自適應(yīng)參數(shù)調(diào)節(jié)方法,也往往會(huì)受限于模型的表達(dá)能力,對(duì)復(fù)雜道路環(huán)境不魯棒。針對(duì)以上問題,本文做了兩項(xiàng)工作提升無人車控制的性能:第一,使用深度強(qiáng)化學(xué)習(xí)代替?zhèn)鹘y(tǒng)控制方法。本文使用免模型、自學(xué)習(xí)的深度確定性策略梯度(DDPG)實(shí)現(xiàn)虛擬無人車的橫向和縱向聯(lián)合控制。DDPG是一種流行的、用于高維感知輸入、連續(xù)控制輸出的深度強(qiáng)化學(xué)習(xí)算法,它通過試錯(cuò)尋找最優(yōu)控制策略,不需要車輛動(dòng)力學(xué)模型以及環(huán)境模型;DDPG通過與環(huán)境交互進(jìn)行學(xué)習(xí),對(duì)環(huán)境變化更魯棒。本文在TORCS駕駛模擬器中驗(yàn)證了基于DDPG的無人車橫向和縱向聯(lián)合控制,控制誤差在合理范圍之內(nèi)。第二,由于深度強(qiáng)化學(xué)習(xí)需要大量試錯(cuò),某些試錯(cuò)行為可能是危險(xiǎn)的,特別在無人車控制任務(wù)中。本文提出使用少量先驗(yàn)知識(shí)加速深度強(qiáng)化學(xué)習(xí)的訓(xùn)練,減少試錯(cuò)次數(shù)。具體做法是將由少量先驗(yàn)知識(shí)設(shè)計(jì)的監(jiān)督器指導(dǎo)DDPG的訓(xùn)練。這樣的算法被稱為監(jiān)督式深度確定性策略梯度(Supervised DDPG)。本文在TORCS模擬器中比較了傳統(tǒng)控制方法(本文使用反饋控制器)、DDPG、Supervised DDPG三種模型在無人車橫向控制任務(wù)中的表現(xiàn),實(shí)驗(yàn)結(jié)果顯示,Supervised DDPG的控制性能比傳統(tǒng)控制方法更加精確,收斂速度相比于DDPG大大提升,減少了試錯(cuò)次數(shù)。
【圖文】:

控制系統(tǒng)圖,軟件系統(tǒng),控制系統(tǒng),模塊


一條帶有時(shí)間信息的軌跡曲線,用于底層控制模塊對(duì)車的實(shí)際控制。反饋控制是最底層逡逑的模塊,無人車的反饋控制和一般車輛的反饋控制并沒有本質(zhì)區(qū)別。二者都是基于一定逡逑的期望軌跡,計(jì)算當(dāng)前車輛的姿態(tài)和期望軌跡之間的誤差不斷地進(jìn)行反饋控制。如圖2.1逡逑所示,這些模塊相互耦合,,共同構(gòu)成了整個(gè)無人駕駛系統(tǒng)。逡逑感知邐;邋路由尋經(jīng)逡逑!感知物體信息丨逡逑|位置/速度/朝向:邐\m]Lane的丨】.列逡逑預(yù)測邐¥測外跡丨邋>邋行為決策逡逑宏觀指令逡逑:、、邐v逡逑I邋、▲vR逡逑一地面定J邋--T碩鞴婊義稀觥鰣義希旒5鬮

本文編號(hào):2650650

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/qiche/2650650.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4e1e9***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com