天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 汽車論文 >

基于深度強(qiáng)化學(xué)習(xí)的無人駕駛智能決策控制研究

發(fā)布時間:2020-07-16 04:24
【摘要】:隨著人工智能技術(shù)的發(fā)展,越來越多的智能應(yīng)用正在潛移默化的改變我們的生活。無人駕駛車輛是未來交通的發(fā)展方向,決策控制問題則是無人駕駛技術(shù)發(fā)展需要面對的重要問題。因此,將人工智能技術(shù)與無人駕駛決策領(lǐng)域相結(jié)合,有著十分廣闊的應(yīng)用前景和重要的研究意義。示教學(xué)習(xí)和強(qiáng)化學(xué)習(xí)都是訓(xùn)練智能體學(xué)習(xí)如何“做決策”的方法,它們有著各自的優(yōu)缺點(diǎn)。本文選擇并分析了兩種方法的代表性算法:數(shù)據(jù)聚集(Dataset Aggregation,DAgger)和深度確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG),發(fā)現(xiàn)DAgger算法雖然策略收斂較快,但示教策略限制了智能體的學(xué)習(xí)上限;而DDPG算法雖然不需要定義示教策略,但存在獎勵值函數(shù)難以定義、訓(xùn)練效果波動較大等缺陷。因此,本文針對無人駕駛決策控制問題,提出將示教學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合的解決方案,嘗試吸取示教學(xué)習(xí)算法的優(yōu)點(diǎn),對強(qiáng)化學(xué)習(xí)算法訓(xùn)練效果進(jìn)行提升;贒DPG算法,本文提出了融合示教的DDPG算法(DDPG with Demonstration,DDPGw D)。算法的基本框架基于演員-評論家網(wǎng)絡(luò)結(jié)構(gòu),本文重新設(shè)計了評論家網(wǎng)絡(luò)的訓(xùn)練損失函數(shù),在原有的時序差分損失基礎(chǔ)上增加了對于示教數(shù)據(jù)的監(jiān)督損失,采用示教動作與當(dāng)前策略輸出動作的動作-價值函數(shù)(Q值)均方差的形式,并增加邊界值以保證監(jiān)督效果。本文從理論上對新框架下的網(wǎng)絡(luò)參數(shù)更新公式進(jìn)行了推導(dǎo)。針對DDPG訓(xùn)練波動較大的問題,本文提出了一種合成經(jīng)驗回放思路,嘗試在每個訓(xùn)練回合中都保證采樣一定比例的“表現(xiàn)好”的轉(zhuǎn)移過程,試圖保證訓(xùn)練數(shù)據(jù)的多樣性,提升網(wǎng)絡(luò)訓(xùn)練效果。對于初始訓(xùn)練階段,本文嘗試存儲每回合中最優(yōu)的轉(zhuǎn)移過程代替“表現(xiàn)好”的轉(zhuǎn)移過程,以解決“表現(xiàn)好”數(shù)據(jù)量過少的問題。結(jié)合示教監(jiān)督思路,本文設(shè)計了DDPGw D算法的總體訓(xùn)練流程。本文使用了人工智能領(lǐng)域常用的智能駕駛仿真環(huán)境,開源賽車模擬器(The Open Racing Car Simulator,TORCS)對算法進(jìn)行了仿真驗證,證明了上述算法在自動駕駛決策控制領(lǐng)域中的有效性。
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:U463.6;TP18
【圖文】:

車輛安全,智能,事故,基礎(chǔ)科學(xué)問題


a) 谷歌無人車誤撞公交 b) 特斯拉自動駕駛模式發(fā)生剮蹭事故圖 1-1 無人(智能)駕駛車輛安全事故時有發(fā)生2017 年 7 月,國務(wù)院確立了以智能無人系統(tǒng)作為重點(diǎn)發(fā)展目標(biāo)的人工智能技術(shù)研究規(guī)劃思路。本課題嘗試從示教學(xué)習(xí)、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等方法入手探索無人駕駛智能決策控制的基礎(chǔ)科學(xué)問題,從而進(jìn)一步突破無人駕駛車輛在

框架圖,示教學(xué)習(xí),框架,算法


圖 1-2 融合示教學(xué)習(xí)與算法框架強(qiáng)化學(xué)習(xí)的算法框架類駕駛員可以很輕松完成的復(fù)雜運(yùn)動控制,但對于智能駕駛系統(tǒng)大的困難。實際上對于大部分的智能系統(tǒng)而言,如果能把人類的到機(jī)器領(lǐng)域?qū)䴓O大地推動智能控制技術(shù)的發(fā)展。在之前的部化學(xué)習(xí)與示教學(xué)習(xí)相結(jié)合的方式,對兩種方法的缺陷都表現(xiàn)出一

框架圖,決策控制,框架,全局規(guī)劃


圖 2-1 無人駕駛的決策控制框架者已經(jīng)對全局規(guī)劃部分做了大量的研究工學(xué)術(shù)論文[2]也基于啟發(fā)式算法對全局規(guī)劃提文主要側(cè)重于對局部規(guī)劃的研究工作。同基本的控制動作,這在許多仿真平臺都是

【參考文獻(xiàn)】

相關(guān)期刊論文 前1條

1 李力;王飛躍;鄭南寧;;認(rèn)知車——結(jié)合認(rèn)知科學(xué)和控制理論的新研究方向[J];控制理論與應(yīng)用;2011年02期

相關(guān)博士學(xué)位論文 前1條

1 孫振平;自主駕駛汽車智能控制系統(tǒng)[D];國防科學(xué)技術(shù)大學(xué);2004年

相關(guān)碩士學(xué)位論文 前1條

1 田賡;復(fù)雜動態(tài)城市環(huán)境下無人駕駛車輛仿生換道決策模型研究[D];北京理工大學(xué);2016年



本文編號:2757517

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/qiche/2757517.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e9eac***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com