基于深度強(qiáng)化學(xué)習(xí)的端到端自動(dòng)駕駛技術(shù)研究

發(fā)布時(shí)間：2021-06-07 22:34

　　自動(dòng)駕駛的任務(wù)是車輛通過各種傳感器感知道路環(huán)境,在沒有人為進(jìn)行干預(yù)的情況下,實(shí)時(shí)地改變駕駛的行為,包括轉(zhuǎn)向、加速和制動(dòng)等。實(shí)現(xiàn)自動(dòng)駕駛可以使交通事故的發(fā)生減少,道路交通資源得到更合理的利用,因此研究自動(dòng)駕駛技術(shù)具有非常重要的意義。由于端到端的自動(dòng)駕駛不需要人為指定規(guī)則,而直接學(xué)習(xí)駕駛動(dòng)作,所以端到端方法的研究是自動(dòng)駕駛領(lǐng)域的重要研究方向之一。深度強(qiáng)化學(xué)習(xí)方法通過和環(huán)境交互學(xué)習(xí)策略與人類學(xué)習(xí)駕駛的方式相似,被廣泛用于端到端駕駛?cè)蝿?wù)中。本文利用深度強(qiáng)化學(xué)習(xí)算法,對虛擬環(huán)境下車輛的自動(dòng)駕駛進(jìn)行研究。該算法是基于深度確定性策略梯度算法的改進(jìn),針對訓(xùn)練樣本利用率低的問題,將優(yōu)先經(jīng)驗(yàn)回放方法與深度確定性策略梯度算法相結(jié)合,從仿真環(huán)境中獲取原始的傳感器輸入,模型輸出連續(xù)的加速、轉(zhuǎn)向、制動(dòng)行為,并將訓(xùn)練數(shù)據(jù)存入緩沖區(qū)中,通過優(yōu)先經(jīng)驗(yàn)回放的高效采樣方法,實(shí)現(xiàn)訓(xùn)練速度的加快。由于深度強(qiáng)化學(xué)習(xí)需要車輛與環(huán)境進(jìn)行多次交互,訓(xùn)練過程中會(huì)出現(xiàn)錯(cuò)誤的駕駛行為,在現(xiàn)實(shí)中訓(xùn)練自動(dòng)駕駛會(huì)對車輛和周圍環(huán)境造成不可估量的損害,所以本實(shí)驗(yàn)是在仿真平臺(tái)的虛擬環(huán)境中實(shí)現(xiàn)的,然而端到端駕駛的最終目標(biāo)是使真實(shí)車輛在現(xiàn)實(shí)環(huán)境中自主做出駕...

【文章來源】：中國科學(xué)院大學(xué)(中國科學(xué)院大學(xué)人工智能學(xué)院)北京市

【文章頁數(shù)】：80 頁

【學(xué)位級(jí)別】：碩士

【部分圖文】：

圖１．１深度Ｑ網(wǎng)絡(luò)基本結(jié)構(gòu)ｉ５ｌ??

模型圖,模型,圍棋,算法

?基于深度強(qiáng)化學(xué)習(xí)的端到端自動(dòng)駕駛技術(shù)研究???Ｇｌｏｂａｌ?Ｎｅｔｗｏｒｋ??ｒ＇—一邊??＇?＾??＿（ｓ）??ｚ?／?＼?、？??戀麵麵?ＳＩ??ｒ．：ｌ?；：．：；：ｌ?它?Ｉ?…？：：ｌ??Ｗｏｒｋｅｒ?１?Ｗｏｒｋｅｒ?２?Ｗｏｒｋｅｒ?３?Ｗｏｒｔ？ｒｎ??Ｉ?ｔ?ｔ?ｆ??Ｅｎｗｒｏｏｍｅｒｎ?１?Ｅｎｖｉｆｏｏｍａｗ?２?Ｅｎｖ＊ｔ＞ｏｍ〇ｎｔ３?．．．?￡ｎｖ＊〇ｗｎｅＭｎ??圖１．２Ａ３Ｃ模型??Ｆｉｇｕｒｅ?１．２?Ｔｈｅ?ｍｏｄｅｌ?ｏｆ?Ａ３Ｃ??２０１４?年，Ｓｌｉｖｅｒ?提出了確定性策略搜索（Ｄｅｔｅｒｍｉｎｉｓｔｉｃ?Ｐｏｌｉｃｙ?Ｇｒａｄｉｅｎｔ，?ＤＰＧ）??算法１１１］，采用確定性的動(dòng)作代替隨機(jī)動(dòng)作的選擇。２０１６年，Ｌｉｌｌｉｃｒａｐ等在此基礎(chǔ)??上提出了深度確定性策略梯度（Ｄｅｅｐ?Ｄｅｔｅｒｍｉｎｉｓｔｉｃ?Ｐｏｌｉｃｙ?Ｇｒａｄｉｅｎｔ，?ＤＤＰＧ）算法??［１２】。ＤＤＰＧ算法整體上采用的是Ａｃｔｏｒ－Ｃｒｉｔｉｃ框架，Ｃｒｉｔｉｃ部分應(yīng)用ＤＱＮ算法，??采用隨機(jī)采樣和單獨(dú)的目標(biāo)網(wǎng)絡(luò)方法，減少樣本數(shù)據(jù)之間的關(guān)聯(lián)性，并利用基于??ＤＰＧ的Ａｃｔｏｒ－Ｃｒｉｔｉｃ算法處理連續(xù)動(dòng)作空間。２０１６年，Ｓｉｌｖｅｒ等［１３］將深度強(qiáng)化學(xué)??習(xí)算法應(yīng)用到圍棋游戲中，利用蒙特卡洛樹搜索算法訓(xùn)練智能圍棋“Ａｌｐｈａ?Ｇｏ”，??并與圍棋冠軍李世石對賽，取得了四比一的勝利。這一事件代表了人工智能技術(shù)??應(yīng)用的潛力，深度強(qiáng)化學(xué)習(xí)取得了學(xué)術(shù)領(lǐng)域和工程領(lǐng)域等專家的關(guān)注。??近兩年，國內(nèi)外研宄人員嘗試將深度強(qiáng)化學(xué)習(xí)應(yīng)用到各個(gè)領(lǐng)域，在無人機(jī)、??物流機(jī)器人、機(jī)器

基于深度強(qiáng)化學(xué)習(xí)的端到端自動(dòng)駕駛技術(shù)研究

圖１．３混合ＣＮＮ－ＲＮＮ的結(jié)構(gòu)丨１７丨??

【參考文獻(xiàn)】：
期刊論文
[1]域自適應(yīng)學(xué)習(xí)研究進(jìn)展[J]. 劉建偉,孫正康,羅雄麟. 自動(dòng)化學(xué)報(bào). 2014(08)

本文編號(hào)：3217438

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3217438.html

上一篇：軌檢儀水平傳感器溫度補(bǔ)償模型研究
下一篇：基于多輪足的自平衡越障爬樓梯機(jī)器人研發(fā)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度強(qiáng)化學(xué)習(xí)的端到端自動(dòng)駕駛技術(shù)研究