基于深度強(qiáng)化學(xué)習(xí)的端到端自動(dòng)駕駛技術(shù)研究
發(fā)布時(shí)間:2021-06-07 22:34
自動(dòng)駕駛的任務(wù)是車輛通過各種傳感器感知道路環(huán)境,在沒有人為進(jìn)行干預(yù)的情況下,實(shí)時(shí)地改變駕駛的行為,包括轉(zhuǎn)向、加速和制動(dòng)等。實(shí)現(xiàn)自動(dòng)駕駛可以使交通事故的發(fā)生減少,道路交通資源得到更合理的利用,因此研究自動(dòng)駕駛技術(shù)具有非常重要的意義。由于端到端的自動(dòng)駕駛不需要人為指定規(guī)則,而直接學(xué)習(xí)駕駛動(dòng)作,所以端到端方法的研究是自動(dòng)駕駛領(lǐng)域的重要研究方向之一。深度強(qiáng)化學(xué)習(xí)方法通過和環(huán)境交互學(xué)習(xí)策略與人類學(xué)習(xí)駕駛的方式相似,被廣泛用于端到端駕駛?cè)蝿?wù)中。本文利用深度強(qiáng)化學(xué)習(xí)算法,對虛擬環(huán)境下車輛的自動(dòng)駕駛進(jìn)行研究。該算法是基于深度確定性策略梯度算法的改進(jìn),針對訓(xùn)練樣本利用率低的問題,將優(yōu)先經(jīng)驗(yàn)回放方法與深度確定性策略梯度算法相結(jié)合,從仿真環(huán)境中獲取原始的傳感器輸入,模型輸出連續(xù)的加速、轉(zhuǎn)向、制動(dòng)行為,并將訓(xùn)練數(shù)據(jù)存入緩沖區(qū)中,通過優(yōu)先經(jīng)驗(yàn)回放的高效采樣方法,實(shí)現(xiàn)訓(xùn)練速度的加快。由于深度強(qiáng)化學(xué)習(xí)需要車輛與環(huán)境進(jìn)行多次交互,訓(xùn)練過程中會(huì)出現(xiàn)錯(cuò)誤的駕駛行為,在現(xiàn)實(shí)中訓(xùn)練自動(dòng)駕駛會(huì)對車輛和周圍環(huán)境造成不可估量的損害,所以本實(shí)驗(yàn)是在仿真平臺(tái)的虛擬環(huán)境中實(shí)現(xiàn)的,然而端到端駕駛的最終目標(biāo)是使真實(shí)車輛在現(xiàn)實(shí)環(huán)境中自主做出駕...
【文章來源】:中國科學(xué)院大學(xué)(中國科學(xué)院大學(xué)人工智能學(xué)院)北京市
【文章頁數(shù)】:80 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1.1深度Q網(wǎng)絡(luò)基本結(jié)構(gòu)i5l??
?基于深度強(qiáng)化學(xué)習(xí)的端到端自動(dòng)駕駛技術(shù)研究???Global?Network??r'—一邊??'?^??_(s)??z?/?\?、???戀麵麵?SI??r.:l?;:.:;:l?它?I?…?::l??Worker?1?Worker?2?Worker?3?Wort?rn??I?t?t?f??Enwroomern?1?Envifoomaw?2?Env*t>om〇nt3?...?£nv*〇wneMn??圖1.2A3C模型??Figure?1.2?The?model?of?A3C??2014?年,Sliver?提出了確定性策略搜索(Deterministic?Policy?Gradient,?DPG)??算法111],采用確定性的動(dòng)作代替隨機(jī)動(dòng)作的選擇。2016年,Lillicrap等在此基礎(chǔ)??上提出了深度確定性策略梯度(Deep?Deterministic?Policy?Gradient,?DDPG)算法??[12】。DDPG算法整體上采用的是Actor-Critic框架,Critic部分應(yīng)用DQN算法,??采用隨機(jī)采樣和單獨(dú)的目標(biāo)網(wǎng)絡(luò)方法,減少樣本數(shù)據(jù)之間的關(guān)聯(lián)性,并利用基于??DPG的Actor-Critic算法處理連續(xù)動(dòng)作空間。2016年,Silver等[13]將深度強(qiáng)化學(xué)??習(xí)算法應(yīng)用到圍棋游戲中,利用蒙特卡洛樹搜索算法訓(xùn)練智能圍棋“Alpha?Go”,??并與圍棋冠軍李世石對賽,取得了四比一的勝利。這一事件代表了人工智能技術(shù)??應(yīng)用的潛力,深度強(qiáng)化學(xué)習(xí)取得了學(xué)術(shù)領(lǐng)域和工程領(lǐng)域等專家的關(guān)注。??近兩年,國內(nèi)外研宄人員嘗試將深度強(qiáng)化學(xué)習(xí)應(yīng)用到各個(gè)領(lǐng)域,在無人機(jī)、??物流機(jī)器人、機(jī)器
圖1.3混合CNN-RNN的結(jié)構(gòu)丨17丨??
【參考文獻(xiàn)】:
期刊論文
[1]域自適應(yīng)學(xué)習(xí)研究進(jìn)展[J]. 劉建偉,孫正康,羅雄麟. 自動(dòng)化學(xué)報(bào). 2014(08)
本文編號(hào):3217438
【文章來源】:中國科學(xué)院大學(xué)(中國科學(xué)院大學(xué)人工智能學(xué)院)北京市
【文章頁數(shù)】:80 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1.1深度Q網(wǎng)絡(luò)基本結(jié)構(gòu)i5l??
?基于深度強(qiáng)化學(xué)習(xí)的端到端自動(dòng)駕駛技術(shù)研究???Global?Network??r'—一邊??'?^??_(s)??z?/?\?、???戀麵麵?SI??r.:l?;:.:;:l?它?I?…?::l??Worker?1?Worker?2?Worker?3?Wort?rn??I?t?t?f??Enwroomern?1?Envifoomaw?2?Env*t>om〇nt3?...?£nv*〇wneMn??圖1.2A3C模型??Figure?1.2?The?model?of?A3C??2014?年,Sliver?提出了確定性策略搜索(Deterministic?Policy?Gradient,?DPG)??算法111],采用確定性的動(dòng)作代替隨機(jī)動(dòng)作的選擇。2016年,Lillicrap等在此基礎(chǔ)??上提出了深度確定性策略梯度(Deep?Deterministic?Policy?Gradient,?DDPG)算法??[12】。DDPG算法整體上采用的是Actor-Critic框架,Critic部分應(yīng)用DQN算法,??采用隨機(jī)采樣和單獨(dú)的目標(biāo)網(wǎng)絡(luò)方法,減少樣本數(shù)據(jù)之間的關(guān)聯(lián)性,并利用基于??DPG的Actor-Critic算法處理連續(xù)動(dòng)作空間。2016年,Silver等[13]將深度強(qiáng)化學(xué)??習(xí)算法應(yīng)用到圍棋游戲中,利用蒙特卡洛樹搜索算法訓(xùn)練智能圍棋“Alpha?Go”,??并與圍棋冠軍李世石對賽,取得了四比一的勝利。這一事件代表了人工智能技術(shù)??應(yīng)用的潛力,深度強(qiáng)化學(xué)習(xí)取得了學(xué)術(shù)領(lǐng)域和工程領(lǐng)域等專家的關(guān)注。??近兩年,國內(nèi)外研宄人員嘗試將深度強(qiáng)化學(xué)習(xí)應(yīng)用到各個(gè)領(lǐng)域,在無人機(jī)、??物流機(jī)器人、機(jī)器
圖1.3混合CNN-RNN的結(jié)構(gòu)丨17丨??
【參考文獻(xiàn)】:
期刊論文
[1]域自適應(yīng)學(xué)習(xí)研究進(jìn)展[J]. 劉建偉,孫正康,羅雄麟. 自動(dòng)化學(xué)報(bào). 2014(08)
本文編號(hào):3217438
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3217438.html
最近更新
教材專著