基于強化學(xué)習(xí)的自動泊車運動規(guī)劃
發(fā)布時間:2022-01-05 21:12
自動泊車運動規(guī)劃需滿足安全性、舒適性、最終泊車位姿等多目標(biāo)最優(yōu)。提出一種基于模型的強化學(xué)習(xí)運動規(guī)劃方法,以最大限度擺脫人類泊車經(jīng)驗,并綜合考慮上述需求。建立了用于逼近實車的仿真模型;構(gòu)建了基于加速度和距離控制的縱向策略;基于蒙特卡洛樹搜索和神經(jīng)網(wǎng)絡(luò),結(jié)合構(gòu)建的縱向策略強化學(xué)習(xí),最終收斂得到最優(yōu)的泊車策略,迭代過程中的獎勵函數(shù)綜合考慮安全性、舒適性及最終泊車位姿等因素;通過實車實驗對獲得的泊車策略進行了驗證。結(jié)果表明,規(guī)劃策略能夠滿足對安全性、舒適性、最終泊車位姿等多目標(biāo)最優(yōu)的需求。
【文章來源】:同濟大學(xué)學(xué)報(自然科學(xué)版). 2019,47(S1)北大核心EICSCD
【文章頁數(shù)】:5 頁
【部分圖文】:
平行泊車庫位模型
泊車策略強化學(xué)習(xí)系統(tǒng)架構(gòu)圖見圖2。每次數(shù)據(jù)迭代分3個階段:(1)產(chǎn)生數(shù)據(jù)階段,基于MCTS(Monte Carlo tree search)和訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò),結(jié)合車速策略控制車輛模型,針對不同工況(不同庫位及起始位姿)仿真,產(chǎn)生泊車數(shù)據(jù)。神經(jīng)網(wǎng)絡(luò)為MCTS提供不同轉(zhuǎn)角的概率分布,引導(dǎo)搜索過程。模擬過程中,MCTS兼顧神經(jīng)網(wǎng)絡(luò)的引導(dǎo)與一定的隨機探索。(2)評價數(shù)據(jù)階段,利用構(gòu)建的獎勵函數(shù)評價泊車數(shù)據(jù)質(zhì)量。獎勵函數(shù)綜合考慮安全性、舒適性以及最終泊車位姿等因素,最終,篩選出各仿真工況下泊車質(zhì)量最佳的數(shù)據(jù)。(3)更新網(wǎng)絡(luò)階段,利用篩選的質(zhì)量最優(yōu)的數(shù)據(jù)更新網(wǎng)絡(luò)參數(shù)。該更新的網(wǎng)絡(luò)又用到下一次迭代產(chǎn)生數(shù)據(jù)中,從而為MCTS提供更強的搜索引導(dǎo)。這樣使得產(chǎn)生的泊車數(shù)據(jù)質(zhì)量不斷提升,學(xué)習(xí)到的泊車策略不斷增強,最終收斂到最優(yōu),從而達到自主學(xué)習(xí)的目的。
安全是對泊車系統(tǒng)最基本的要求。因此,安全性在獎勵函數(shù)中應(yīng)該被賦予足夠的權(quán)重。圖4為平行泊車場景示意圖,入庫過程中,組成庫位邊界的前車左側(cè)和后側(cè)以及兩條邊的交點(即左后角點)為容易發(fā)生碰撞的區(qū)域。設(shè)置安全距離dsafe,即圖4中曲線所包圍的區(qū)域為碰撞區(qū)域。若車輛進入該區(qū)域,即賦予很大的懲罰值;否則,該項值為0。3.1.2 入庫最終位姿指標(biāo)
【參考文獻】:
期刊論文
[1]自主泊車系統(tǒng)研究綜述[J]. 石天聰,劉雪,余政濤. 汽車實用技術(shù). 2021(09)
[2]基于改進深度強化學(xué)習(xí)的自動泊車路徑規(guī)劃[J]. 陳鑫,蘭鳳崇,陳吉清. 重慶理工大學(xué)學(xué)報(自然科學(xué)). 2021(07)
博士論文
[1]自主泊車的最優(yōu)軌跡規(guī)劃與跟蹤控制研究[D]. 吳冰.合肥工業(yè)大學(xué) 2021
碩士論文
[1]基于多信息融合的自動泊車控制系統(tǒng)研究[D]. 曾虹鈞.西安科技大學(xué) 2020
本文編號:3571084
【文章來源】:同濟大學(xué)學(xué)報(自然科學(xué)版). 2019,47(S1)北大核心EICSCD
【文章頁數(shù)】:5 頁
【部分圖文】:
平行泊車庫位模型
泊車策略強化學(xué)習(xí)系統(tǒng)架構(gòu)圖見圖2。每次數(shù)據(jù)迭代分3個階段:(1)產(chǎn)生數(shù)據(jù)階段,基于MCTS(Monte Carlo tree search)和訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò),結(jié)合車速策略控制車輛模型,針對不同工況(不同庫位及起始位姿)仿真,產(chǎn)生泊車數(shù)據(jù)。神經(jīng)網(wǎng)絡(luò)為MCTS提供不同轉(zhuǎn)角的概率分布,引導(dǎo)搜索過程。模擬過程中,MCTS兼顧神經(jīng)網(wǎng)絡(luò)的引導(dǎo)與一定的隨機探索。(2)評價數(shù)據(jù)階段,利用構(gòu)建的獎勵函數(shù)評價泊車數(shù)據(jù)質(zhì)量。獎勵函數(shù)綜合考慮安全性、舒適性以及最終泊車位姿等因素,最終,篩選出各仿真工況下泊車質(zhì)量最佳的數(shù)據(jù)。(3)更新網(wǎng)絡(luò)階段,利用篩選的質(zhì)量最優(yōu)的數(shù)據(jù)更新網(wǎng)絡(luò)參數(shù)。該更新的網(wǎng)絡(luò)又用到下一次迭代產(chǎn)生數(shù)據(jù)中,從而為MCTS提供更強的搜索引導(dǎo)。這樣使得產(chǎn)生的泊車數(shù)據(jù)質(zhì)量不斷提升,學(xué)習(xí)到的泊車策略不斷增強,最終收斂到最優(yōu),從而達到自主學(xué)習(xí)的目的。
安全是對泊車系統(tǒng)最基本的要求。因此,安全性在獎勵函數(shù)中應(yīng)該被賦予足夠的權(quán)重。圖4為平行泊車場景示意圖,入庫過程中,組成庫位邊界的前車左側(cè)和后側(cè)以及兩條邊的交點(即左后角點)為容易發(fā)生碰撞的區(qū)域。設(shè)置安全距離dsafe,即圖4中曲線所包圍的區(qū)域為碰撞區(qū)域。若車輛進入該區(qū)域,即賦予很大的懲罰值;否則,該項值為0。3.1.2 入庫最終位姿指標(biāo)
【參考文獻】:
期刊論文
[1]自主泊車系統(tǒng)研究綜述[J]. 石天聰,劉雪,余政濤. 汽車實用技術(shù). 2021(09)
[2]基于改進深度強化學(xué)習(xí)的自動泊車路徑規(guī)劃[J]. 陳鑫,蘭鳳崇,陳吉清. 重慶理工大學(xué)學(xué)報(自然科學(xué)). 2021(07)
博士論文
[1]自主泊車的最優(yōu)軌跡規(guī)劃與跟蹤控制研究[D]. 吳冰.合肥工業(yè)大學(xué) 2021
碩士論文
[1]基于多信息融合的自動泊車控制系統(tǒng)研究[D]. 曾虹鈞.西安科技大學(xué) 2020
本文編號:3571084
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3571084.html
最近更新
教材專著