基于深度Q網(wǎng)絡(luò)的水面無人艇路徑規(guī)劃算法

發(fā)布時間：2021-06-09 08:35

　　為實現(xiàn)水面無人艇（unmanned surface vessel, USV）在未知環(huán)境下的自主避障航行,提出一種基于深度Q網(wǎng)絡(luò)的USV避障路徑規(guī)劃算法。該算法將深度學(xué)習(xí)應(yīng)用到Q學(xué)習(xí)算法中,利用深度神經(jīng)網(wǎng)絡(luò)估計Q函數(shù),有效解決傳統(tǒng)Q學(xué)習(xí)算法在復(fù)雜水域環(huán)境的路徑規(guī)劃中容易產(chǎn)生維數(shù)災(zāi)難的問題。通過訓(xùn)練模型可有效地建立感知（輸入）與決策（輸出）之間的映射關(guān)系。依據(jù)此映射關(guān)系,USV在每個決策周期選擇Q值最大的動作執(zhí)行,從而能夠成功避開障礙物并規(guī)劃出最優(yōu)路線。仿真結(jié)果表明,在迭代訓(xùn)練8 000次時,平均損失函數(shù)能夠較好地收斂,這證明USV有效學(xué)習(xí)到了如何避開障礙物并規(guī)劃出最優(yōu)路線。該方法是一種不依賴模型的端到端路徑規(guī)劃算法。

【文章來源】：上海海事大學(xué)學(xué)報. 2020,41(03)北大核心

【文章頁數(shù)】：6 頁

【部分圖文】：

仿真環(huán)境二維直角坐標(biāo)系

效果圖,路徑規(guī)劃,效果,障礙物

為簡化仿真實驗復(fù)雜度,仿真實驗僅在模擬的水上障礙物靜態(tài)環(huán)境中進(jìn)行,在實驗前期USV在不同的時間步與障礙物發(fā)生碰撞,環(huán)境給出懲罰,以降低下次出現(xiàn)相似狀況的概率,有效指引USV選擇最優(yōu)策略。在上述4種仿真環(huán)境中的路徑規(guī)劃效果見圖6。在訓(xùn)練開始時,USV會多次與障礙物發(fā)生碰撞且規(guī)劃路徑波動較大;在訓(xùn)練3 000次時,算法逐漸規(guī)劃出安全路徑,但此時路徑并非最短,所耗費時間也較長;在訓(xùn)練5 000次時,系統(tǒng)可以有效避開障礙物,算法趨于平穩(wěn)并逐漸規(guī)劃出有效路徑,所需時間也明顯縮短;當(dāng)訓(xùn)練8 000次時,系統(tǒng)可以高效避開障礙物并規(guī)劃出最優(yōu)路徑。表2為在上述4種仿真環(huán)境中分別訓(xùn)練不同次數(shù)產(chǎn)生的數(shù)據(jù)平均值。

損失函數(shù)

從訓(xùn)練數(shù)據(jù)中隨機(jī)選出一批圖片進(jìn)行訓(xùn)練,其權(quán)值更新取決于損失函數(shù),隨著訓(xùn)練次數(shù)的增加,式(11)的 max Q(s t+1 ,a t+1 | s,a ) 對應(yīng)上、下、左、右4個動作中的Q值的最大值。首先將神經(jīng)網(wǎng)絡(luò)預(yù)測的Q值存儲起來。經(jīng)過一段時間的訓(xùn)練,更新Q值并存儲在與訓(xùn)練模型相同的文本文件中。新Q值又可以用來訓(xùn)練模型。重復(fù)幾個步驟,直到算法學(xué)習(xí)到所需的特性。當(dāng)訓(xùn)練開始時,神經(jīng)網(wǎng)絡(luò)估計的Q值與真實Q值的差值較大,此時的損失函數(shù)波動加大(見圖7),顯然此時算法還沒有學(xué)會如何避開障礙物。隨著訓(xùn)練次數(shù)的增加,算法逐漸學(xué)會捕捉相應(yīng)的特性,當(dāng)訓(xùn)練結(jié)束時算法的平均損失已經(jīng)明顯收斂(見圖8),這表明網(wǎng)絡(luò)誤差較小,USV已經(jīng)很好地學(xué)會如何避開障礙物規(guī)劃安全航線。圖8 訓(xùn)練結(jié)束時損失函數(shù)波動

【參考文獻(xiàn)】：
期刊論文
[1]基于非策略Q-學(xué)習(xí)的網(wǎng)絡(luò)控制系統(tǒng)最優(yōu)跟蹤控制[J]. 李金娜,尹子軒.  控制與決策. 2019(11)
[2]卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化綜述[J]. 林景棟,吳欣怡,柴毅,尹宏鵬.  自動化學(xué)報. 2020(01)
[3]基于強(qiáng)化學(xué)習(xí)的移動機(jī)器人路徑規(guī)劃研究綜述[J]. 劉志榮,姜樹海.  制造業(yè)自動化. 2019(03)
[4]基于神經(jīng)網(wǎng)絡(luò)Q-learning算法的智能車路徑規(guī)劃[J]. 衛(wèi)玉梁,靳伍銀.  火力與指揮控制. 2019(02)
[5]基于Q-Learning的無人駕駛船舶路徑規(guī)劃[J]. 王程博,張新宇,鄒志強(qiáng),王少博.  船海工程. 2018(05)
[6]基于灰色馬爾科夫模型的船舶交通流預(yù)測[J]. 劉成勇,萬偉強(qiáng),陳蜀喆,甘浪雄.  中國航海. 2018(03)
[7]基于改進(jìn)人工勢場法的水面無人艇路徑規(guī)劃研究[J]. 陳超,耿沛文,張新慈.  船舶工程. 2015(09)
[8]GIS空間分析中兩種改進(jìn)的路徑規(guī)劃算法[J]. 邱育紅.  計算機(jī)系統(tǒng)應(yīng)用. 2007(07)

本文編號：3220252

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/chuanbolw/3220252.html

上一篇：基于物聯(lián)網(wǎng)技術(shù)的船舶短波通信數(shù)據(jù)抗干擾控制方法
下一篇：全驅(qū)動船舶軌跡跟蹤的自適應(yīng)動態(tài)面控制研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度Q網(wǎng)絡(luò)的水面無人艇路徑規(guī)劃算法