基于深度Q網(wǎng)絡(luò)的水面無人艇路徑規(guī)劃算法
發(fā)布時間:2021-06-09 08:35
為實(shí)現(xiàn)水面無人艇(unmanned surface vessel, USV)在未知環(huán)境下的自主避障航行,提出一種基于深度Q網(wǎng)絡(luò)的USV避障路徑規(guī)劃算法。該算法將深度學(xué)習(xí)應(yīng)用到Q學(xué)習(xí)算法中,利用深度神經(jīng)網(wǎng)絡(luò)估計Q函數(shù),有效解決傳統(tǒng)Q學(xué)習(xí)算法在復(fù)雜水域環(huán)境的路徑規(guī)劃中容易產(chǎn)生維數(shù)災(zāi)難的問題。通過訓(xùn)練模型可有效地建立感知(輸入)與決策(輸出)之間的映射關(guān)系。依據(jù)此映射關(guān)系,USV在每個決策周期選擇Q值最大的動作執(zhí)行,從而能夠成功避開障礙物并規(guī)劃出最優(yōu)路線。仿真結(jié)果表明,在迭代訓(xùn)練8 000次時,平均損失函數(shù)能夠較好地收斂,這證明USV有效學(xué)習(xí)到了如何避開障礙物并規(guī)劃出最優(yōu)路線。該方法是一種不依賴模型的端到端路徑規(guī)劃算法。
【文章來源】:上海海事大學(xué)學(xué)報. 2020,41(03)北大核心
【文章頁數(shù)】:6 頁
【部分圖文】:
仿真環(huán)境二維 直角坐標(biāo)系
為簡化仿真實(shí)驗(yàn)復(fù)雜度,仿真實(shí)驗(yàn)僅在模擬的水上障礙物靜態(tài)環(huán)境中進(jìn)行,在實(shí)驗(yàn)前期USV在不同的時間步與障礙物發(fā)生碰撞,環(huán)境給出懲罰,以降低下次出現(xiàn)相似狀況的概率,有效指引USV選擇最優(yōu)策略。在上述4種仿真環(huán)境中的路徑規(guī)劃效果見圖6。在訓(xùn)練開始時,USV會多次與障礙物發(fā)生碰撞且規(guī)劃路徑波動較大;在訓(xùn)練3 000次時,算法逐漸規(guī)劃出安全路徑,但此時路徑并非最短,所耗費(fèi)時間也較長;在訓(xùn)練5 000次時,系統(tǒng)可以有效避開障礙物,算法趨于平穩(wěn)并逐漸規(guī)劃出有效路徑,所需時間也明顯縮短;當(dāng)訓(xùn)練8 000次時,系統(tǒng)可以高效避開障礙物并規(guī)劃出最優(yōu)路徑。表2為在上述4種仿真環(huán)境中分別訓(xùn)練不同次數(shù)產(chǎn)生的數(shù)據(jù)平均值。
從訓(xùn)練數(shù)據(jù)中隨機(jī)選出一批圖片進(jìn)行訓(xùn)練,其權(quán)值更新取決于損失函數(shù),隨著訓(xùn)練次數(shù)的增加,式(11)的 max Q(s t+1 ,a t+1 | s,a ) 對應(yīng)上、下、左、右4個動作中的Q值的最大值。首先將神經(jīng)網(wǎng)絡(luò)預(yù)測的Q值存儲起來。經(jīng)過一段時間的訓(xùn)練,更新Q值并存儲在與訓(xùn)練模型相同的文本文件中。新Q值又可以用來訓(xùn)練模型。重復(fù)幾個步驟,直到算法學(xué)習(xí)到所需的特性。當(dāng)訓(xùn)練開始時,神經(jīng)網(wǎng)絡(luò)估計的Q值與真實(shí)Q值的差值較大,此時的損失函數(shù)波動加大(見圖7),顯然此時算法還沒有學(xué)會如何避開障礙物。隨著訓(xùn)練次數(shù)的增加,算法逐漸學(xué)會捕捉相應(yīng)的特性,當(dāng)訓(xùn)練結(jié)束時算法的平均損失已經(jīng)明顯收斂(見圖8),這表明網(wǎng)絡(luò)誤差較小,USV已經(jīng)很好地學(xué)會如何避開障礙物規(guī)劃安全航線。圖8 訓(xùn)練結(jié)束時損失函數(shù)波動
【參考文獻(xiàn)】:
期刊論文
[1]基于非策略Q-學(xué)習(xí)的網(wǎng)絡(luò)控制系統(tǒng)最優(yōu)跟蹤控制[J]. 李金娜,尹子軒. 控制與決策. 2019(11)
[2]卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化綜述[J]. 林景棟,吳欣怡,柴毅,尹宏鵬. 自動化學(xué)報. 2020(01)
[3]基于強(qiáng)化學(xué)習(xí)的移動機(jī)器人路徑規(guī)劃研究綜述[J]. 劉志榮,姜樹海. 制造業(yè)自動化. 2019(03)
[4]基于神經(jīng)網(wǎng)絡(luò)Q-learning算法的智能車路徑規(guī)劃[J]. 衛(wèi)玉梁,靳伍銀. 火力與指揮控制. 2019(02)
[5]基于Q-Learning的無人駕駛船舶路徑規(guī)劃[J]. 王程博,張新宇,鄒志強(qiáng),王少博. 船海工程. 2018(05)
[6]基于灰色馬爾科夫模型的船舶交通流預(yù)測[J]. 劉成勇,萬偉強(qiáng),陳蜀喆,甘浪雄. 中國航海. 2018(03)
[7]基于改進(jìn)人工勢場法的水面無人艇路徑規(guī)劃研究[J]. 陳超,耿沛文,張新慈. 船舶工程. 2015(09)
[8]GIS空間分析中兩種改進(jìn)的路徑規(guī)劃算法[J]. 邱育紅. 計算機(jī)系統(tǒng)應(yīng)用. 2007(07)
本文編號:3220252
【文章來源】:上海海事大學(xué)學(xué)報. 2020,41(03)北大核心
【文章頁數(shù)】:6 頁
【部分圖文】:
仿真環(huán)境二維 直角坐標(biāo)系
為簡化仿真實(shí)驗(yàn)復(fù)雜度,仿真實(shí)驗(yàn)僅在模擬的水上障礙物靜態(tài)環(huán)境中進(jìn)行,在實(shí)驗(yàn)前期USV在不同的時間步與障礙物發(fā)生碰撞,環(huán)境給出懲罰,以降低下次出現(xiàn)相似狀況的概率,有效指引USV選擇最優(yōu)策略。在上述4種仿真環(huán)境中的路徑規(guī)劃效果見圖6。在訓(xùn)練開始時,USV會多次與障礙物發(fā)生碰撞且規(guī)劃路徑波動較大;在訓(xùn)練3 000次時,算法逐漸規(guī)劃出安全路徑,但此時路徑并非最短,所耗費(fèi)時間也較長;在訓(xùn)練5 000次時,系統(tǒng)可以有效避開障礙物,算法趨于平穩(wěn)并逐漸規(guī)劃出有效路徑,所需時間也明顯縮短;當(dāng)訓(xùn)練8 000次時,系統(tǒng)可以高效避開障礙物并規(guī)劃出最優(yōu)路徑。表2為在上述4種仿真環(huán)境中分別訓(xùn)練不同次數(shù)產(chǎn)生的數(shù)據(jù)平均值。
從訓(xùn)練數(shù)據(jù)中隨機(jī)選出一批圖片進(jìn)行訓(xùn)練,其權(quán)值更新取決于損失函數(shù),隨著訓(xùn)練次數(shù)的增加,式(11)的 max Q(s t+1 ,a t+1 | s,a ) 對應(yīng)上、下、左、右4個動作中的Q值的最大值。首先將神經(jīng)網(wǎng)絡(luò)預(yù)測的Q值存儲起來。經(jīng)過一段時間的訓(xùn)練,更新Q值并存儲在與訓(xùn)練模型相同的文本文件中。新Q值又可以用來訓(xùn)練模型。重復(fù)幾個步驟,直到算法學(xué)習(xí)到所需的特性。當(dāng)訓(xùn)練開始時,神經(jīng)網(wǎng)絡(luò)估計的Q值與真實(shí)Q值的差值較大,此時的損失函數(shù)波動加大(見圖7),顯然此時算法還沒有學(xué)會如何避開障礙物。隨著訓(xùn)練次數(shù)的增加,算法逐漸學(xué)會捕捉相應(yīng)的特性,當(dāng)訓(xùn)練結(jié)束時算法的平均損失已經(jīng)明顯收斂(見圖8),這表明網(wǎng)絡(luò)誤差較小,USV已經(jīng)很好地學(xué)會如何避開障礙物規(guī)劃安全航線。圖8 訓(xùn)練結(jié)束時損失函數(shù)波動
【參考文獻(xiàn)】:
期刊論文
[1]基于非策略Q-學(xué)習(xí)的網(wǎng)絡(luò)控制系統(tǒng)最優(yōu)跟蹤控制[J]. 李金娜,尹子軒. 控制與決策. 2019(11)
[2]卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化綜述[J]. 林景棟,吳欣怡,柴毅,尹宏鵬. 自動化學(xué)報. 2020(01)
[3]基于強(qiáng)化學(xué)習(xí)的移動機(jī)器人路徑規(guī)劃研究綜述[J]. 劉志榮,姜樹海. 制造業(yè)自動化. 2019(03)
[4]基于神經(jīng)網(wǎng)絡(luò)Q-learning算法的智能車路徑規(guī)劃[J]. 衛(wèi)玉梁,靳伍銀. 火力與指揮控制. 2019(02)
[5]基于Q-Learning的無人駕駛船舶路徑規(guī)劃[J]. 王程博,張新宇,鄒志強(qiáng),王少博. 船海工程. 2018(05)
[6]基于灰色馬爾科夫模型的船舶交通流預(yù)測[J]. 劉成勇,萬偉強(qiáng),陳蜀喆,甘浪雄. 中國航海. 2018(03)
[7]基于改進(jìn)人工勢場法的水面無人艇路徑規(guī)劃研究[J]. 陳超,耿沛文,張新慈. 船舶工程. 2015(09)
[8]GIS空間分析中兩種改進(jìn)的路徑規(guī)劃算法[J]. 邱育紅. 計算機(jī)系統(tǒng)應(yīng)用. 2007(07)
本文編號:3220252
本文鏈接:http://sikaile.net/kejilunwen/chuanbolw/3220252.html
最近更新
教材專著