基于DDPG算法的船舶避碰路徑規(guī)劃研究
發(fā)布時間:2021-07-09 15:17
隨著內(nèi)河水運業(yè)的快速發(fā)展,運輸船舶日漸增加,船舶航行安全受到越來越多的關(guān)注。船舶避碰作為船舶航行安全的核心問題,逐漸成為當(dāng)前眾多學(xué)者研究的熱點。深度強化學(xué)習(xí)是一種通過與環(huán)境交互學(xué)習(xí)得到優(yōu)秀策略的算法,目前在車輛自動駕駛領(lǐng)域研究中取得了突破性的進(jìn)展。船舶避碰的過程與車輛的自動駕駛具有很高的相似性,部分在車輛駕駛領(lǐng)域的研究成果可以應(yīng)用到船舶避碰研究中。本文主要采用了基于深度確定性策略梯度(Deep Deterministic Policy Gradient,簡稱DDPG)的強化學(xué)習(xí)算法,并結(jié)合船舶航行特征,對船舶的智能避碰路徑規(guī)劃開展了研究。本文通過構(gòu)建“天地圖”與船舶自動識別系統(tǒng)融合的狹窄水域船舶領(lǐng)域數(shù)學(xué)模型,建立了高度真實的船舶避碰仿真環(huán)境,開展基于DDPG算法的船舶避碰路徑規(guī)劃研究。為提高游船船舶領(lǐng)域的精確度,本文基于周莊水域?qū)嶋H航道環(huán)境,并結(jié)合AIS數(shù)據(jù)和人為觀測數(shù)據(jù)構(gòu)建了改進(jìn)的游船船舶領(lǐng)域模型。為搭建基于DDPG算法的船舶避碰路徑規(guī)劃框架,本文設(shè)計了 DDPG算法的狀態(tài)、動作、獎勵值以及神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);通過在訓(xùn)練中模擬船舶的各種會遇場景,實現(xiàn)了船舶在不同會遇場景下的避碰路徑規(guī)劃;針...
【文章來源】:蘇州大學(xué)江蘇省 211工程院校
【文章頁數(shù)】:81 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.4?Actor-Critic算法框架??
ient)為基礎(chǔ)丨4>1,足-種??確定性策略的算法。確定性策略選取動作的方式與隨機性策略不同,隨機性策略??選取動作時服從一定的概率分布,即在狀態(tài)心時按照概率分布函數(shù)沖(at|st)選取??動作at;而確定性策略輸出動作唯-,在當(dāng)前策略K狀態(tài)st對應(yīng)一個確定的動作??at。與隨機性策略相比,確定性策略具有采樣數(shù)據(jù)讀少,算法效書高的優(yōu)點。??DDPG算法借鑒了?DQN算法的成功經(jīng)驗,使用深度神經(jīng)M絡(luò)擬合策略和價??值函數(shù),運用經(jīng)驗丨"丨放和H標(biāo)N絡(luò)技術(shù)提高算法的收斂性與穩(wěn)走性。??圖2.6為應(yīng)用L)I)PG實現(xiàn)船舶避碰路徑規(guī)劃的框架:??actor?critic??更新參數(shù)?“策略梯度?更新參數(shù)?“?Q梯度??0"?j?S'!??『上,丄■?』:\輸山動仏?onie策略網(wǎng)絡(luò)?[*??OTlinea網(wǎng)絡(luò)??腳酬亞腿?,?<3?-?參數(shù)f??參數(shù)f??丨刪_ ̄ ̄丨賬補A??r ̄——^根據(jù)策? ̄ ̄T—-H——??及14?軟更新1?略選擇動作輸出4?i軟更新??target策略網(wǎng)絡(luò)?^?target?Q網(wǎng)絡(luò)??r ̄根據(jù)_(策 ̄1?;敗"廣???T?略選擇動作?][???存儲(kabfVwSm)????、??????[Si/3'f?r???:,?s?i?]????經(jīng)驗池?N?[Si,ai;r-:,Si.i]??^?^隨機采樣?I?[s.'ak,r.-,.s,.'j??Minibatch??圖2.6?DDPG實現(xiàn)船舶避碰路徑規(guī)劃的框架??如圖2.6,?DDPG算法通過與船舶路徑規(guī)劃環(huán)境交互獲得樣本數(shù)據(jù)??〇t,czt,rt+1,st+1),汴
?episode=0?儲存經(jīng)驗至經(jīng)驗池??丁???? ̄<^episode<M?從經(jīng)驗池中隨機選??擇?minibatchiJ?丨丨練??——_?T??(々士?由episode=episode+l??-口?¥?J?step=0?更新critic估計網(wǎng)絡(luò)??r?;?1」??初始化隨機H某聲N?更新art〇rtt計網(wǎng)絡(luò)??人?■?I??獲取初始狀態(tài)S?軟更新critic和act?or????目標(biāo)網(wǎng)絡(luò)??step=step+l?? ̄I????圖2.7基于DDPG的船舶避碰路徑規(guī)劃流程圖??2.3本章小結(jié)??本章主要介紹/強化學(xué)習(xí)的理論?礎(chǔ)以及D[)PG算法,強化學(xué)習(xí)的理論基??礎(chǔ)主要包括馬爾可夫決策過程和強化學(xué)習(xí)的分類。DDPG算法則主要介紹了??DQN算法和DDPG船舶避碰路徑規(guī)劃原理。DQN算法是一種基T?值函數(shù)的深??度強化學(xué)習(xí)算法,無法應(yīng)用于連續(xù)的動作空N:?I)[)PG以DPG算法為基礎(chǔ),借??鑒了?DQN算法的成功經(jīng)驗,解決fDQN算:法無法成用連續(xù)動作空N的問題。??船舶進(jìn)行避碰路徑規(guī)劃時需根據(jù)水域環(huán)境信息采収連續(xù)的動作,所以本文采用??DDPG算法可以學(xué)習(xí)到船舶避碰路徑規(guī)劃的優(yōu)秀策略。??13??
【參考文獻(xiàn)】:
期刊論文
[1]復(fù)雜水域船舶智能避碰專家系統(tǒng)設(shè)計[J]. 湯國瑞,謝新連,潘偉. 船海工程. 2019(03)
[2]基于擴展博弈理論的船舶自動避碰決策系統(tǒng)[J]. 孔祥生,卜仁祥,劉勇. 計算機仿真. 2019(05)
[3]基于混合遺傳算法的船舶避碰路徑規(guī)劃[J]. 倪生科,劉正江,蔡垚,王欣. 上海海事大學(xué)學(xué)報. 2019(01)
[4]基于進(jìn)化算法的船舶避碰軌跡建模[J]. 劉超. 西安文理學(xué)院學(xué)報(自然科學(xué)版). 2018(04)
[5]優(yōu)化深度確定性策略梯度算法[J]. 柯豐愷,周唯倜,趙大興. 計算機工程與應(yīng)用. 2019(07)
[6]基于重抽樣優(yōu)選緩存經(jīng)驗回放機制的深度強化學(xué)習(xí)方法[J]. 陳希亮,曹雷,李晨溪,徐志雄,何明. 控制與決策. 2018(04)
[7]谷歌TensorFlow機器學(xué)習(xí)框架及應(yīng)用[J]. 章敏敏,徐和平,王曉潔,周夢昀,洪淑月. 微型機與應(yīng)用. 2017(10)
[8]基于遺傳算法的船舶避碰決策輔助[J]. 倪生科,劉正江,蔡垚,王欣. 上海海事大學(xué)學(xué)報. 2017(01)
[9]基于改進(jìn)蟻群算法的水面無人艇智能避碰方法研究[J]. 尚明棟,朱志宇,周濤. 船舶工程. 2016(09)
[10]人工魚群算法的避碰路徑規(guī)劃決策支持[J]. 馬文耀,吳兆麟,楊家軒,李偉峰. 中國航海. 2014(03)
碩士論文
[1]船舶路徑規(guī)劃算法的研究[D]. 宋勇.武漢理工大學(xué) 2018
本文編號:3273990
【文章來源】:蘇州大學(xué)江蘇省 211工程院校
【文章頁數(shù)】:81 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.4?Actor-Critic算法框架??
ient)為基礎(chǔ)丨4>1,足-種??確定性策略的算法。確定性策略選取動作的方式與隨機性策略不同,隨機性策略??選取動作時服從一定的概率分布,即在狀態(tài)心時按照概率分布函數(shù)沖(at|st)選取??動作at;而確定性策略輸出動作唯-,在當(dāng)前策略K狀態(tài)st對應(yīng)一個確定的動作??at。與隨機性策略相比,確定性策略具有采樣數(shù)據(jù)讀少,算法效書高的優(yōu)點。??DDPG算法借鑒了?DQN算法的成功經(jīng)驗,使用深度神經(jīng)M絡(luò)擬合策略和價??值函數(shù),運用經(jīng)驗丨"丨放和H標(biāo)N絡(luò)技術(shù)提高算法的收斂性與穩(wěn)走性。??圖2.6為應(yīng)用L)I)PG實現(xiàn)船舶避碰路徑規(guī)劃的框架:??actor?critic??更新參數(shù)?“策略梯度?更新參數(shù)?“?Q梯度??0"?j?S'!??『上,丄■?』:\輸山動仏?onie策略網(wǎng)絡(luò)?[*??OTlinea網(wǎng)絡(luò)??腳酬亞腿?,?<3?-?參數(shù)f??參數(shù)f??丨刪_ ̄ ̄丨賬補A??r ̄——^根據(jù)策? ̄ ̄T—-H——??及14?軟更新1?略選擇動作輸出4?i軟更新??target策略網(wǎng)絡(luò)?^?target?Q網(wǎng)絡(luò)??r ̄根據(jù)_(策 ̄1?;敗"廣???T?略選擇動作?][???存儲(kabfVwSm)????、??????[Si/3'f?r???:,?s?i?]????經(jīng)驗池?N?[Si,ai;r-:,Si.i]??^?^隨機采樣?I?[s.'ak,r.-,.s,.'j??Minibatch??圖2.6?DDPG實現(xiàn)船舶避碰路徑規(guī)劃的框架??如圖2.6,?DDPG算法通過與船舶路徑規(guī)劃環(huán)境交互獲得樣本數(shù)據(jù)??〇t,czt,rt+1,st+1),汴
?episode=0?儲存經(jīng)驗至經(jīng)驗池??丁???? ̄<^episode<M?從經(jīng)驗池中隨機選??擇?minibatchiJ?丨丨練??——_?T??(々士?由episode=episode+l??-口?¥?J?step=0?更新critic估計網(wǎng)絡(luò)??r?;?1」??初始化隨機H某聲N?更新art〇rtt計網(wǎng)絡(luò)??人?■?I??獲取初始狀態(tài)S?軟更新critic和act?or????目標(biāo)網(wǎng)絡(luò)??step=step+l?? ̄I????圖2.7基于DDPG的船舶避碰路徑規(guī)劃流程圖??2.3本章小結(jié)??本章主要介紹/強化學(xué)習(xí)的理論?礎(chǔ)以及D[)PG算法,強化學(xué)習(xí)的理論基??礎(chǔ)主要包括馬爾可夫決策過程和強化學(xué)習(xí)的分類。DDPG算法則主要介紹了??DQN算法和DDPG船舶避碰路徑規(guī)劃原理。DQN算法是一種基T?值函數(shù)的深??度強化學(xué)習(xí)算法,無法應(yīng)用于連續(xù)的動作空N:?I)[)PG以DPG算法為基礎(chǔ),借??鑒了?DQN算法的成功經(jīng)驗,解決fDQN算:法無法成用連續(xù)動作空N的問題。??船舶進(jìn)行避碰路徑規(guī)劃時需根據(jù)水域環(huán)境信息采収連續(xù)的動作,所以本文采用??DDPG算法可以學(xué)習(xí)到船舶避碰路徑規(guī)劃的優(yōu)秀策略。??13??
【參考文獻(xiàn)】:
期刊論文
[1]復(fù)雜水域船舶智能避碰專家系統(tǒng)設(shè)計[J]. 湯國瑞,謝新連,潘偉. 船海工程. 2019(03)
[2]基于擴展博弈理論的船舶自動避碰決策系統(tǒng)[J]. 孔祥生,卜仁祥,劉勇. 計算機仿真. 2019(05)
[3]基于混合遺傳算法的船舶避碰路徑規(guī)劃[J]. 倪生科,劉正江,蔡垚,王欣. 上海海事大學(xué)學(xué)報. 2019(01)
[4]基于進(jìn)化算法的船舶避碰軌跡建模[J]. 劉超. 西安文理學(xué)院學(xué)報(自然科學(xué)版). 2018(04)
[5]優(yōu)化深度確定性策略梯度算法[J]. 柯豐愷,周唯倜,趙大興. 計算機工程與應(yīng)用. 2019(07)
[6]基于重抽樣優(yōu)選緩存經(jīng)驗回放機制的深度強化學(xué)習(xí)方法[J]. 陳希亮,曹雷,李晨溪,徐志雄,何明. 控制與決策. 2018(04)
[7]谷歌TensorFlow機器學(xué)習(xí)框架及應(yīng)用[J]. 章敏敏,徐和平,王曉潔,周夢昀,洪淑月. 微型機與應(yīng)用. 2017(10)
[8]基于遺傳算法的船舶避碰決策輔助[J]. 倪生科,劉正江,蔡垚,王欣. 上海海事大學(xué)學(xué)報. 2017(01)
[9]基于改進(jìn)蟻群算法的水面無人艇智能避碰方法研究[J]. 尚明棟,朱志宇,周濤. 船舶工程. 2016(09)
[10]人工魚群算法的避碰路徑規(guī)劃決策支持[J]. 馬文耀,吳兆麟,楊家軒,李偉峰. 中國航海. 2014(03)
碩士論文
[1]船舶路徑規(guī)劃算法的研究[D]. 宋勇.武漢理工大學(xué) 2018
本文編號:3273990
本文鏈接:http://sikaile.net/kejilunwen/chuanbolw/3273990.html
最近更新
教材專著