基于深度強(qiáng)化學(xué)習(xí)的無人救援船目標(biāo)追蹤研究

發(fā)布時間：2020-12-07 07:10

　　隨著海洋強(qiáng)國戰(zhàn)略的加快實(shí)施與海洋經(jīng)濟(jì)的迅猛發(fā)展,涉海產(chǎn)業(yè)日益繁榮,涉�；顒尤找骖l繁,各類海難事故時有發(fā)生。隨著無人船的發(fā)展,海上無人救援技術(shù)也受到廣泛關(guān)注。本文將無人船應(yīng)用于海上救援場景,在獲取遇險目標(biāo)位置的條件下,研究無人救援船自主追蹤并靠近漂移遇險目標(biāo)的駕駛決策模型。針對參與救援行動的無人船數(shù)量不同,分別研究單救援船目標(biāo)追蹤駕駛決策模型以及多救援船協(xié)同目標(biāo)追蹤駕駛決策模型,協(xié)同追蹤涉及協(xié)調(diào)任務(wù)分配、協(xié)調(diào)避碰的問題。本文從強(qiáng)化學(xué)習(xí)的角度對該問題進(jìn)行分析研究,難點(diǎn)在于訓(xùn)練算法的環(huán)境平臺搭建。由于在真實(shí)環(huán)境中訓(xùn)練算法有一定的危險性,本文基于ROS和Gazebo搭建海上救援物理仿真平臺,對救援環(huán)境進(jìn)行場景模擬�？紤]雙體船航行穩(wěn)定性好、甲板寬敞便于搭載更多救援設(shè)備的優(yōu)點(diǎn),本文以雙體船作為研究對象,在Gazebo中加載雙體船機(jī)器人模型,并通過ROS創(chuàng)建傳遞駕駛指令的通訊網(wǎng)絡(luò),實(shí)現(xiàn)對無人船的運(yùn)動控制。在單船救援場景中,將目標(biāo)追蹤過程通過馬爾科夫決策過程進(jìn)行描述,定義環(huán)境狀態(tài)空間、動作空間以及獎勵函數(shù)。引入具有經(jīng)驗(yàn)回放機(jī)制的DDPG深度強(qiáng)化學(xué)習(xí)算法訓(xùn)練優(yōu)化駕駛決策模型,模型訓(xùn)練的樣本數(shù)據(jù)來自Gaz...

【文章來源】：大連海事大學(xué)遼寧省 211工程院校

【文章頁數(shù)】：75 頁

【學(xué)位級別】：碩士

【部分圖文】：

圖１．１國內(nèi)外具有代表性的無人船??

神經(jīng)元,神經(jīng)網(wǎng)絡(luò),激活函數(shù)

救援船??加載該模型便可以對感知到的環(huán)境態(tài)勢快速做出駕駛行為響應(yīng)，無需規(guī)劃環(huán)節(jié)。??２．１深度學(xué)習(xí)及其訓(xùn)練方法??深度學(xué)習(xí)（Ｄｅｅｐ?Ｌｅａｒｎｉｎｇ）的概念是由Ｈｉｔｔｏｎ首次提出［４１］，是機(jī)器學(xué)習(xí)的分支，它??可以看作是一種神經(jīng)網(wǎng)絡(luò)。深度強(qiáng)化學(xué)習(xí)算法中的深度學(xué)習(xí)部分主要起函數(shù)逼近的作??用，包括策略逼近、值函數(shù)逼近等。??２．?１．１前饋神經(jīng)網(wǎng)絡(luò)??神經(jīng)元是構(gòu)成前饋神經(jīng)網(wǎng)絡(luò)（Ｆｅｅｄｆｏｒｗａｒｄ?Ｎｅｕｒａｌ?Ｎｅｔｗｏｒｋｓ，?ＦＮＮｓ）的基本單元，又??稱作感知機(jī)，如圖２．１（ａ）所示，感知機(jī)的輸出計算包括權(quán)重、偏置、激活函數(shù)３個基本??概念。權(quán)重作用于樣本輸入ｘ，或者上一層網(wǎng)絡(luò)的輸出的數(shù)據(jù)，這些參數(shù)在模型訓(xùn)練的??過程中根據(jù)輸入的重要程度不斷調(diào)整其大校偏置是對輸入與權(quán)重相乘后的結(jié)果引入一??個線性的分量，實(shí)現(xiàn)對乘積的偏移。激活函數(shù)為閾值函數(shù)，對累加偏置處理的結(jié)果做非??線性變換，常用的激活函數(shù)有：Ｓｉｇｍｏｉｄ，?Ｔａｎｈ，Ｒｅｌｕ，Ｓｏｆｔｍａｘ等。??＼ｗ２?——?——??？?／ｗ＂?‘?；?ｉｚｊ?ＬＬ??ｙ?＇?，?隱藏層??ｘｎ?ｂ??⑷感知機(jī)模型?（ｂ）神經(jīng)網(wǎng)絡(luò)實(shí)例??（ａ）?Ｐｅｒｃｅｐｔｒｏｎ?ｍｏｄｅｌ?（ｂ）?Ｎｅｕｒａｌ?ｎｅｔｗｏｒｋ?ｅｘａｍｐｌｅ??圖２．１神經(jīng)元結(jié)構(gòu)和多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)??Ｆｉｇ．?２．１?Ｎｅｕｒｏｎ?ｓｔｍｃｔｕｒｅ?ａｎｄ?ｍｕｌｔｉｌａｙｅｒ?ｎｅｕｒａｌ?ｎｅｔｗｏｒｋ?ｓｔｒｕｃｔｕｒｅ??－８?－??

原理圖,梯度下降法,原理圖,網(wǎng)絡(luò)參數(shù)

?基于深度強(qiáng)化學(xué)習(xí)的無人救援船目標(biāo)追蹤研究???本ｘ（＂＞輸入給ＦＮＮ，得到網(wǎng)絡(luò)輸出為ｊ）ｗ，其在數(shù)據(jù)集Ｐ上的結(jié)構(gòu)化風(fēng)險函數(shù)為：??沱０．６）＝丄ｆ?⑷，夕⑷）＋丄Ａ?｜｜妒Ｇ?（２．５）??Ｎ?＾?２??其中，｜｜Ｆ｜｜丨是正則化項(xiàng)，用來防止過擬合，Ａ是為正數(shù)的超參數(shù)，Ａ越大，則Ｆ越??接近０。有了學(xué)習(xí)準(zhǔn)則與學(xué)習(xí)樣本，計算出損失函數(shù)乙，就可以通過梯度下降法來學(xué)習(xí)??網(wǎng)絡(luò)參數(shù)，如圖２．２所示，使／：的變化率這：趨近０，求解模型使網(wǎng)絡(luò)參數(shù)達(dá)到最優(yōu)。??計算梯度：ｄＣｆｄｗ??網(wǎng)絡(luò)參數(shù)更新：ｖｖ＜—?ｉｖ—ｄＣｊｄ＇ｖ??１?丨?Ｉ?？？？？?？？?？？?？？？？？??Ｉ?Ｉ?Ｉ?？？？？？？？?？？?？?？？??Ｉ?Ｉ?Ａ???＇?Ｉ?Ｉ???＾??ｗ—??ａ?ａ?？？?？？?ｗ??Ｂ??圖２．２梯度下降法原理圖??Ｆｉｇ．?２．２?Ｐｒｉｎｃｉｐｌｅ?ｄｉａｇｒａｍ?ｏｆ?ｇｒａｄｉｅｎｔ?ｄｅｓｃｅｎｔ?ｍｅｔｈｏｄ??在每次迭代中，第／層的妒ｎ參數(shù)和參數(shù)的更新方式為：??妒’—妒＇一ａ＾￣＾－＝Ｗ?＇?丄?Ｊ］／：?ｙ＂，ｊ）ｎ?＋ｍ＇｝?（２．６）??ｄＷ?丨?Ｊ??，，ｄ７Ｚ?Ｗ，ｂ?，?ｆ?ｉ?＾?＾?ｊ＂?，７＂??ｂ＇?—ｂ！?＿ａ?＾￣?＝?ｂ＇?－ａ?—Ｖ?；——?（２．７）??ｄｂ１?８Ｗ１??其中，ａ表示學(xué)習(xí)率。實(shí)際求解過程中，函數(shù)的解往往不只一個，如圖２．２中的Ａ、??Ｂ點(diǎn)，算法經(jīng)常會收斂到其中一個解，但是這個解可能不是全局最優(yōu)解。這與學(xué)習(xí)率ａ??的設(shè)計有關(guān)。假設(shè)將學(xué)習(xí)率定為一個較小的值，那么在梯度接

本文編號：2902862

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/shoufeilunwen/xixikjs/2902862.html

上一篇：基于特征金字塔網(wǎng)絡(luò)的目標(biāo)檢測算法研究
下一篇：引入數(shù)控機(jī)床超低待機(jī)模式的作業(yè)車間綠色調(diào)度研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度強(qiáng)化學(xué)習(xí)的無人救援船目標(biāo)追蹤研究