天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

基于深度強(qiáng)化學(xué)習(xí)的無人救援船目標(biāo)追蹤研究

發(fā)布時間:2020-12-07 07:10
  隨著海洋強(qiáng)國戰(zhàn)略的加快實(shí)施與海洋經(jīng)濟(jì)的迅猛發(fā)展,涉海產(chǎn)業(yè)日益繁榮,涉;顒尤找骖l繁,各類海難事故時有發(fā)生。隨著無人船的發(fā)展,海上無人救援技術(shù)也受到廣泛關(guān)注。本文將無人船應(yīng)用于海上救援場景,在獲取遇險目標(biāo)位置的條件下,研究無人救援船自主追蹤并靠近漂移遇險目標(biāo)的駕駛決策模型。針對參與救援行動的無人船數(shù)量不同,分別研究單救援船目標(biāo)追蹤駕駛決策模型以及多救援船協(xié)同目標(biāo)追蹤駕駛決策模型,協(xié)同追蹤涉及協(xié)調(diào)任務(wù)分配、協(xié)調(diào)避碰的問題。本文從強(qiáng)化學(xué)習(xí)的角度對該問題進(jìn)行分析研究,難點(diǎn)在于訓(xùn)練算法的環(huán)境平臺搭建。由于在真實(shí)環(huán)境中訓(xùn)練算法有一定的危險性,本文基于ROS和Gazebo搭建海上救援物理仿真平臺,對救援環(huán)境進(jìn)行場景模擬?紤]雙體船航行穩(wěn)定性好、甲板寬敞便于搭載更多救援設(shè)備的優(yōu)點(diǎn),本文以雙體船作為研究對象,在Gazebo中加載雙體船機(jī)器人模型,并通過ROS創(chuàng)建傳遞駕駛指令的通訊網(wǎng)絡(luò),實(shí)現(xiàn)對無人船的運(yùn)動控制。在單船救援場景中,將目標(biāo)追蹤過程通過馬爾科夫決策過程進(jìn)行描述,定義環(huán)境狀態(tài)空間、動作空間以及獎勵函數(shù)。引入具有經(jīng)驗(yàn)回放機(jī)制的DDPG深度強(qiáng)化學(xué)習(xí)算法訓(xùn)練優(yōu)化駕駛決策模型,模型訓(xùn)練的樣本數(shù)據(jù)來自Gaz... 

【文章來源】:大連海事大學(xué)遼寧省 211工程院校

【文章頁數(shù)】:75 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于深度強(qiáng)化學(xué)習(xí)的無人救援船目標(biāo)追蹤研究


圖1.1國內(nèi)外具有代表性的無人船??

神經(jīng)元,神經(jīng)網(wǎng)絡(luò),激活函數(shù)


救援船??加載該模型便可以對感知到的環(huán)境態(tài)勢快速做出駕駛行為響應(yīng),無需規(guī)劃環(huán)節(jié)。??2.1深度學(xué)習(xí)及其訓(xùn)練方法??深度學(xué)習(xí)(Deep?Learning)的概念是由Hitton首次提出[41],是機(jī)器學(xué)習(xí)的分支,它??可以看作是一種神經(jīng)網(wǎng)絡(luò)。深度強(qiáng)化學(xué)習(xí)算法中的深度學(xué)習(xí)部分主要起函數(shù)逼近的作??用,包括策略逼近、值函數(shù)逼近等。??2.?1.1前饋神經(jīng)網(wǎng)絡(luò)??神經(jīng)元是構(gòu)成前饋神經(jīng)網(wǎng)絡(luò)(Feedforward?Neural?Networks,?FNNs)的基本單元,又??稱作感知機(jī),如圖2.1(a)所示,感知機(jī)的輸出計算包括權(quán)重、偏置、激活函數(shù)3個基本??概念。權(quán)重作用于樣本輸入x,或者上一層網(wǎng)絡(luò)的輸出的數(shù)據(jù),這些參數(shù)在模型訓(xùn)練的??過程中根據(jù)輸入的重要程度不斷調(diào)整其大校偏置是對輸入與權(quán)重相乘后的結(jié)果引入一??個線性的分量,實(shí)現(xiàn)對乘積的偏移。激活函數(shù)為閾值函數(shù),對累加偏置處理的結(jié)果做非??線性變換,常用的激活函數(shù)有:Sigmoid,?Tanh,Relu,Softmax等。??\w2?——?——????/w"?‘?;?izj?LL??y?'?,?隱藏層??xn?b??⑷感知機(jī)模型?(b)神經(jīng)網(wǎng)絡(luò)實(shí)例??(a)?Perceptron?model?(b)?Neural?network?example??圖2.1神經(jīng)元結(jié)構(gòu)和多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)??Fig.?2.1?Neuron?stmcture?and?multilayer?neural?network?structure??-8?-??

原理圖,梯度下降法,原理圖,網(wǎng)絡(luò)參數(shù)


?基于深度強(qiáng)化學(xué)習(xí)的無人救援船目標(biāo)追蹤研究???本x(">輸入給FNN,得到網(wǎng)絡(luò)輸出為j)w,其在數(shù)據(jù)集P上的結(jié)構(gòu)化風(fēng)險函數(shù)為:??沱0.6)=丄f?⑷,夕⑷)+丄A?||妒G?(2.5)??N?^?2??其中,||F||丨是正則化項(xiàng),用來防止過擬合,A是為正數(shù)的超參數(shù),A越大,則F越??接近0。有了學(xué)習(xí)準(zhǔn)則與學(xué)習(xí)樣本,計算出損失函數(shù)乙,就可以通過梯度下降法來學(xué)習(xí)??網(wǎng)絡(luò)參數(shù),如圖2.2所示,使/:的變化率這:趨近0,求解模型使網(wǎng)絡(luò)參數(shù)達(dá)到最優(yōu)。??計算梯度:dCfdw??網(wǎng)絡(luò)參數(shù)更新:vv<—?iv—dCjd'v??1?丨?I???????????????????I?I?I??????????????????I?I?A???'?I?I???^??w—??a?a???????w??B??圖2.2梯度下降法原理圖??Fig.?2.2?Principle?diagram?of?gradient?descent?method??在每次迭代中,第/層的妒n參數(shù)和參數(shù)的更新方式為:??妒’—妒'一a^ ̄^-=W?'?丄?J]/:?y",j)n?+m'}?(2.6)??dW?丨?J??,,d7Z?W,b?,?f?i?^?^?j"?,7"??b'?—b!?_a?^ ̄?=?b'?-a?—V?;——?(2.7)??db1?8W1??其中,a表示學(xué)習(xí)率。實(shí)際求解過程中,函數(shù)的解往往不只一個,如圖2.2中的A、??B點(diǎn),算法經(jīng)常會收斂到其中一個解,但是這個解可能不是全局最優(yōu)解。這與學(xué)習(xí)率a??的設(shè)計有關(guān)。假設(shè)將學(xué)習(xí)率定為一個較小的值,那么在梯度接


本文編號:2902862

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2902862.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶07cea***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com