天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 碩博論文 > 信息類碩士論文 >

基于深度強(qiáng)化學(xué)習(xí)的無(wú)人救援船目標(biāo)追蹤研究

發(fā)布時(shí)間:2020-12-07 07:10
  隨著海洋強(qiáng)國(guó)戰(zhàn)略的加快實(shí)施與海洋經(jīng)濟(jì)的迅猛發(fā)展,涉海產(chǎn)業(yè)日益繁榮,涉;顒(dòng)日益頻繁,各類海難事故時(shí)有發(fā)生。隨著無(wú)人船的發(fā)展,海上無(wú)人救援技術(shù)也受到廣泛關(guān)注。本文將無(wú)人船應(yīng)用于海上救援場(chǎng)景,在獲取遇險(xiǎn)目標(biāo)位置的條件下,研究無(wú)人救援船自主追蹤并靠近漂移遇險(xiǎn)目標(biāo)的駕駛決策模型。針對(duì)參與救援行動(dòng)的無(wú)人船數(shù)量不同,分別研究單救援船目標(biāo)追蹤駕駛決策模型以及多救援船協(xié)同目標(biāo)追蹤駕駛決策模型,協(xié)同追蹤涉及協(xié)調(diào)任務(wù)分配、協(xié)調(diào)避碰的問(wèn)題。本文從強(qiáng)化學(xué)習(xí)的角度對(duì)該問(wèn)題進(jìn)行分析研究,難點(diǎn)在于訓(xùn)練算法的環(huán)境平臺(tái)搭建。由于在真實(shí)環(huán)境中訓(xùn)練算法有一定的危險(xiǎn)性,本文基于ROS和Gazebo搭建海上救援物理仿真平臺(tái),對(duì)救援環(huán)境進(jìn)行場(chǎng)景模擬?紤]雙體船航行穩(wěn)定性好、甲板寬敞便于搭載更多救援設(shè)備的優(yōu)點(diǎn),本文以雙體船作為研究對(duì)象,在Gazebo中加載雙體船機(jī)器人模型,并通過(guò)ROS創(chuàng)建傳遞駕駛指令的通訊網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)無(wú)人船的運(yùn)動(dòng)控制。在單船救援場(chǎng)景中,將目標(biāo)追蹤過(guò)程通過(guò)馬爾科夫決策過(guò)程進(jìn)行描述,定義環(huán)境狀態(tài)空間、動(dòng)作空間以及獎(jiǎng)勵(lì)函數(shù)。引入具有經(jīng)驗(yàn)回放機(jī)制的DDPG深度強(qiáng)化學(xué)習(xí)算法訓(xùn)練優(yōu)化駕駛決策模型,模型訓(xùn)練的樣本數(shù)據(jù)來(lái)自Gaz... 

【文章來(lái)源】:大連海事大學(xué)遼寧省 211工程院校

【文章頁(yè)數(shù)】:75 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于深度強(qiáng)化學(xué)習(xí)的無(wú)人救援船目標(biāo)追蹤研究


圖1.1國(guó)內(nèi)外具有代表性的無(wú)人船??

神經(jīng)元,神經(jīng)網(wǎng)絡(luò),激活函數(shù)


救援船??加載該模型便可以對(duì)感知到的環(huán)境態(tài)勢(shì)快速做出駕駛行為響應(yīng),無(wú)需規(guī)劃環(huán)節(jié)。??2.1深度學(xué)習(xí)及其訓(xùn)練方法??深度學(xué)習(xí)(Deep?Learning)的概念是由Hitton首次提出[41],是機(jī)器學(xué)習(xí)的分支,它??可以看作是一種神經(jīng)網(wǎng)絡(luò)。深度強(qiáng)化學(xué)習(xí)算法中的深度學(xué)習(xí)部分主要起函數(shù)逼近的作??用,包括策略逼近、值函數(shù)逼近等。??2.?1.1前饋神經(jīng)網(wǎng)絡(luò)??神經(jīng)元是構(gòu)成前饋神經(jīng)網(wǎng)絡(luò)(Feedforward?Neural?Networks,?FNNs)的基本單元,又??稱作感知機(jī),如圖2.1(a)所示,感知機(jī)的輸出計(jì)算包括權(quán)重、偏置、激活函數(shù)3個(gè)基本??概念。權(quán)重作用于樣本輸入x,或者上一層網(wǎng)絡(luò)的輸出的數(shù)據(jù),這些參數(shù)在模型訓(xùn)練的??過(guò)程中根據(jù)輸入的重要程度不斷調(diào)整其大校偏置是對(duì)輸入與權(quán)重相乘后的結(jié)果引入一??個(gè)線性的分量,實(shí)現(xiàn)對(duì)乘積的偏移。激活函數(shù)為閾值函數(shù),對(duì)累加偏置處理的結(jié)果做非??線性變換,常用的激活函數(shù)有:Sigmoid,?Tanh,Relu,Softmax等。??\w2?——?——????/w"?‘?;?izj?LL??y?'?,?隱藏層??xn?b??⑷感知機(jī)模型?(b)神經(jīng)網(wǎng)絡(luò)實(shí)例??(a)?Perceptron?model?(b)?Neural?network?example??圖2.1神經(jīng)元結(jié)構(gòu)和多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)??Fig.?2.1?Neuron?stmcture?and?multilayer?neural?network?structure??-8?-??

原理圖,梯度下降法,原理圖,網(wǎng)絡(luò)參數(shù)


?基于深度強(qiáng)化學(xué)習(xí)的無(wú)人救援船目標(biāo)追蹤研究???本x(">輸入給FNN,得到網(wǎng)絡(luò)輸出為j)w,其在數(shù)據(jù)集P上的結(jié)構(gòu)化風(fēng)險(xiǎn)函數(shù)為:??沱0.6)=丄f?⑷,夕⑷)+丄A?||妒G?(2.5)??N?^?2??其中,||F||丨是正則化項(xiàng),用來(lái)防止過(guò)擬合,A是為正數(shù)的超參數(shù),A越大,則F越??接近0。有了學(xué)習(xí)準(zhǔn)則與學(xué)習(xí)樣本,計(jì)算出損失函數(shù)乙,就可以通過(guò)梯度下降法來(lái)學(xué)習(xí)??網(wǎng)絡(luò)參數(shù),如圖2.2所示,使/:的變化率這:趨近0,求解模型使網(wǎng)絡(luò)參數(shù)達(dá)到最優(yōu)。??計(jì)算梯度:dCfdw??網(wǎng)絡(luò)參數(shù)更新:vv<—?iv—dCjd'v??1?丨?I???????????????????I?I?I??????????????????I?I?A???'?I?I???^??w—??a?a???????w??B??圖2.2梯度下降法原理圖??Fig.?2.2?Principle?diagram?of?gradient?descent?method??在每次迭代中,第/層的妒n參數(shù)和參數(shù)的更新方式為:??妒’—妒'一a^ ̄^-=W?'?丄?J]/:?y",j)n?+m'}?(2.6)??dW?丨?J??,,d7Z?W,b?,?f?i?^?^?j"?,7"??b'?—b!?_a?^ ̄?=?b'?-a?—V?;——?(2.7)??db1?8W1??其中,a表示學(xué)習(xí)率。實(shí)際求解過(guò)程中,函數(shù)的解往往不只一個(gè),如圖2.2中的A、??B點(diǎn),算法經(jīng)常會(huì)收斂到其中一個(gè)解,但是這個(gè)解可能不是全局最優(yōu)解。這與學(xué)習(xí)率a??的設(shè)計(jì)有關(guān)。假設(shè)將學(xué)習(xí)率定為一個(gè)較小的值,那么在梯度接


本文編號(hào):2902862

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2902862.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶07cea***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com