基于深度強(qiáng)化學(xué)習(xí)的無(wú)人艇控制研究
發(fā)布時(shí)間:2021-03-03 03:23
論文以水面無(wú)人艇為切入點(diǎn),利用深度強(qiáng)化學(xué)習(xí)技術(shù),結(jié)合無(wú)人艇的數(shù)學(xué)模型,分析并設(shè)計(jì)環(huán)境的狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)。通過(guò)智能控制器與環(huán)境交互生成訓(xùn)練樣本,訓(xùn)練網(wǎng)絡(luò)以實(shí)現(xiàn)無(wú)人艇的運(yùn)動(dòng)控制。通過(guò)試驗(yàn)仿真驗(yàn)證,訓(xùn)練后的網(wǎng)絡(luò)能夠很好地對(duì)無(wú)人艇進(jìn)行控制,相對(duì)于傳統(tǒng)的PID控制算法在穩(wěn)定性以及抗干擾能力上具有一定的優(yōu)勢(shì)。
【文章來(lái)源】:中國(guó)造船. 2020,61(S1)北大核心
【文章頁(yè)數(shù)】:7 頁(yè)
【部分圖文】:
強(qiáng)化學(xué)習(xí)的基本邏輯結(jié)構(gòu)框圖環(huán)境St+1
61卷增刊1李寶安:基于深度強(qiáng)化學(xué)習(xí)的無(wú)人艇控制研究15從而達(dá)到對(duì)智能體自身很好的控制效果[4]。強(qiáng)化學(xué)習(xí)中的智能體經(jīng)過(guò)決策后,產(chǎn)生一個(gè)動(dòng)作,并把這個(gè)動(dòng)作作用到環(huán)境中,環(huán)境會(huì)給予智能體一個(gè)即時(shí)的獎(jiǎng)勵(lì)值,這個(gè)獎(jiǎng)勵(lì)值表明智能體在執(zhí)行動(dòng)作改變了環(huán)境狀態(tài)后此時(shí)環(huán)境的滿意程度[5]。強(qiáng)化學(xué)習(xí)基本結(jié)構(gòu)如圖1所示。智能體環(huán)境狀態(tài)St動(dòng)作At獎(jiǎng)勵(lì)RtSt+1Rt+1圖1強(qiáng)化學(xué)習(xí)的基本邏輯結(jié)構(gòu)框圖考慮到無(wú)人艇運(yùn)動(dòng)控制問(wèn)題的輸入空間和輸出空間均為連續(xù)的,所以在本文的研究中,采用了適用于連續(xù)輸入、輸出空間的Actor-Critic(AC)框架下的深度確定性策略梯度(deepdeterministicpolicygradient,DDPG)算法。AC算法,流程的框架如圖2所示。ActoraupdaterEnvCriticsa圖2Actor-Critic算法流程圖在DDPG算法中,將訓(xùn)練過(guò)程中的樣本依次存儲(chǔ)在Replaymemory中,從中隨機(jī)選擇一定minibatch量的樣本進(jìn)行訓(xùn)練[6],ActorNet接受從Replaymemory中的抽取的樣本狀態(tài)ts,根據(jù)策略函數(shù)πaπ(s|),得到此時(shí)刻策略函數(shù)認(rèn)為的最優(yōu)動(dòng)作ta,該動(dòng)作作用于環(huán)境得到下一時(shí)刻狀態(tài)t1s,CriticNet則同時(shí)接受此時(shí)刻狀態(tài)ts和動(dòng)作ta,把下一時(shí)刻的狀態(tài)t1s輸入目標(biāo)網(wǎng)絡(luò)TargetNet,得到目標(biāo)期望值11(,|)QttrQsa,目標(biāo)期望值與當(dāng)前期望值的平方差即為CriticNet的損失函數(shù),據(jù)此來(lái)更新CriticNet網(wǎng)絡(luò),而ActorNet網(wǎng)絡(luò)則依靠11(,|)QttrQsa對(duì)于π的期望梯度來(lái)更新參數(shù)。DDPG算法的框架由圖3所示。
18中國(guó)造船學(xué)術(shù)論文經(jīng)過(guò)一系列試驗(yàn)考核,在控制器試驗(yàn)訓(xùn)練過(guò)程中,對(duì)控制器進(jìn)行每回合1000步、共計(jì)400回合的訓(xùn)練,得到收斂的控制器?刂破饔(xùn)練過(guò)程中的超參數(shù)設(shè)置如表1所示。表1超參數(shù)數(shù)值參數(shù)回合數(shù)每回合步數(shù)學(xué)習(xí)率記憶池容量每批次訓(xùn)練數(shù)量獎(jiǎng)勵(lì)衰減率數(shù)值4009000.0001200000640.9在狀態(tài)跟隨方面,訓(xùn)練完成的控制器跟隨效果良好,圖6為強(qiáng)化學(xué)習(xí)控制器的跟蹤控制效果圖。圖中曲線顯示了正弦舵角跟蹤過(guò)程,虛線為被跟蹤對(duì)象u=8sin(t/25),實(shí)線為響應(yīng)曲線,從圖中可以看出可以很好地進(jìn)行跟蹤。rollsin02.557.51012.51517.520時(shí)間/s7.552.50-2.5-5-7.5橫搖/(°)圖6深度強(qiáng)化學(xué)習(xí)控制器跟蹤控制效果經(jīng)過(guò)測(cè)試訓(xùn)練完成的控制器具有良好的抗干擾能力,在存在干擾的情況下,只在初期產(chǎn)生了震蕩,隨后很快回復(fù)穩(wěn)態(tài)。在相當(dāng)于2倍轉(zhuǎn)動(dòng)慣量大小的干擾力矩下,控制器的階躍響應(yīng)如圖7所示,虛線表示無(wú)干擾的響應(yīng)曲線,實(shí)線表示有干擾的響應(yīng)曲線。00.511.522.53時(shí)間/s1086420橫搖/(°)無(wú)干擾有干擾圖7有干擾和無(wú)干擾下控制器的階躍響應(yīng)效果訓(xùn)練完成的控制器的階躍響應(yīng)曲線(KL)和PID控制的階躍響應(yīng)曲線(PID)[8]對(duì)比如圖8所示:
【參考文獻(xiàn)】:
期刊論文
[1]基于模糊控制的無(wú)人水面艇航跡跟蹤控制[J]. 梅愛(ài)寒,李寶安,張法帥. 計(jì)測(cè)技術(shù). 2018(01)
本文編號(hào):3060500
【文章來(lái)源】:中國(guó)造船. 2020,61(S1)北大核心
【文章頁(yè)數(shù)】:7 頁(yè)
【部分圖文】:
強(qiáng)化學(xué)習(xí)的基本邏輯結(jié)構(gòu)框圖環(huán)境St+1
61卷增刊1李寶安:基于深度強(qiáng)化學(xué)習(xí)的無(wú)人艇控制研究15從而達(dá)到對(duì)智能體自身很好的控制效果[4]。強(qiáng)化學(xué)習(xí)中的智能體經(jīng)過(guò)決策后,產(chǎn)生一個(gè)動(dòng)作,并把這個(gè)動(dòng)作作用到環(huán)境中,環(huán)境會(huì)給予智能體一個(gè)即時(shí)的獎(jiǎng)勵(lì)值,這個(gè)獎(jiǎng)勵(lì)值表明智能體在執(zhí)行動(dòng)作改變了環(huán)境狀態(tài)后此時(shí)環(huán)境的滿意程度[5]。強(qiáng)化學(xué)習(xí)基本結(jié)構(gòu)如圖1所示。智能體環(huán)境狀態(tài)St動(dòng)作At獎(jiǎng)勵(lì)RtSt+1Rt+1圖1強(qiáng)化學(xué)習(xí)的基本邏輯結(jié)構(gòu)框圖考慮到無(wú)人艇運(yùn)動(dòng)控制問(wèn)題的輸入空間和輸出空間均為連續(xù)的,所以在本文的研究中,采用了適用于連續(xù)輸入、輸出空間的Actor-Critic(AC)框架下的深度確定性策略梯度(deepdeterministicpolicygradient,DDPG)算法。AC算法,流程的框架如圖2所示。ActoraupdaterEnvCriticsa圖2Actor-Critic算法流程圖在DDPG算法中,將訓(xùn)練過(guò)程中的樣本依次存儲(chǔ)在Replaymemory中,從中隨機(jī)選擇一定minibatch量的樣本進(jìn)行訓(xùn)練[6],ActorNet接受從Replaymemory中的抽取的樣本狀態(tài)ts,根據(jù)策略函數(shù)πaπ(s|),得到此時(shí)刻策略函數(shù)認(rèn)為的最優(yōu)動(dòng)作ta,該動(dòng)作作用于環(huán)境得到下一時(shí)刻狀態(tài)t1s,CriticNet則同時(shí)接受此時(shí)刻狀態(tài)ts和動(dòng)作ta,把下一時(shí)刻的狀態(tài)t1s輸入目標(biāo)網(wǎng)絡(luò)TargetNet,得到目標(biāo)期望值11(,|)QttrQsa,目標(biāo)期望值與當(dāng)前期望值的平方差即為CriticNet的損失函數(shù),據(jù)此來(lái)更新CriticNet網(wǎng)絡(luò),而ActorNet網(wǎng)絡(luò)則依靠11(,|)QttrQsa對(duì)于π的期望梯度來(lái)更新參數(shù)。DDPG算法的框架由圖3所示。
18中國(guó)造船學(xué)術(shù)論文經(jīng)過(guò)一系列試驗(yàn)考核,在控制器試驗(yàn)訓(xùn)練過(guò)程中,對(duì)控制器進(jìn)行每回合1000步、共計(jì)400回合的訓(xùn)練,得到收斂的控制器?刂破饔(xùn)練過(guò)程中的超參數(shù)設(shè)置如表1所示。表1超參數(shù)數(shù)值參數(shù)回合數(shù)每回合步數(shù)學(xué)習(xí)率記憶池容量每批次訓(xùn)練數(shù)量獎(jiǎng)勵(lì)衰減率數(shù)值4009000.0001200000640.9在狀態(tài)跟隨方面,訓(xùn)練完成的控制器跟隨效果良好,圖6為強(qiáng)化學(xué)習(xí)控制器的跟蹤控制效果圖。圖中曲線顯示了正弦舵角跟蹤過(guò)程,虛線為被跟蹤對(duì)象u=8sin(t/25),實(shí)線為響應(yīng)曲線,從圖中可以看出可以很好地進(jìn)行跟蹤。rollsin02.557.51012.51517.520時(shí)間/s7.552.50-2.5-5-7.5橫搖/(°)圖6深度強(qiáng)化學(xué)習(xí)控制器跟蹤控制效果經(jīng)過(guò)測(cè)試訓(xùn)練完成的控制器具有良好的抗干擾能力,在存在干擾的情況下,只在初期產(chǎn)生了震蕩,隨后很快回復(fù)穩(wěn)態(tài)。在相當(dāng)于2倍轉(zhuǎn)動(dòng)慣量大小的干擾力矩下,控制器的階躍響應(yīng)如圖7所示,虛線表示無(wú)干擾的響應(yīng)曲線,實(shí)線表示有干擾的響應(yīng)曲線。00.511.522.53時(shí)間/s1086420橫搖/(°)無(wú)干擾有干擾圖7有干擾和無(wú)干擾下控制器的階躍響應(yīng)效果訓(xùn)練完成的控制器的階躍響應(yīng)曲線(KL)和PID控制的階躍響應(yīng)曲線(PID)[8]對(duì)比如圖8所示:
【參考文獻(xiàn)】:
期刊論文
[1]基于模糊控制的無(wú)人水面艇航跡跟蹤控制[J]. 梅愛(ài)寒,李寶安,張法帥. 計(jì)測(cè)技術(shù). 2018(01)
本文編號(hào):3060500
本文鏈接:http://sikaile.net/kejilunwen/chuanbolw/3060500.html
最近更新
教材專(zhuān)著