基于強(qiáng)化學(xué)習(xí)的末制導(dǎo)導(dǎo)引律設(shè)計(jì)

發(fā)布時(shí)間：2021-01-16 05:38

　　導(dǎo)引率設(shè)計(jì)是一種與計(jì)算機(jī)技術(shù)與控制工程相關(guān)的技術(shù),也是一個(gè)備受學(xué)術(shù)界和工業(yè)界關(guān)注的制導(dǎo)領(lǐng)域非�；钴S的分支。近年來,導(dǎo)引率設(shè)計(jì)在人工智能制導(dǎo)的許多領(lǐng)域都有應(yīng)用,如何在現(xiàn)實(shí)情況下精確制導(dǎo)就成為當(dāng)今導(dǎo)彈導(dǎo)引率設(shè)計(jì)的重要的研究課題。然而,現(xiàn)今的制導(dǎo)通常存在如下問題:需要在模擬環(huán)境下訓(xùn)練,而模擬環(huán)境的設(shè)計(jì)需要很強(qiáng)的專業(yè)背景知識(shí)。在目標(biāo)做多種機(jī)動(dòng)的情況下效果差。當(dāng)對(duì)導(dǎo)彈的飛行狀態(tài)做制約時(shí),攔截的效果差。在實(shí)際應(yīng)用中,模擬器與真實(shí)環(huán)境存在差異;追求時(shí)效性和精確性,往往要求在模擬器下訓(xùn)練的算法有很強(qiáng)的魯棒性。為了解決這類問題,本文提出了一種新的導(dǎo)引律設(shè)計(jì)方法,該方法不存在最優(yōu)控制方法的缺點(diǎn)。在給定導(dǎo)彈模型和環(huán)境動(dòng)力學(xué)的情況下,該方法利用強(qiáng)化學(xué)習(xí)（RL）學(xué)習(xí)給定的最優(yōu)制導(dǎo)律。與現(xiàn)有基于控制工程的導(dǎo)引率設(shè)計(jì)算法不同,本文中通過強(qiáng)化學(xué)習(xí)的方法,精確捕捉到環(huán)境的動(dòng)態(tài)變化,因此大大提升了算法的魯棒性。同時(shí)解決了上述三個(gè)難題,實(shí)現(xiàn)了一個(gè)可實(shí)時(shí)的末制導(dǎo)模型。在目標(biāo)多機(jī)動(dòng)的條件下,擊中效果較好且為端到端學(xué)習(xí)。

【文章來源】：哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】：59 頁

【學(xué)位級(jí)別】：碩士

【部分圖文】：

導(dǎo)彈攔截示意圖

示意圖,示意圖,馬爾科夫性,學(xué)習(xí)理論

圖 2-2 強(qiáng)化學(xué)習(xí)交互示意圖過程可以概括為以下三點(diǎn)(1)強(qiáng)化學(xué)習(xí)代理獲取到當(dāng)境狀態(tài)從轉(zhuǎn)移到。(3)強(qiáng)化學(xué)習(xí)代理獲取到下an 于 1957 年提出這種強(qiáng)化學(xué)習(xí)框架之后，Barto 于 1引入學(xué)習(xí)理論。下面介紹強(qiáng)化學(xué)習(xí)的基本原理及概夫性質(zhì)簡(jiǎn)便，我們只在強(qiáng)化學(xué)習(xí)中考慮一階馬爾科夫性。個(gè)離散時(shí)間隨機(jī)控制過程是馬爾科夫的，如果它滿1 1 0 0( | , ) ( | , ,..., , )t t t t t tP w w a P w w a w a 0 0( | , ) ( | , ,..., , )t t t t t tP r w a P r w a w a質(zhì)意味著在整個(gè)隨機(jī)過程中，下一時(shí)刻的環(huán)境狀態(tài)狀態(tài)信息有關(guān)，而與過去的歷史狀態(tài)毫無聯(lián)系。的核心理論基礎(chǔ) 是馬爾科夫決策過程 (Marko

示意圖,示意圖,策略,執(zhí)行策略

圖 2-3 MDP 示意圖的策略學(xué)習(xí)研究中策略指的是強(qiáng)化學(xué)習(xí)代理根據(jù)它所感知到的當(dāng)信息從狀態(tài)集合中挑選合適的動(dòng)作執(zhí)行的過程。策略以強(qiáng)化式可以分為確定性策略和統(tǒng)計(jì)性策略：策略情況下： ( s ) :S A.確定性策略直接將當(dāng)前環(huán)境的狀強(qiáng)化學(xué)習(xí)代理所要執(zhí)行的動(dòng)作。策略情況下： ( s , a ) : S A [0,1].它描述了基于當(dāng)前環(huán)境學(xué)習(xí)代理執(zhí)行動(dòng)作的統(tǒng)計(jì)分布情況。學(xué)習(xí)的優(yōu)化目標(biāo)紹累積回報(bào)的概念：設(shè)強(qiáng)化學(xué)習(xí)代理通過執(zhí)行策略與環(huán)一條軌跡。的形式為{0 0, 0 1 1, 1 2 2, 2 ,, , , , , ,..., ,T T Ts a r s a r s a r s a r },這止時(shí)刻。則任意時(shí)刻 t 的累積回報(bào)定義為：( )kt kR t r

【參考文獻(xiàn)】：
期刊論文
[1]變論域模糊自適應(yīng)滑模有限時(shí)間收斂制導(dǎo)律[J]. 張旭,雷虎民,李炯,翟岱亮.  國(guó)防科技大學(xué)學(xué)報(bào). 2015(02)
[2]一種基于目標(biāo)機(jī)動(dòng)補(bǔ)償?shù)膮f(xié)同制導(dǎo)律[J]. 周華,劉紅軍,王澤,廖馨,郝穎.  導(dǎo)彈與航天運(yùn)載技術(shù). 2015(01)
[3]高階滑模制導(dǎo)律的設(shè)計(jì)與實(shí)現(xiàn)[J]. 馬克茂,董繼鵬,張金鵬.  航空兵器. 2014(05)
[4]變結(jié)構(gòu)經(jīng)典比例導(dǎo)引制導(dǎo)性能對(duì)比研究[J]. 姚懷瑾,林德福,臧路堯,王武剛.  計(jì)算機(jī)仿真. 2014(07)
[5]Improved differential geometric guidance commands for endoatmospheric interception of high-speed targets[J]. LI KeBo,CHEN Lei,TANG GuoJin.  Science China（Technological Sciences）. 2013(02)
[6]Nonlinear differential geometric guidance for maneuvering target[J]. Jikun Ye 1,*,Humin Lei 1,Dongfeng Xue 2,Jiong Li 1,and Lei Shao 1 1.Department of Missile Engineering,Missile Institute of Air Force Engineering University,Sanyuan 713800,P.R.China;2.Department of Strategies,Science College of Air Force Engineering University,Xi’an 710051,P.R.China.  Journal of Systems Engineering and Electronics. 2012(05)
[7]一種改進(jìn)的比例導(dǎo)引規(guī)律的設(shè)計(jì)與仿真[J]. 袁泉,趙秀娜,馬宏緒,黃茜薇.  計(jì)算機(jī)仿真. 2007(07)
[8]國(guó)外鉆地武器的現(xiàn)狀與發(fā)展趨勢(shì)[J]. 王濤,余文力,王少龍,權(quán)威.  導(dǎo)彈與航天運(yùn)載技術(shù). 2005(05)

本文編號(hào)：2980254

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2980254.html

上一篇：基于ROS的室內(nèi)全向自主導(dǎo)航機(jī)器人研究
下一篇：基于卷積神經(jīng)網(wǎng)絡(luò)的三維模型檢索方法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于強(qiáng)化學(xué)習(xí)的末制導(dǎo)導(dǎo)引律設(shè)計(jì)