基于強(qiáng)化學(xué)習(xí)的末制導(dǎo)導(dǎo)引律設(shè)計(jì)
發(fā)布時(shí)間:2021-01-16 05:38
導(dǎo)引率設(shè)計(jì)是一種與計(jì)算機(jī)技術(shù)與控制工程相關(guān)的技術(shù),也是一個(gè)備受學(xué)術(shù)界和工業(yè)界關(guān)注的制導(dǎo)領(lǐng)域非;钴S的分支。近年來,導(dǎo)引率設(shè)計(jì)在人工智能制導(dǎo)的許多領(lǐng)域都有應(yīng)用,如何在現(xiàn)實(shí)情況下精確制導(dǎo)就成為當(dāng)今導(dǎo)彈導(dǎo)引率設(shè)計(jì)的重要的研究課題。然而,現(xiàn)今的制導(dǎo)通常存在如下問題:需要在模擬環(huán)境下訓(xùn)練,而模擬環(huán)境的設(shè)計(jì)需要很強(qiáng)的專業(yè)背景知識(shí)。在目標(biāo)做多種機(jī)動(dòng)的情況下效果差。當(dāng)對(duì)導(dǎo)彈的飛行狀態(tài)做制約時(shí),攔截的效果差。在實(shí)際應(yīng)用中,模擬器與真實(shí)環(huán)境存在差異;追求時(shí)效性和精確性,往往要求在模擬器下訓(xùn)練的算法有很強(qiáng)的魯棒性。為了解決這類問題,本文提出了一種新的導(dǎo)引律設(shè)計(jì)方法,該方法不存在最優(yōu)控制方法的缺點(diǎn)。在給定導(dǎo)彈模型和環(huán)境動(dòng)力學(xué)的情況下,該方法利用強(qiáng)化學(xué)習(xí)(RL)學(xué)習(xí)給定的最優(yōu)制導(dǎo)律。與現(xiàn)有基于控制工程的導(dǎo)引率設(shè)計(jì)算法不同,本文中通過強(qiáng)化學(xué)習(xí)的方法,精確捕捉到環(huán)境的動(dòng)態(tài)變化,因此大大提升了算法的魯棒性。同時(shí)解決了上述三個(gè)難題,實(shí)現(xiàn)了一個(gè)可實(shí)時(shí)的末制導(dǎo)模型。在目標(biāo)多機(jī)動(dòng)的條件下,擊中效果較好且為端到端學(xué)習(xí)。
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:59 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
導(dǎo)彈攔截示意圖
圖 2-2 強(qiáng)化學(xué)習(xí)交互示意圖過程可以概括為以下三點(diǎn)(1)強(qiáng)化學(xué)習(xí)代理獲取到當(dāng)境狀態(tài)從 轉(zhuǎn)移到 。(3)強(qiáng)化學(xué)習(xí)代理獲取到下an 于 1957 年提出這種強(qiáng)化學(xué)習(xí)框架之后,Barto 于 1引入學(xué)習(xí)理論。下面介紹強(qiáng)化學(xué)習(xí)的基本原理及概夫性質(zhì)簡(jiǎn)便,我們只在強(qiáng)化學(xué)習(xí)中考慮一階馬爾科夫性。個(gè)離散時(shí)間隨機(jī)控制過程是馬爾科夫的,如果它滿1 1 0 0( | , ) ( | , ,..., , )t t t t t tP w w a P w w a w a 0 0( | , ) ( | , ,..., , )t t t t t tP r w a P r w a w a質(zhì)意味著在整個(gè)隨機(jī)過程中,下一時(shí)刻的環(huán)境狀態(tài)狀態(tài)信息有關(guān),而與過去的歷史狀態(tài)毫無聯(lián)系。 的 核 心 理 論 基 礎(chǔ) 是 馬 爾 科 夫 決 策 過 程 (Marko
圖 2-3 MDP 示意圖的策略學(xué)習(xí)研究中策略指的是強(qiáng)化學(xué)習(xí)代理根據(jù)它所感知到的當(dāng)信息從狀態(tài)集合中挑選合適的動(dòng)作執(zhí)行的過程。策略以強(qiáng)化式可以分為確定性策略和統(tǒng)計(jì)性策略:策略情況下: ( s ) :S A.確定性策略直接將當(dāng)前環(huán)境的狀強(qiáng)化學(xué)習(xí)代理所要執(zhí)行的動(dòng)作。策略情況下: ( s , a ) : S A [0,1].它描述了基于當(dāng)前環(huán)境學(xué)習(xí)代理執(zhí)行動(dòng)作的統(tǒng)計(jì)分布情況。學(xué)習(xí)的優(yōu)化目標(biāo)紹累積回報(bào)的概念:設(shè)強(qiáng)化學(xué)習(xí)代理通過執(zhí)行策略 與環(huán)一條軌跡 。 的形式為{0 0, 0 1 1, 1 2 2, 2 ,, , , , , ,..., ,T T Ts a r s a r s a r s a r },這止時(shí)刻。則任意時(shí)刻 t 的累積回報(bào)定義為:( )kt kR t r
【參考文獻(xiàn)】:
期刊論文
[1]變論域模糊自適應(yīng)滑模有限時(shí)間收斂制導(dǎo)律[J]. 張旭,雷虎民,李炯,翟岱亮. 國(guó)防科技大學(xué)學(xué)報(bào). 2015(02)
[2]一種基于目標(biāo)機(jī)動(dòng)補(bǔ)償?shù)膮f(xié)同制導(dǎo)律[J]. 周華,劉紅軍,王澤,廖馨,郝穎. 導(dǎo)彈與航天運(yùn)載技術(shù). 2015(01)
[3]高階滑模制導(dǎo)律的設(shè)計(jì)與實(shí)現(xiàn)[J]. 馬克茂,董繼鵬,張金鵬. 航空兵器. 2014(05)
[4]變結(jié)構(gòu)經(jīng)典比例導(dǎo)引制導(dǎo)性能對(duì)比研究[J]. 姚懷瑾,林德福,臧路堯,王武剛. 計(jì)算機(jī)仿真. 2014(07)
[5]Improved differential geometric guidance commands for endoatmospheric interception of high-speed targets[J]. LI KeBo,CHEN Lei,TANG GuoJin. Science China(Technological Sciences). 2013(02)
[6]Nonlinear differential geometric guidance for maneuvering target[J]. Jikun Ye 1,*,Humin Lei 1,Dongfeng Xue 2,Jiong Li 1,and Lei Shao 1 1.Department of Missile Engineering,Missile Institute of Air Force Engineering University,Sanyuan 713800,P.R.China;2.Department of Strategies,Science College of Air Force Engineering University,Xi’an 710051,P.R.China. Journal of Systems Engineering and Electronics. 2012(05)
[7]一種改進(jìn)的比例導(dǎo)引規(guī)律的設(shè)計(jì)與仿真[J]. 袁泉,趙秀娜,馬宏緒,黃茜薇. 計(jì)算機(jī)仿真. 2007(07)
[8]國(guó)外鉆地武器的現(xiàn)狀與發(fā)展趨勢(shì)[J]. 王濤,余文力,王少龍,權(quán)威. 導(dǎo)彈與航天運(yùn)載技術(shù). 2005(05)
本文編號(hào):2980254
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:59 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
導(dǎo)彈攔截示意圖
圖 2-2 強(qiáng)化學(xué)習(xí)交互示意圖過程可以概括為以下三點(diǎn)(1)強(qiáng)化學(xué)習(xí)代理獲取到當(dāng)境狀態(tài)從 轉(zhuǎn)移到 。(3)強(qiáng)化學(xué)習(xí)代理獲取到下an 于 1957 年提出這種強(qiáng)化學(xué)習(xí)框架之后,Barto 于 1引入學(xué)習(xí)理論。下面介紹強(qiáng)化學(xué)習(xí)的基本原理及概夫性質(zhì)簡(jiǎn)便,我們只在強(qiáng)化學(xué)習(xí)中考慮一階馬爾科夫性。個(gè)離散時(shí)間隨機(jī)控制過程是馬爾科夫的,如果它滿1 1 0 0( | , ) ( | , ,..., , )t t t t t tP w w a P w w a w a 0 0( | , ) ( | , ,..., , )t t t t t tP r w a P r w a w a質(zhì)意味著在整個(gè)隨機(jī)過程中,下一時(shí)刻的環(huán)境狀態(tài)狀態(tài)信息有關(guān),而與過去的歷史狀態(tài)毫無聯(lián)系。 的 核 心 理 論 基 礎(chǔ) 是 馬 爾 科 夫 決 策 過 程 (Marko
圖 2-3 MDP 示意圖的策略學(xué)習(xí)研究中策略指的是強(qiáng)化學(xué)習(xí)代理根據(jù)它所感知到的當(dāng)信息從狀態(tài)集合中挑選合適的動(dòng)作執(zhí)行的過程。策略以強(qiáng)化式可以分為確定性策略和統(tǒng)計(jì)性策略:策略情況下: ( s ) :S A.確定性策略直接將當(dāng)前環(huán)境的狀強(qiáng)化學(xué)習(xí)代理所要執(zhí)行的動(dòng)作。策略情況下: ( s , a ) : S A [0,1].它描述了基于當(dāng)前環(huán)境學(xué)習(xí)代理執(zhí)行動(dòng)作的統(tǒng)計(jì)分布情況。學(xué)習(xí)的優(yōu)化目標(biāo)紹累積回報(bào)的概念:設(shè)強(qiáng)化學(xué)習(xí)代理通過執(zhí)行策略 與環(huán)一條軌跡 。 的形式為{0 0, 0 1 1, 1 2 2, 2 ,, , , , , ,..., ,T T Ts a r s a r s a r s a r },這止時(shí)刻。則任意時(shí)刻 t 的累積回報(bào)定義為:( )kt kR t r
【參考文獻(xiàn)】:
期刊論文
[1]變論域模糊自適應(yīng)滑模有限時(shí)間收斂制導(dǎo)律[J]. 張旭,雷虎民,李炯,翟岱亮. 國(guó)防科技大學(xué)學(xué)報(bào). 2015(02)
[2]一種基于目標(biāo)機(jī)動(dòng)補(bǔ)償?shù)膮f(xié)同制導(dǎo)律[J]. 周華,劉紅軍,王澤,廖馨,郝穎. 導(dǎo)彈與航天運(yùn)載技術(shù). 2015(01)
[3]高階滑模制導(dǎo)律的設(shè)計(jì)與實(shí)現(xiàn)[J]. 馬克茂,董繼鵬,張金鵬. 航空兵器. 2014(05)
[4]變結(jié)構(gòu)經(jīng)典比例導(dǎo)引制導(dǎo)性能對(duì)比研究[J]. 姚懷瑾,林德福,臧路堯,王武剛. 計(jì)算機(jī)仿真. 2014(07)
[5]Improved differential geometric guidance commands for endoatmospheric interception of high-speed targets[J]. LI KeBo,CHEN Lei,TANG GuoJin. Science China(Technological Sciences). 2013(02)
[6]Nonlinear differential geometric guidance for maneuvering target[J]. Jikun Ye 1,*,Humin Lei 1,Dongfeng Xue 2,Jiong Li 1,and Lei Shao 1 1.Department of Missile Engineering,Missile Institute of Air Force Engineering University,Sanyuan 713800,P.R.China;2.Department of Strategies,Science College of Air Force Engineering University,Xi’an 710051,P.R.China. Journal of Systems Engineering and Electronics. 2012(05)
[7]一種改進(jìn)的比例導(dǎo)引規(guī)律的設(shè)計(jì)與仿真[J]. 袁泉,趙秀娜,馬宏緒,黃茜薇. 計(jì)算機(jī)仿真. 2007(07)
[8]國(guó)外鉆地武器的現(xiàn)狀與發(fā)展趨勢(shì)[J]. 王濤,余文力,王少龍,權(quán)威. 導(dǎo)彈與航天運(yùn)載技術(shù). 2005(05)
本文編號(hào):2980254
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2980254.html
最近更新
教材專著