Q-learning強化學(xué)習(xí)制導(dǎo)律

發(fā)布時間：2021-02-15 02:52

　　在未來的戰(zhàn)場中,智能導(dǎo)彈將成為精確有效的打擊武器,導(dǎo)彈智能化已成為一種主要的發(fā)展趨勢。本文以傳統(tǒng)的比例制導(dǎo)律為基礎(chǔ),提出基于強化學(xué)習(xí)的變比例系數(shù)制導(dǎo)算法。該算法以視線轉(zhuǎn)率作為狀態(tài),依據(jù)脫靶量設(shè)計獎勵函數(shù),并設(shè)計離散化的行為空間,為導(dǎo)彈選擇正確的制導(dǎo)指令。實驗仿真驗證了所提算法比傳統(tǒng)的比例制導(dǎo)律擁有更好的制導(dǎo)精度,并使導(dǎo)彈擁有了自主決策能力。

【文章來源】：系統(tǒng)工程與電子技術(shù). 2020,42(02)北大核心

【文章頁數(shù)】：6 頁

【部分圖文】：

彈目相對運動關(guān)系

流程圖,算法,變比,流程圖

算法流程圖

導(dǎo)引彈道,命中點,折扣

學(xué)習(xí)率α=0.01；折扣率γ=0.99。折扣率不能選擇太小，如果折扣率過小將導(dǎo)致命中點處的正獎勵無法擴散到命中點之前的時刻，也就是說導(dǎo)彈很有可能無法學(xué)習(xí)得到一個到達命中點處的策略。圖3是經(jīng)過強化學(xué)習(xí)實驗仿真得到的導(dǎo)引彈道，并將其與相同初始條件下的比例導(dǎo)引彈道進行對比。如圖3所示，Q-learning制導(dǎo)律（Q-learning navigation guidance,QNG）的導(dǎo)引彈道如紅線所示，PNG的導(dǎo)引彈道如藍線所示�？梢钥闯觯琎NG訓(xùn)練時，在制導(dǎo)前段，由于動作的選擇是基于PNG給出的過載指令，導(dǎo)引彈道依然能發(fā)揮PNG的優(yōu)勢，僅在命中點處給出較大的獎勵，并將這個獎勵擴散到之前的每一時刻的動作決策中，此舉可以大大提高制導(dǎo)精度，并且使整段彈道平滑。

【參考文獻】：
期刊論文
[1]基于強化學(xué)習(xí)的旋翼無人機智能追蹤方法[J]. 史豪斌,徐夢.  電子科技大學(xué)學(xué)報. 2019(04)
[2]基于強化學(xué)習(xí)的自主式水下潛器障礙規(guī)避技術(shù)（英文）[J]. Prashant Bhopale,Faruk Kazi,Navdeep Singh.  Journal of Marine Science and Application. 2019(02)
[3]基于深度強化學(xué)習(xí)的追逃博弈算法[J]. 譚浪,鞏慶海,王會霞.  航天控制. 2018(06)
[4]Illegal Radio Station Localization with UAV-Based Q-Learning[J]. Shengjun Wu.  中國通信. 2018(12)
[5]基于Q-Learning算法和神經(jīng)網(wǎng)絡(luò)的飛艇控制[J]. 聶春雨,祝明,鄭澤偉,武哲.  北京航空航天大學(xué)學(xué)報. 2017(12)
[6]基于Q學(xué)習(xí)的變體無人機控制系統(tǒng)設(shè)計[J]. 徐小野,李愛軍,張叢叢,姚宗信.  西北工業(yè)大學(xué)學(xué)報. 2012(03)
[7]基于模糊Q學(xué)習(xí)算法的AGV路徑規(guī)劃研究[J]. 陳自立,徐婭萍,顧立彬.  制造業(yè)自動化. 2012(11)
[8]Hybrid MDP based integrated hierarchical Q-learning[J]. TARN Tzyh-Jong.  Science China（Information Sciences）. 2011(11)
[9]一種基于強化學(xué)習(xí)的UAV目標(biāo)搜索算法[J]. 張晶晶,周德云,張堃.  計算機應(yīng)用研究. 2011(10)
[10]Multiresolution state-space discretization for Q-Learning with pseudorandomized discretization[J]. Amanda LAMPTON,John VALASEK,Mrinal KUMAR.  Journal of Control Theory and Applications. 2011(03)

碩士論文
[1]基于強化學(xué)習(xí)的無人機空中格斗算法研究[D]. 魏航.哈爾濱工業(yè)大學(xué) 2015
[2]攔截大機動目標(biāo)的模糊導(dǎo)引律研究[D]. 李紅霞.東北大學(xué) 2013
[3]基于模糊邏輯的精確末制導(dǎo)律研究[D]. 郭鵬飛.西北工業(yè)大學(xué) 2003

本文編號：3034300

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jingguansheji/3034300.html

上一篇：浮球平臺電容式姿態(tài)測量系統(tǒng)研究
下一篇：基于免疫Agent算法的無人艇協(xié)同作戰(zhàn)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

Q-learning強化學(xué)習(xí)制導(dǎo)律