Q-learning強化學(xué)習(xí)制導(dǎo)律
發(fā)布時間:2021-02-15 02:52
在未來的戰(zhàn)場中,智能導(dǎo)彈將成為精確有效的打擊武器,導(dǎo)彈智能化已成為一種主要的發(fā)展趨勢。本文以傳統(tǒng)的比例制導(dǎo)律為基礎(chǔ),提出基于強化學(xué)習(xí)的變比例系數(shù)制導(dǎo)算法。該算法以視線轉(zhuǎn)率作為狀態(tài),依據(jù)脫靶量設(shè)計獎勵函數(shù),并設(shè)計離散化的行為空間,為導(dǎo)彈選擇正確的制導(dǎo)指令。實驗仿真驗證了所提算法比傳統(tǒng)的比例制導(dǎo)律擁有更好的制導(dǎo)精度,并使導(dǎo)彈擁有了自主決策能力。
【文章來源】:系統(tǒng)工程與電子技術(shù). 2020,42(02)北大核心
【文章頁數(shù)】:6 頁
【部分圖文】:
彈目相對運動關(guān)系
算法流程圖
學(xué)習(xí)率α=0.01;折扣率γ=0.99。折扣率不能選擇太小,如果折扣率過小將導(dǎo)致命中點處的正獎勵無法擴散到命中點之前的時刻,也就是說導(dǎo)彈很有可能無法學(xué)習(xí)得到一個到達命中點處的策略。圖3是經(jīng)過強化學(xué)習(xí)實驗仿真得到的導(dǎo)引彈道,并將其與相同初始條件下的比例導(dǎo)引彈道進行對比。如圖3所示,Q-learning制導(dǎo)律(Q-learning navigation guidance,QNG)的導(dǎo)引彈道如紅線所示,PNG的導(dǎo)引彈道如藍線所示?梢钥闯,QNG訓(xùn)練時,在制導(dǎo)前段,由于動作的選擇是基于PNG給出的過載指令,導(dǎo)引彈道依然能發(fā)揮PNG的優(yōu)勢,僅在命中點處給出較大的獎勵,并將這個獎勵擴散到之前的每一時刻的動作決策中,此舉可以大大提高制導(dǎo)精度,并且使整段彈道平滑。
【參考文獻】:
期刊論文
[1]基于強化學(xué)習(xí)的旋翼無人機智能追蹤方法[J]. 史豪斌,徐夢. 電子科技大學(xué)學(xué)報. 2019(04)
[2]基于強化學(xué)習(xí)的自主式水下潛器障礙規(guī)避技術(shù)(英文)[J]. Prashant Bhopale,Faruk Kazi,Navdeep Singh. Journal of Marine Science and Application. 2019(02)
[3]基于深度強化學(xué)習(xí)的追逃博弈算法[J]. 譚浪,鞏慶海,王會霞. 航天控制. 2018(06)
[4]Illegal Radio Station Localization with UAV-Based Q-Learning[J]. Shengjun Wu. 中國通信. 2018(12)
[5]基于Q-Learning算法和神經(jīng)網(wǎng)絡(luò)的飛艇控制[J]. 聶春雨,祝明,鄭澤偉,武哲. 北京航空航天大學(xué)學(xué)報. 2017(12)
[6]基于Q學(xué)習(xí)的變體無人機控制系統(tǒng)設(shè)計[J]. 徐小野,李愛軍,張叢叢,姚宗信. 西北工業(yè)大學(xué)學(xué)報. 2012(03)
[7]基于模糊Q學(xué)習(xí)算法的AGV路徑規(guī)劃研究[J]. 陳自立,徐婭萍,顧立彬. 制造業(yè)自動化. 2012(11)
[8]Hybrid MDP based integrated hierarchical Q-learning[J]. TARN Tzyh-Jong. Science China(Information Sciences). 2011(11)
[9]一種基于強化學(xué)習(xí)的UAV目標(biāo)搜索算法[J]. 張晶晶,周德云,張堃. 計算機應(yīng)用研究. 2011(10)
[10]Multiresolution state-space discretization for Q-Learning with pseudorandomized discretization[J]. Amanda LAMPTON,John VALASEK,Mrinal KUMAR. Journal of Control Theory and Applications. 2011(03)
碩士論文
[1]基于強化學(xué)習(xí)的無人機空中格斗算法研究[D]. 魏航.哈爾濱工業(yè)大學(xué) 2015
[2]攔截大機動目標(biāo)的模糊導(dǎo)引律研究[D]. 李紅霞.東北大學(xué) 2013
[3]基于模糊邏輯的精確末制導(dǎo)律研究[D]. 郭鵬飛.西北工業(yè)大學(xué) 2003
本文編號:3034300
【文章來源】:系統(tǒng)工程與電子技術(shù). 2020,42(02)北大核心
【文章頁數(shù)】:6 頁
【部分圖文】:
彈目相對運動關(guān)系
算法流程圖
學(xué)習(xí)率α=0.01;折扣率γ=0.99。折扣率不能選擇太小,如果折扣率過小將導(dǎo)致命中點處的正獎勵無法擴散到命中點之前的時刻,也就是說導(dǎo)彈很有可能無法學(xué)習(xí)得到一個到達命中點處的策略。圖3是經(jīng)過強化學(xué)習(xí)實驗仿真得到的導(dǎo)引彈道,并將其與相同初始條件下的比例導(dǎo)引彈道進行對比。如圖3所示,Q-learning制導(dǎo)律(Q-learning navigation guidance,QNG)的導(dǎo)引彈道如紅線所示,PNG的導(dǎo)引彈道如藍線所示?梢钥闯,QNG訓(xùn)練時,在制導(dǎo)前段,由于動作的選擇是基于PNG給出的過載指令,導(dǎo)引彈道依然能發(fā)揮PNG的優(yōu)勢,僅在命中點處給出較大的獎勵,并將這個獎勵擴散到之前的每一時刻的動作決策中,此舉可以大大提高制導(dǎo)精度,并且使整段彈道平滑。
【參考文獻】:
期刊論文
[1]基于強化學(xué)習(xí)的旋翼無人機智能追蹤方法[J]. 史豪斌,徐夢. 電子科技大學(xué)學(xué)報. 2019(04)
[2]基于強化學(xué)習(xí)的自主式水下潛器障礙規(guī)避技術(shù)(英文)[J]. Prashant Bhopale,Faruk Kazi,Navdeep Singh. Journal of Marine Science and Application. 2019(02)
[3]基于深度強化學(xué)習(xí)的追逃博弈算法[J]. 譚浪,鞏慶海,王會霞. 航天控制. 2018(06)
[4]Illegal Radio Station Localization with UAV-Based Q-Learning[J]. Shengjun Wu. 中國通信. 2018(12)
[5]基于Q-Learning算法和神經(jīng)網(wǎng)絡(luò)的飛艇控制[J]. 聶春雨,祝明,鄭澤偉,武哲. 北京航空航天大學(xué)學(xué)報. 2017(12)
[6]基于Q學(xué)習(xí)的變體無人機控制系統(tǒng)設(shè)計[J]. 徐小野,李愛軍,張叢叢,姚宗信. 西北工業(yè)大學(xué)學(xué)報. 2012(03)
[7]基于模糊Q學(xué)習(xí)算法的AGV路徑規(guī)劃研究[J]. 陳自立,徐婭萍,顧立彬. 制造業(yè)自動化. 2012(11)
[8]Hybrid MDP based integrated hierarchical Q-learning[J]. TARN Tzyh-Jong. Science China(Information Sciences). 2011(11)
[9]一種基于強化學(xué)習(xí)的UAV目標(biāo)搜索算法[J]. 張晶晶,周德云,張堃. 計算機應(yīng)用研究. 2011(10)
[10]Multiresolution state-space discretization for Q-Learning with pseudorandomized discretization[J]. Amanda LAMPTON,John VALASEK,Mrinal KUMAR. Journal of Control Theory and Applications. 2011(03)
碩士論文
[1]基于強化學(xué)習(xí)的無人機空中格斗算法研究[D]. 魏航.哈爾濱工業(yè)大學(xué) 2015
[2]攔截大機動目標(biāo)的模糊導(dǎo)引律研究[D]. 李紅霞.東北大學(xué) 2013
[3]基于模糊邏輯的精確末制導(dǎo)律研究[D]. 郭鵬飛.西北工業(yè)大學(xué) 2003
本文編號:3034300
本文鏈接:http://sikaile.net/kejilunwen/jingguansheji/3034300.html
教材專著