基于深度強化學習的艦艇空中威脅行為建模
發(fā)布時間:2021-08-18 11:50
隨著武器裝備智能化發(fā)展的速度加快,傳統(tǒng)武器裝備的訓練方法已經(jīng)無法滿足大規(guī),F(xiàn)代戰(zhàn)爭的訓練需求。在近十年中深度強化學習等人工智能方法在棋類以及電子競技游戲中取得了極大突破,證明了人工智能方法在面對大搜索空間博弈問題的優(yōu)勢,能夠有效解決軍事對抗問題中的形勢預判和臨機調整問題;诖吮尘,依托海軍艦艇對空方面作戰(zhàn),開展了深度強化學習的方法研究。首先通過并行場景建模技術以及空中威脅決策行為建模技術實現(xiàn)深度學習模型的構建,之后通過單機突防場景的對抗迭代學習,得到收斂的突防策略。驗證了深度強化學習方法在空中威脅行為構建場景的可行性,為后續(xù)深入開展編隊聯(lián)合防空訓練場景構建提供支撐。
【文章來源】:現(xiàn)代防御技術. 2020,48(05)
【文章頁數(shù)】:8 頁
【部分圖文】:
智能體建模架構
本文采用深度強化學習算法完成空中威脅智能體的建模過程,提升空中威脅智能體的決策能力。框架如圖2所示[5]。智能體通過在環(huán)境中不斷地探索生成動作、感知狀態(tài)和獲得回報,從大數(shù)據(jù)中獲得復雜因素的關聯(lián)性和問題處理的完備性,加強其對復雜關聯(lián)關系的擬合能力。在本文中,考慮常規(guī)強化學習的配置,其中空中威脅智能體會與對抗場景產生互動。在每一個仿真間隔t,空中威脅智能體都會觀測到一組態(tài)勢信息st∈S,分析判斷之后,讓空中威脅做出一組動作at∈A,然后會收到環(huán)境反饋的獎勵值r(st,at)∈R,經(jīng)過一段時間的迭代訓練,智能體會形成一個決策集合π∶S→A[6]。
通過智能體飛行決策軌跡趨勢能夠直觀看出智能體能夠通過降低高度躲避雷達跟蹤并盡量深入到武器發(fā)射區(qū)內執(zhí)行投彈過程。同時由于投彈限制,為了確保生存,智能體在投彈結束后會盡快降低高度以躲避艦艇防空導彈打擊。學習的結果收斂且基本滿足預期。圖4 算法流程
【參考文獻】:
期刊論文
[1]貼近實戰(zhàn)的外軍軍事訓練[J]. 鐘華. 國防科技. 2014(04)
本文編號:3349834
【文章來源】:現(xiàn)代防御技術. 2020,48(05)
【文章頁數(shù)】:8 頁
【部分圖文】:
智能體建模架構
本文采用深度強化學習算法完成空中威脅智能體的建模過程,提升空中威脅智能體的決策能力。框架如圖2所示[5]。智能體通過在環(huán)境中不斷地探索生成動作、感知狀態(tài)和獲得回報,從大數(shù)據(jù)中獲得復雜因素的關聯(lián)性和問題處理的完備性,加強其對復雜關聯(lián)關系的擬合能力。在本文中,考慮常規(guī)強化學習的配置,其中空中威脅智能體會與對抗場景產生互動。在每一個仿真間隔t,空中威脅智能體都會觀測到一組態(tài)勢信息st∈S,分析判斷之后,讓空中威脅做出一組動作at∈A,然后會收到環(huán)境反饋的獎勵值r(st,at)∈R,經(jīng)過一段時間的迭代訓練,智能體會形成一個決策集合π∶S→A[6]。
通過智能體飛行決策軌跡趨勢能夠直觀看出智能體能夠通過降低高度躲避雷達跟蹤并盡量深入到武器發(fā)射區(qū)內執(zhí)行投彈過程。同時由于投彈限制,為了確保生存,智能體在投彈結束后會盡快降低高度以躲避艦艇防空導彈打擊。學習的結果收斂且基本滿足預期。圖4 算法流程
【參考文獻】:
期刊論文
[1]貼近實戰(zhàn)的外軍軍事訓練[J]. 鐘華. 國防科技. 2014(04)
本文編號:3349834
本文鏈接:http://sikaile.net/kejilunwen/jingguansheji/3349834.html