基于深度強(qiáng)化學(xué)習(xí)的艦艇空中威脅行為建模
發(fā)布時(shí)間:2021-08-18 11:50
隨著武器裝備智能化發(fā)展的速度加快,傳統(tǒng)武器裝備的訓(xùn)練方法已經(jīng)無法滿足大規(guī),F(xiàn)代戰(zhàn)爭(zhēng)的訓(xùn)練需求。在近十年中深度強(qiáng)化學(xué)習(xí)等人工智能方法在棋類以及電子競(jìng)技游戲中取得了極大突破,證明了人工智能方法在面對(duì)大搜索空間博弈問題的優(yōu)勢(shì),能夠有效解決軍事對(duì)抗問題中的形勢(shì)預(yù)判和臨機(jī)調(diào)整問題;诖吮尘,依托海軍艦艇對(duì)空方面作戰(zhàn),開展了深度強(qiáng)化學(xué)習(xí)的方法研究。首先通過并行場(chǎng)景建模技術(shù)以及空中威脅決策行為建模技術(shù)實(shí)現(xiàn)深度學(xué)習(xí)模型的構(gòu)建,之后通過單機(jī)突防場(chǎng)景的對(duì)抗迭代學(xué)習(xí),得到收斂的突防策略。驗(yàn)證了深度強(qiáng)化學(xué)習(xí)方法在空中威脅行為構(gòu)建場(chǎng)景的可行性,為后續(xù)深入開展編隊(duì)聯(lián)合防空訓(xùn)練場(chǎng)景構(gòu)建提供支撐。
【文章來源】:現(xiàn)代防御技術(shù). 2020,48(05)
【文章頁(yè)數(shù)】:8 頁(yè)
【部分圖文】:
智能體建模架構(gòu)
本文采用深度強(qiáng)化學(xué)習(xí)算法完成空中威脅智能體的建模過程,提升空中威脅智能體的決策能力。框架如圖2所示[5]。智能體通過在環(huán)境中不斷地探索生成動(dòng)作、感知狀態(tài)和獲得回報(bào),從大數(shù)據(jù)中獲得復(fù)雜因素的關(guān)聯(lián)性和問題處理的完備性,加強(qiáng)其對(duì)復(fù)雜關(guān)聯(lián)關(guān)系的擬合能力。在本文中,考慮常規(guī)強(qiáng)化學(xué)習(xí)的配置,其中空中威脅智能體會(huì)與對(duì)抗場(chǎng)景產(chǎn)生互動(dòng)。在每一個(gè)仿真間隔t,空中威脅智能體都會(huì)觀測(cè)到一組態(tài)勢(shì)信息st∈S,分析判斷之后,讓空中威脅做出一組動(dòng)作at∈A,然后會(huì)收到環(huán)境反饋的獎(jiǎng)勵(lì)值r(st,at)∈R,經(jīng)過一段時(shí)間的迭代訓(xùn)練,智能體會(huì)形成一個(gè)決策集合π∶S→A[6]。
通過智能體飛行決策軌跡趨勢(shì)能夠直觀看出智能體能夠通過降低高度躲避雷達(dá)跟蹤并盡量深入到武器發(fā)射區(qū)內(nèi)執(zhí)行投彈過程。同時(shí)由于投彈限制,為了確保生存,智能體在投彈結(jié)束后會(huì)盡快降低高度以躲避艦艇防空導(dǎo)彈打擊。學(xué)習(xí)的結(jié)果收斂且基本滿足預(yù)期。圖4 算法流程
【參考文獻(xiàn)】:
期刊論文
[1]貼近實(shí)戰(zhàn)的外軍軍事訓(xùn)練[J]. 鐘華. 國(guó)防科技. 2014(04)
本文編號(hào):3349834
【文章來源】:現(xiàn)代防御技術(shù). 2020,48(05)
【文章頁(yè)數(shù)】:8 頁(yè)
【部分圖文】:
智能體建模架構(gòu)
本文采用深度強(qiáng)化學(xué)習(xí)算法完成空中威脅智能體的建模過程,提升空中威脅智能體的決策能力。框架如圖2所示[5]。智能體通過在環(huán)境中不斷地探索生成動(dòng)作、感知狀態(tài)和獲得回報(bào),從大數(shù)據(jù)中獲得復(fù)雜因素的關(guān)聯(lián)性和問題處理的完備性,加強(qiáng)其對(duì)復(fù)雜關(guān)聯(lián)關(guān)系的擬合能力。在本文中,考慮常規(guī)強(qiáng)化學(xué)習(xí)的配置,其中空中威脅智能體會(huì)與對(duì)抗場(chǎng)景產(chǎn)生互動(dòng)。在每一個(gè)仿真間隔t,空中威脅智能體都會(huì)觀測(cè)到一組態(tài)勢(shì)信息st∈S,分析判斷之后,讓空中威脅做出一組動(dòng)作at∈A,然后會(huì)收到環(huán)境反饋的獎(jiǎng)勵(lì)值r(st,at)∈R,經(jīng)過一段時(shí)間的迭代訓(xùn)練,智能體會(huì)形成一個(gè)決策集合π∶S→A[6]。
通過智能體飛行決策軌跡趨勢(shì)能夠直觀看出智能體能夠通過降低高度躲避雷達(dá)跟蹤并盡量深入到武器發(fā)射區(qū)內(nèi)執(zhí)行投彈過程。同時(shí)由于投彈限制,為了確保生存,智能體在投彈結(jié)束后會(huì)盡快降低高度以躲避艦艇防空導(dǎo)彈打擊。學(xué)習(xí)的結(jié)果收斂且基本滿足預(yù)期。圖4 算法流程
【參考文獻(xiàn)】:
期刊論文
[1]貼近實(shí)戰(zhàn)的外軍軍事訓(xùn)練[J]. 鐘華. 國(guó)防科技. 2014(04)
本文編號(hào):3349834
本文鏈接:http://sikaile.net/kejilunwen/jingguansheji/3349834.html
最近更新
教材專著