基于分支深度強(qiáng)化學(xué)習(xí)的非合作目標(biāo)追逃博弈策略求解
發(fā)布時(shí)間:2025-05-15 03:48
為解決航天器與非合作目標(biāo)的空間交會(huì)問題,緩解深度強(qiáng)化學(xué)習(xí)在連續(xù)空間的應(yīng)用限制,提出了一種基于分支深度強(qiáng)化學(xué)習(xí)的追逃博弈算法,以獲得與非合作目標(biāo)的空間交會(huì)策略。對(duì)于非合作目標(biāo)的空間交會(huì)最優(yōu)控制,運(yùn)用微分對(duì)策描述為連續(xù)推力作用下的追逃博弈問題;為避免傳統(tǒng)深度強(qiáng)化學(xué)習(xí)應(yīng)對(duì)連續(xù)空間存在維數(shù)災(zāi)難問題,通過構(gòu)建模糊推理模型來表征連續(xù)空間,提出了一種具有多組并行神經(jīng)網(wǎng)絡(luò)和共享決策模塊的分支深度強(qiáng)化學(xué)習(xí)架構(gòu)。實(shí)現(xiàn)了最優(yōu)控制與博弈論的結(jié)合,有效解決了微分對(duì)策模型高度非線性且難于利用經(jīng)典最優(yōu)控制理論進(jìn)行求解的難題,進(jìn)一步提升了深度強(qiáng)化學(xué)習(xí)對(duì)離散行為的學(xué)習(xí)能力,并通過算例仿真檢驗(yàn)了該算法的有效性。
【文章頁數(shù)】:11 頁
【文章目錄】:
1 航天器與非合作目標(biāo)的動(dòng)力學(xué)模型
2 空間行為的模糊推理模型
3 追逃博弈的分支深度強(qiáng)化學(xué)習(xí)
3.1 多組并行的網(wǎng)絡(luò)分支
3.2 共享行為決策模塊
3.3 航天器與非合作目標(biāo)的博弈交互
4 算例分析
5 結(jié)論
本文編號(hào):4046198
【文章頁數(shù)】:11 頁
【文章目錄】:
1 航天器與非合作目標(biāo)的動(dòng)力學(xué)模型
2 空間行為的模糊推理模型
3 追逃博弈的分支深度強(qiáng)化學(xué)習(xí)
3.1 多組并行的網(wǎng)絡(luò)分支
3.2 共享行為決策模塊
3.3 航天器與非合作目標(biāo)的博弈交互
4 算例分析
5 結(jié)論
本文編號(hào):4046198
本文鏈接:http://sikaile.net/kejilunwen/hangkongsky/4046198.html
最近更新
教材專著