基于分支深度強(qiáng)化學(xué)習(xí)的非合作目標(biāo)追逃博弈策略求解

發(fā)布時(shí)間：2025-05-15 03:48

　　為解決航天器與非合作目標(biāo)的空間交會(huì)問題,緩解深度強(qiáng)化學(xué)習(xí)在連續(xù)空間的應(yīng)用限制,提出了一種基于分支深度強(qiáng)化學(xué)習(xí)的追逃博弈算法,以獲得與非合作目標(biāo)的空間交會(huì)策略。對(duì)于非合作目標(biāo)的空間交會(huì)最優(yōu)控制,運(yùn)用微分對(duì)策描述為連續(xù)推力作用下的追逃博弈問題;為避免傳統(tǒng)深度強(qiáng)化學(xué)習(xí)應(yīng)對(duì)連續(xù)空間存在維數(shù)災(zāi)難問題,通過構(gòu)建模糊推理模型來表征連續(xù)空間,提出了一種具有多組并行神經(jīng)網(wǎng)絡(luò)和共享決策模塊的分支深度強(qiáng)化學(xué)習(xí)架構(gòu)。實(shí)現(xiàn)了最優(yōu)控制與博弈論的結(jié)合,有效解決了微分對(duì)策模型高度非線性且難于利用經(jīng)典最優(yōu)控制理論進(jìn)行求解的難題,進(jìn)一步提升了深度強(qiáng)化學(xué)習(xí)對(duì)離散行為的學(xué)習(xí)能力,并通過算例仿真檢驗(yàn)了該算法的有效性。

【文章頁數(shù)】：11 頁

【文章目錄】：
1 航天器與非合作目標(biāo)的動(dòng)力學(xué)模型
2 空間行為的模糊推理模型
3 追逃博弈的分支深度強(qiáng)化學(xué)習(xí)
    3.1 多組并行的網(wǎng)絡(luò)分支
    3.2 共享行為決策模塊
    3.3 航天器與非合作目標(biāo)的博弈交互
4 算例分析
5 結(jié)論

本文編號(hào)：4046198

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/hangkongsky/4046198.html

上一篇：火箭上升段帶終端姿態(tài)約束的閉環(huán)制導(dǎo)方法工程應(yīng)用研究
下一篇：卷積神經(jīng)網(wǎng)絡(luò)在低空空域無人機(jī)檢測中的研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于分支深度強(qiáng)化學(xué)習(xí)的非合作目標(biāo)追逃博弈策略求解