深度強(qiáng)化學(xué)習(xí)在室內(nèi)無(wú)人機(jī)目標(biāo)搜索中的應(yīng)用
發(fā)布時(shí)間:2023-04-18 20:47
針對(duì)室內(nèi)無(wú)人機(jī)隨機(jī)目標(biāo)搜索效率不高、準(zhǔn)確率低等問(wèn)題,提出了一種基于空間位置標(biāo)注的好奇心驅(qū)動(dòng)的深度強(qiáng)化學(xué)習(xí)方法。用正六邊形對(duì)探索空間進(jìn)行區(qū)域劃分,并標(biāo)記無(wú)人機(jī)在各區(qū)域的訪問(wèn)次數(shù),將其作為好奇心,產(chǎn)生內(nèi)部獎(jiǎng)勵(lì),以鼓勵(lì)無(wú)人機(jī)不斷探索新領(lǐng)域,有效避免其陷入到局部區(qū)域;訓(xùn)練時(shí)采用近端策略優(yōu)化算法(PPO)優(yōu)化神經(jīng)網(wǎng)絡(luò)參數(shù),該算法能使無(wú)人機(jī)更快找到最優(yōu)搜索策略,較好躲避障礙物,有效縮短訓(xùn)練周期,提升搜索效率和準(zhǔn)確率。
【文章頁(yè)數(shù)】:5 頁(yè)
【文章目錄】:
1 引言
2 仿真環(huán)境和任務(wù)介紹
3 基于深度強(qiáng)化學(xué)習(xí)的室內(nèi)無(wú)人機(jī)目標(biāo)搜索
3.1 PPO算法
3.2 好奇心驅(qū)動(dòng)模型
3.3 基于空間位置標(biāo)注的好奇心驅(qū)動(dòng)方法
4 仿真實(shí)例
4.1 Agent狀態(tài)空間及獎(jiǎng)勵(lì)規(guī)則設(shè)置
4.2 實(shí)驗(yàn)結(jié)果及分析
5 結(jié)束語(yǔ)
本文編號(hào):3793007
【文章頁(yè)數(shù)】:5 頁(yè)
【文章目錄】:
1 引言
2 仿真環(huán)境和任務(wù)介紹
3 基于深度強(qiáng)化學(xué)習(xí)的室內(nèi)無(wú)人機(jī)目標(biāo)搜索
3.1 PPO算法
3.2 好奇心驅(qū)動(dòng)模型
3.3 基于空間位置標(biāo)注的好奇心驅(qū)動(dòng)方法
4 仿真實(shí)例
4.1 Agent狀態(tài)空間及獎(jiǎng)勵(lì)規(guī)則設(shè)置
4.2 實(shí)驗(yàn)結(jié)果及分析
5 結(jié)束語(yǔ)
本文編號(hào):3793007
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3793007.html
最近更新
教材專(zhuān)著