基于經(jīng)驗(yàn)移植的自主空戰(zhàn)對(duì)抗學(xué)習(xí)方法
發(fā)布時(shí)間:2024-01-21 08:04
現(xiàn)有的機(jī)器學(xué)習(xí)方法大多是交互式的學(xué)習(xí)模式,這類方法在訓(xùn)練過程非常依賴與環(huán)境之間的交互數(shù)據(jù)?諔(zhàn)對(duì)抗任務(wù)是一種獎(jiǎng)勵(lì)非常稀疏的訓(xùn)練任務(wù),智能體在學(xué)習(xí)開始的很長一段時(shí)間內(nèi),都在探索能夠獲得獎(jiǎng)勵(lì)的動(dòng)作。如果每一個(gè)新的任務(wù)都重新訓(xùn)練,是非常浪費(fèi)計(jì)算資源的。因此,設(shè)計(jì)了一種基于經(jīng)驗(yàn)移植的學(xué)習(xí)方法,使得經(jīng)過訓(xùn)練的智能體能夠?qū)⒅R(shí)分享給新的智能體,提高其在新任務(wù)上的學(xué)習(xí)效率。首先,借鑒人類通過經(jīng)驗(yàn)進(jìn)行快速學(xué)習(xí)的現(xiàn)象,構(gòu)建了基于經(jīng)驗(yàn)移植的學(xué)習(xí)的模型;其次,兼顧知識(shí)分享和新任務(wù)的特征,明確了經(jīng)驗(yàn)的內(nèi)涵,建立了"知識(shí)+任務(wù)→經(jīng)驗(yàn)"的融合認(rèn)知方式;再次,設(shè)計(jì)了借鑒學(xué)習(xí)方法,將外部經(jīng)驗(yàn)與任務(wù)相結(jié)合,進(jìn)而轉(zhuǎn)化為新個(gè)體的知識(shí);最后,使用經(jīng)驗(yàn)適用度作為篩選指標(biāo),分析了經(jīng)驗(yàn)適用度對(duì)借鑒學(xué)習(xí)效率的影響,確定了執(zhí)行借鑒學(xué)習(xí)的篩選邊界。新個(gè)體通過借鑒學(xué)習(xí)后能夠獲得關(guān)于新任務(wù)的初步知識(shí),在新任務(wù)中更快地找到能夠獲得獎(jiǎng)勵(lì)的動(dòng)作策略,從而提升在新的任務(wù)中的學(xué)習(xí)速度。
【文章頁數(shù)】:9 頁
本文編號(hào):3881546
【文章頁數(shù)】:9 頁
本文編號(hào):3881546
本文鏈接:http://sikaile.net/shekelunwen/renwuzj/3881546.html
最近更新
教材專著