基于蒙特卡洛Q值函數(shù)的多智能體決策方法
發(fā)布時間:2021-06-19 11:15
多智能體決策問題是人工智能領(lǐng)域的研究熱點.與單智能體決策問題相比,多智能體決策的策略搜索空間更大.分布式局部感知馬爾可夫決策過程(Dec-POMDPs)建立了不確定環(huán)境下多智能體決策問題的通用模型,自提出以來受到很大關(guān)注,但是求解Dec-POMDPs問題計算復(fù)雜度高,內(nèi)存占用大.基于此,提出一種新的Q值函數(shù)表示—–蒙特卡洛Q值函數(shù)(QMC),并從理論上證明QMC是最優(yōu)Q值函數(shù)Q?的上界,能夠保證啟發(fā)式搜索到最優(yōu)解;運用自適應(yīng)抽樣方法,平衡收斂準(zhǔn)確性和求解時間的關(guān)系;結(jié)合啟發(fā)式搜索的精確性和蒙特卡洛方法隨機(jī)抽樣的一般性,提出一種基于QMC的蒙特卡洛聚類/擴(kuò)展算法(CEMC), CEMC整合了Q值函數(shù)求解和策略搜索過程,避免保存所有值函數(shù),只按需求解.實驗結(jié)果表明, CEMC在時間和內(nèi)存占用上超過目前性能最好的使用緊湊Q值函數(shù)的啟發(fā)式方法.
【文章來源】:控制與決策. 2020,35(03)北大核心EICSCD
【文章頁數(shù)】:8 頁
本文編號:3237709
【文章來源】:控制與決策. 2020,35(03)北大核心EICSCD
【文章頁數(shù)】:8 頁
本文編號:3237709
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3237709.html
最近更新
教材專著