基于蒙特卡洛Q值函數(shù)的多智能體決策方法

發(fā)布時(shí)間：2021-06-19 11:15

　　多智能體決策問題是人工智能領(lǐng)域的研究熱點(diǎn).與單智能體決策問題相比,多智能體決策的策略搜索空間更大.分布式局部感知馬爾可夫決策過程（Dec-POMDPs）建立了不確定環(huán)境下多智能體決策問題的通用模型,自提出以來受到很大關(guān)注,但是求解Dec-POMDPs問題計(jì)算復(fù)雜度高,內(nèi)存占用大.基于此,提出一種新的Q值函數(shù)表示—–蒙特卡洛Q值函數(shù)（QMC）,并從理論上證明QMC是最優(yōu)Q值函數(shù)Q?的上界,能夠保證啟發(fā)式搜索到最優(yōu)解;運(yùn)用自適應(yīng)抽樣方法,平衡收斂準(zhǔn)確性和求解時(shí)間的關(guān)系;結(jié)合啟發(fā)式搜索的精確性和蒙特卡洛方法隨機(jī)抽樣的一般性,提出一種基于QMC的蒙特卡洛聚類/擴(kuò)展算法（CEMC）, CEMC整合了Q值函數(shù)求解和策略搜索過程,避免保存所有值函數(shù),只按需求解.實(shí)驗(yàn)結(jié)果表明, CEMC在時(shí)間和內(nèi)存占用上超過目前性能最好的使用緊湊Q值函數(shù)的啟發(fā)式方法.

【文章來源】：控制與決策. 2020,35(03)北大核心EICSCD

【文章頁數(shù)】：8 頁

本文編號：3237709

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3237709.html

上一篇：城市物流中電動(dòng)無人車配送規(guī)劃及算法研究
下一篇：新建應(yīng)用型本科網(wǎng)絡(luò)學(xué)術(shù)文獻(xiàn)資源檢索與利用實(shí)證研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于蒙特卡洛Q值函數(shù)的多智能體決策方法