天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于蒙特卡洛Q值函數(shù)的多智能體決策方法

發(fā)布時間:2021-06-19 11:15
  多智能體決策問題是人工智能領(lǐng)域的研究熱點.與單智能體決策問題相比,多智能體決策的策略搜索空間更大.分布式局部感知馬爾可夫決策過程(Dec-POMDPs)建立了不確定環(huán)境下多智能體決策問題的通用模型,自提出以來受到很大關(guān)注,但是求解Dec-POMDPs問題計算復(fù)雜度高,內(nèi)存占用大.基于此,提出一種新的Q值函數(shù)表示—–蒙特卡洛Q值函數(shù)(QMC),并從理論上證明QMC是最優(yōu)Q值函數(shù)Q?的上界,能夠保證啟發(fā)式搜索到最優(yōu)解;運用自適應(yīng)抽樣方法,平衡收斂準(zhǔn)確性和求解時間的關(guān)系;結(jié)合啟發(fā)式搜索的精確性和蒙特卡洛方法隨機(jī)抽樣的一般性,提出一種基于QMC的蒙特卡洛聚類/擴(kuò)展算法(CEMC), CEMC整合了Q值函數(shù)求解和策略搜索過程,避免保存所有值函數(shù),只按需求解.實驗結(jié)果表明, CEMC在時間和內(nèi)存占用上超過目前性能最好的使用緊湊Q值函數(shù)的啟發(fā)式方法. 

【文章來源】:控制與決策. 2020,35(03)北大核心EICSCD

【文章頁數(shù)】:8 頁


本文編號:3237709

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3237709.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4efb2***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com