連續(xù)動(dòng)作空間下的多智能體強(qiáng)化學(xué)習(xí)算法研究

發(fā)布時(shí)間：2023-03-09 20:00

　　真實(shí)世界中往往有很多問題例如交通控制、網(wǎng)絡(luò)包傳輸及視頻游戲等都會被自然的建立為多智能體系統(tǒng)。在多智能體系統(tǒng)中,智能體之間往往需要協(xié)同合作來達(dá)成共同的目標(biāo)。先前有許多工作致力于解決多智能體協(xié)同問題,這些算法大多是從Q學(xué)習(xí)擴(kuò)展得到的,例如分布式Q學(xué)習(xí)算法(distributed Qlearning)、策略爬山算法(Policy Hill Climbing,PHC)和遞歸頻率最大Q值算法(recursive Frequency Maximum Q-Value,rFMQ)等。但是這些算法只能解決離散動(dòng)作空間中的多智能體協(xié)同問題。然而現(xiàn)實(shí)環(huán)境的動(dòng)作空間大多是連續(xù)的。現(xiàn)有的很多算法在解決單智能體連續(xù)動(dòng)作空間學(xué)習(xí)問題上已經(jīng)取得了很多成果。這些算法主要可以分為兩大類:基于函數(shù)逼近方法的算法和基于蒙特卡洛采樣方法的算法�；诤瘮�(shù)逼近方法的算法又可以被分為基于值近似方法的算法和基于策略近似方法的算法。然而上述算法普遍存在一個(gè)缺點(diǎn),即如果他們被直接應(yīng)用到解決連續(xù)動(dòng)作空間下的多智能體協(xié)同問題中時(shí)效率會變低,算法的收斂速度慢或無法收斂�；谝陨蠁栴},本課題旨在提出一種強(qiáng)化學(xué)習(xí)算法框架,目的是高效地解決連續(xù)動(dòng)作空...

【文章頁數(shù)】：65 頁

【學(xué)位級別】：碩士

【文章目錄】：
摘要
ABSTRACT
第一章緒論
    1.1 課題研究背景及意義
    1.2 存在的主要問題
    1.3 本文研究內(nèi)容及貢獻(xiàn)
    1.4 論文結(jié)構(gòu)
第二章馬爾可夫決策過程與單智能體強(qiáng)化學(xué)習(xí)
    2.1 馬爾可夫決策過程
    2.2 單智能體強(qiáng)化學(xué)習(xí)算法簡介
        2.2.1 離散動(dòng)作空間中的單智能體學(xué)習(xí)算法
        2.2.2 連續(xù)動(dòng)作空間中的單智能體學(xué)習(xí)算法
第三章馬爾可夫博弈與多智能體強(qiáng)化學(xué)習(xí)
    3.1 馬爾可夫博弈
    3.2 多智能體強(qiáng)化學(xué)習(xí)算法簡介
        3.2.1 離散動(dòng)作空間中的多智能體學(xué)習(xí)算法
        3.2.2 連續(xù)動(dòng)作空間中的多智能體學(xué)習(xí)算法
第四章連續(xù)動(dòng)作空間下的多智能體協(xié)同算法
    4.1 連續(xù)動(dòng)作空間下的多智能體協(xié)同算法框架
    4.2 單狀態(tài)下基于遞歸頻率最大Q值的連續(xù)動(dòng)作學(xué)習(xí)自動(dòng)機(jī)算法
        4.2.1 單狀態(tài)下CALA-rFMQ算法綜述
        4.2.2 單狀態(tài)下基于PHC算法的rFMQ算法學(xué)習(xí)前k優(yōu)離散動(dòng)作
        4.2.3 單狀態(tài)下使用有先驗(yàn)經(jīng)驗(yàn)的WoLS-CALA算法學(xué)習(xí)最優(yōu)動(dòng)作
    4.3 多狀態(tài)下基于遞歸頻率最大Q值的連續(xù)動(dòng)作學(xué)習(xí)自動(dòng)機(jī)算法
        4.3.1 多狀態(tài)下基于PHC算法的rFMQ算法學(xué)習(xí)前k優(yōu)離散動(dòng)作
        4.3.2 多狀態(tài)下使用有先驗(yàn)經(jīng)驗(yàn)的WoLS-CALA算法學(xué)習(xí)最優(yōu)動(dòng)作
第五章實(shí)驗(yàn)設(shè)置及實(shí)驗(yàn)結(jié)果
    5.1 單狀態(tài)環(huán)境下實(shí)驗(yàn)
        5.1.1 實(shí)驗(yàn)及參數(shù)設(shè)置
        5.1.2 實(shí)驗(yàn)結(jié)果及分析
    5.2 多狀態(tài)環(huán)境下的實(shí)驗(yàn)
        5.2.1 實(shí)驗(yàn)及參數(shù)設(shè)置
        5.2.2 實(shí)驗(yàn)結(jié)果及分析
第六章總結(jié)與展望
    6.1 論文總結(jié)
    6.2 展望
參考文獻(xiàn)
發(fā)表論文和參加科研情況說明
    發(fā)表的論文
致謝

本文編號：3758204

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3758204.html

上一篇：無線傳感器網(wǎng)絡(luò)柵欄覆蓋問題算法研究
下一篇：紹納語詞性標(biāo)注器詞法與轉(zhuǎn)換規(guī)則的改進(jìn)方法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

連續(xù)動(dòng)作空間下的多智能體強(qiáng)化學(xué)習(xí)算法研究