天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

強(qiáng)化學(xué)習(xí)在多智能體協(xié)同中的研究與應(yīng)用

發(fā)布時間:2025-01-20 18:31
  隨著計(jì)算機(jī)科學(xué)的發(fā)展,特別是強(qiáng)化學(xué)習(xí)理論的大量應(yīng)用,將強(qiáng)化學(xué)習(xí)方法應(yīng)用在多智能體系統(tǒng)中的研究逐漸熱門。強(qiáng)化學(xué)習(xí)模擬人類活動中獲得獎勵的過程,通過最大化獎勵的方式為研究人員提供了一種求解多智能體控制系統(tǒng)的方法。多智能體系統(tǒng)利用強(qiáng)化學(xué)習(xí)可以進(jìn)行自適應(yīng)的學(xué)習(xí),可以很好面對環(huán)境中的動態(tài)特性。隨著多智能體系統(tǒng)的應(yīng)用場景越來越多,利用強(qiáng)化學(xué)習(xí)在多智能體系統(tǒng)中設(shè)計(jì)靈活的算法也是當(dāng)今的研究熱點(diǎn)。為了達(dá)到上述目標(biāo),本文結(jié)合已有的多智能體系統(tǒng)中的強(qiáng)化學(xué)習(xí)算法,針對在多智能體協(xié)同環(huán)境中的強(qiáng)化學(xué)習(xí)方法進(jìn)行研究,主要完成了以下工作:(1)提出一種適用于全局觀測環(huán)境下多智能體強(qiáng)化學(xué)習(xí)算法。本文提出的算法利用注意力機(jī)制自適應(yīng)選擇環(huán)境中的智能體信息,以注意力的方式聚合選擇之后的智能體信息,從而替代傳統(tǒng)多智能體強(qiáng)化學(xué)習(xí)中的聯(lián)合狀態(tài)以及聯(lián)合動作。將其應(yīng)用于多智能體協(xié)同環(huán)境中,與MADDPG算法相比較,進(jìn)行實(shí)驗(yàn)中驗(yàn)證了算法的高效性。(2)提出一種基于圖網(wǎng)絡(luò)的多智能體強(qiáng)化學(xué)習(xí)方法。在部分可觀測的多智能體環(huán)境中,利用圖網(wǎng)絡(luò)進(jìn)行智能體之間的信息傳遞,從而使多智能體系統(tǒng)中的每個智能體感知全局信息進(jìn)行學(xué)習(xí)。并將該方法與強(qiáng)化學(xué)習(xí)相結(jié)合,...

【文章頁數(shù)】:74 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
abstract
第一章 緒論
    1.1 研究工作的背景與意義
    1.2 強(qiáng)化學(xué)習(xí)國內(nèi)外研究現(xiàn)狀
    1.3 多智能體強(qiáng)化學(xué)習(xí)國內(nèi)外研究現(xiàn)狀
    1.4 本文的主要工作
    1.5 本論文的結(jié)構(gòu)安排
第二章 關(guān)鍵算法與技術(shù)
    2.1 強(qiáng)化學(xué)習(xí)基礎(chǔ)
        2.1.1 馬爾可夫決策過程
        2.1.2 貝爾曼方程
        2.1.3 表格化的解決方法
        2.1.4 深度強(qiáng)化學(xué)習(xí)方法
    2.2 多智能體強(qiáng)化學(xué)習(xí)
        2.2.1 多智能體馬爾可夫博弈
        2.2.2 多智能體強(qiáng)化學(xué)習(xí)典型算法
    2.3 注意力機(jī)制
    2.4 圖神經(jīng)網(wǎng)絡(luò)
    2.5 本章小結(jié)
第三章 全局觀測下的多智能體強(qiáng)化學(xué)習(xí)算法
    3.1 問題分析
    3.2 基于注意力機(jī)制的智能體信息融合
    3.3 基于全局觀測信息的ATMA算法
    3.4 實(shí)驗(yàn)驗(yàn)證
        3.4.1 多智能體強(qiáng)化學(xué)習(xí)環(huán)境
        3.4.2 智能體信息表示
        3.4.3 參數(shù)設(shè)置
        3.4.4 實(shí)驗(yàn)結(jié)果分析
    3.5 本章小結(jié)
第四章 部分觀測下的多智能體強(qiáng)化學(xué)習(xí)算法
    4.1 問題分析
    4.2 基于圖網(wǎng)絡(luò)的智能體信息融合
    4.3 基于靜態(tài)子圖的網(wǎng)絡(luò)更新方式
    4.4 實(shí)驗(yàn)驗(yàn)證
        4.4.1 實(shí)驗(yàn)環(huán)境設(shè)置
        4.4.2 實(shí)驗(yàn)參數(shù)設(shè)置
        4.4.3 實(shí)驗(yàn)結(jié)果分析
    4.5 本章小結(jié)
第五章 算法可擴(kuò)展性研究
    5.1 問題分析
    5.2 課程學(xué)習(xí)
    5.3 實(shí)驗(yàn)驗(yàn)證
        5.3.1 實(shí)驗(yàn)設(shè)置
        5.3.2 實(shí)驗(yàn)結(jié)果分析
    5.4 本章小結(jié)
第六章 全文總結(jié)與展望
    6.1 全文總結(jié)
    6.2 未來工作展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的成果



本文編號:4029520

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/4029520.html

上一篇:鄉(xiāng)城流動人口家庭遷移行為決策研究  
下一篇:沒有了

Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶42ab2***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
丰满人妻少妇精品一区二区三区| 亚洲中文在线中文字幕91| 欧美国产日本高清在线| 日韩欧美亚洲综合在线| 亚洲欧美日本视频一区二区 | 日本深夜福利在线播放| 国产成人免费激情视频| 亚洲欧美日韩国产成人| 国产情侣激情在线对白| 欧美大粗爽一区二区三区| 黑人巨大精品欧美一区二区区| 日韩精品第一区二区三区| 一级欧美一级欧美在线播| 日韩国产亚洲欧美另类| 亚洲中文字幕免费人妻| 日韩一区二区三区有码| 亚洲国产性感美女视频| 中国一区二区三区不卡| 亚洲一区二区三区国产| 欧美小黄片在线一级观看| 一区二区三区在线不卡免费| 中文字幕久久精品亚洲乱码| 国产亚洲欧美自拍中文自拍| 91亚洲国产—区=区a| 精品久久av一二三区| 国产精品刮毛视频不卡| 国产一区二区三区香蕉av| 国产成人免费激情视频| 中国日韩一级黄色大片| 中文字幕乱码一区二区三区四区| 久久精品亚洲欧美日韩| 大香伊蕉欧美一区二区三区| 精品人妻一区二区三区四区久久| 少妇高潮呻吟浪语91| 久热在线视频这里只有精品| 99久久精品久久免费| 青青操成人免费在线视频| 手机在线不卡国产视频| 亚洲熟女国产熟女二区三区| 国产一区二区不卡在线播放| 国产日韩欧美综合视频|