天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

基于深度強(qiáng)化學(xué)習(xí)的群體對抗策略研究

發(fā)布時間:2022-12-18 01:32
  多智能體強(qiáng)化學(xué)習(xí)方法之前一直在博弈論和控制論的基礎(chǔ)上進(jìn)行研究,但是實驗結(jié)果表明,這一類多智能體強(qiáng)化學(xué)習(xí)方法無法處理現(xiàn)實生活中的復(fù)雜問題。直到最近幾年深度學(xué)習(xí)技術(shù)和強(qiáng)化學(xué)習(xí)技術(shù)的成熟,給群體智能的研究帶來了新的解決方案。通過深度神經(jīng)網(wǎng)絡(luò)來擬合策略函數(shù)使得智能體有更強(qiáng)的處理復(fù)雜問題的能力。本課題主要研究多智能體強(qiáng)化學(xué)習(xí)方法在對抗與協(xié)作環(huán)境下的應(yīng)用,以及算法穩(wěn)定性的提升和智能體的規(guī)模的擴(kuò)大,使得智能體能夠像人類一樣在復(fù)雜環(huán)境下能夠互相協(xié)作地與其他智能體進(jìn)行對抗。首先,本文的研究在GYM平臺上進(jìn)行,該平臺包含眾多游戲場景,是由Open AI開發(fā)的供給強(qiáng)化學(xué)習(xí)方法研究平臺。本文根據(jù)MADDPG算法實現(xiàn)了一個群體智能對抗策略。該策略能夠與GYM平臺進(jìn)行交互,讀取智能體集群的信息,然后做出決策,控制智能體集群中的智能體互相協(xié)作,達(dá)到與其他智能體集群對抗的目的。其次,本文針對DDPG方法做出了改進(jìn),將確定性策略改為隨機(jī)策略,以增加樣本的復(fù)雜性,提高算法的穩(wěn)定性,并對DDPG的策略梯度更新方式做出了修改,保證算法性能在訓(xùn)練過程中保持單調(diào)不減。本文還在改進(jìn)后的MADDPG算法的基礎(chǔ)上加入注意力機(jī)制,使得智... 

【文章頁數(shù)】:64 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
Abstract
第1章 緒論
    1.1 課題研究的背景和意義
    1.2 國內(nèi)外研究現(xiàn)狀
        1.2.1 國內(nèi)外研究現(xiàn)狀
        1.2.2 國內(nèi)外研究問題簡析
    1.3 主要研究內(nèi)容
    1.4 內(nèi)容安排
第2章 深度強(qiáng)化學(xué)習(xí)理論與研究環(huán)境介紹
    2.1 深度學(xué)習(xí)原理
        2.1.1 多層感知機(jī)網(wǎng)絡(luò)
    2.2 強(qiáng)化學(xué)習(xí)簡介
        2.2.1 馬爾可夫決策過程
        2.2.2 強(qiáng)化學(xué)習(xí)理論
        2.2.3 強(qiáng)化學(xué)習(xí)特性
    2.3 多智能體強(qiáng)化學(xué)習(xí)理論
        2.3.1 矩陣博弈
        2.3.2 博弈概念
    2.4 注意力(attention)機(jī)制簡介
        2.4.1 Attention機(jī)制介紹
        2.4.2 Encoder-Decoder框架
        2.4.3 Attention機(jī)制
    2.5 研究平臺介紹
    2.6 本章小結(jié)
第3章 基于DDPG的改進(jìn)算法
    3.1 強(qiáng)化學(xué)習(xí)和Q-learning原理
        3.1.1 強(qiáng)化學(xué)習(xí)簡介
        3.1.2 Q-learning原理
    3.2 深度強(qiáng)化學(xué)習(xí)
        3.2.1 Deep Q-Network算法
        3.2.2 深度策略梯度
    3.3 Actor-Critic架構(gòu)
        3.3.1 Actor-Critic介紹
        3.3.2 Actor-Critic算法
        3.3.3 確定性策略梯度(DDPG)算法
    3.4 TRPG(Trust Region Policy Gradient)算法基本思想
        3.4.1 DDPG算法的不足
        3.4.2 連續(xù)動作空間的表示
        3.4.3 TRPG算法思想
    3.5 模型設(shè)計與實驗
        3.5.1 實驗環(huán)境介紹
        3.5.2 實驗結(jié)果及分析
    3.6 本章小結(jié)
第4章 帶注意力機(jī)制的MATRPG算法
    4.1 多智能體強(qiáng)化學(xué)習(xí)介紹
    4.2 多智能體強(qiáng)化學(xué)習(xí)基本算法
    4.3 MADDPG算法介紹
        4.3.1 MADDPG核心思想
        4.3.2 估計其他智能體的策略
        4.3.3 策略集合優(yōu)化
    4.4 MATRPG算法
        4.4.1 MATRPG核心思想
        4.4.2 模型設(shè)計與實驗結(jié)果對比
    4.5 帶注意力機(jī)制的MATRPG
        4.5.1 設(shè)計思路與模型設(shè)計
        4.5.2 實驗結(jié)果與分析
    4.6 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其它成果
致謝



本文編號:3721057

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3721057.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶17c5f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com