天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 管理論文 > 領導決策論文 >

多智能體博弈強化學習算法及其均衡研究

發(fā)布時間:2024-01-27 13:22
  人工智能和多智能體系統(tǒng)在實際應用中會遇到諸如無人駕駛、無人機編隊、機器人對抗等智能體與環(huán)境交互、智能體與智能體交互的場景。圍繞多智能體博弈模型,以馬爾科夫博弈或者隨機博弈的框架為基礎,討論基于強化學習方法與環(huán)境交互尋找納什均衡的多智能體強化學習算法、基于均衡理論計算納什均衡的群智能算法兩個方面存在的問題,開展以下研究:為改善多智能體納什Q學習算法適應性不好,條件苛刻,運算復雜,且沒有通用的方法更新策略價值等問題,提出算法改進思路。首先,引入聯(lián)合動作向量簡化算法,引入?yún)?shù),通過參數(shù)近似控制狀態(tài)-行為值函數(shù),轉(zhuǎn)化訓練目標,給出參數(shù)逼近的值函數(shù)更新方程;其次,理論分析了算法的收斂性及可行性;最后,通過實驗驗證了算法的有效性。仿真結果表明,基于參數(shù)逼近的多智能體強化學習算法,能夠使智能體100%達到納什均衡,且能夠提高算法性能,簡化算法復雜性,比起傳統(tǒng)的納什Q學習算法能夠較快收斂。針對智能體參與個數(shù)多或者維度稍高的矩陣博弈納什均衡計算困難,對現(xiàn)有的納什均衡求解理論進行分析,將求解納什均衡問題轉(zhuǎn)化為可以利用群智能算法求解的單目標優(yōu)化問題。為改善現(xiàn)有的粒子群算法計算納什均衡時精度不高,迭代繁瑣,提...

【文章頁數(shù)】:58 頁

【學位級別】:碩士

【文章目錄】:
摘要
ABSTRACT
1 緒論
    1.1 選題背景及研究意義
        1.1.1 選題背景
        1.1.2 研究意義
    1.2 研究現(xiàn)狀及發(fā)展趨勢
        1.2.1 多智能體強化學習的研究現(xiàn)狀及發(fā)展趨勢
        1.2.2 博弈均衡的研究現(xiàn)狀及發(fā)展趨勢
    1.3 本文研究內(nèi)容和技術路線
        1.3.1 研究內(nèi)容
        1.3.2 技術路線
2 相關基本理論
    2.1 強化學習
        2.1.1 強化學習模型與基本要素
        2.1.2 馬爾科夫決策過程概述
    2.2 多智能體強化學習
        2.2.1 多智能體強化學習模型
        2.2.2 馬爾科夫博弈中的多智能體強化學習
    2.3 博弈均衡理論
        2.3.1 納什均衡的數(shù)學描述
        2.3.2 純策略博弈
        2.3.3 混合策略博弈
    2.4 小結
3 參數(shù)逼近的多智能體強化學習算法
    3.1 多智能體納什Q學習
        3.1.1 策略迭代與時間差分學習
        3.1.2 納什Q學習算法
    3.2 基于參數(shù)逼近的強化學習算法
        3.2.1 算法改進
        3.2.2 算法描述
    3.3 算法的收斂性與可行性分析
        3.3.1 算法收斂性分析
        3.3.2 算法可行性分析
    3.4 實驗與結果分析
        3.4.1 實驗設置
        3.4.2 結果分析
    3.5 本章小結
4 基于粒子群算法求解納什均衡
    4.1 納什均衡問題轉(zhuǎn)化
        4.1.1 雙人策略博弈中的納什均衡
        4.1.2 雙人策略博弈的優(yōu)化問題
    4.2 改進的粒子群算法設計思想
        4.2.1 標準粒子群算法思想
        4.2.2 參數(shù)的分析與修正
        4.2.3 改進的粒子群算法步驟
        4.2.4 數(shù)值測試
    4.3 改進的粒子群算法求解納什均衡
        4.3.1 求解納什均衡優(yōu)化模型
        4.3.2 算法描述
        4.3.3 算法流程圖
        4.3.4 算法可行性分析與性能評價
    4.4 仿真算例
    4.5 本章小結
5 結論與展望
    5.1 結論
    5.2 展望
致謝
參考文獻
附錄
攻讀碩士學位期間獲獎



本文編號:3887043

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3887043.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶46fce***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com