天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

基于一致性與事件驅(qū)動的強化學(xué)習(xí)研究

發(fā)布時間:2021-04-22 17:12
  強化學(xué)習(xí)是一種重要的機器學(xué)習(xí)方法,通過試錯的方式來求解問題,具有學(xué)習(xí)結(jié)構(gòu)簡單,自適應(yīng)性強等特點,在機器博弈、機器人自主導(dǎo)航和市場決策等領(lǐng)域顯示出很大的發(fā)展?jié)摿?為解決智能系統(tǒng)知識獲取的瓶頸問題提供了一個可行之法。論文圍繞如何提高強化學(xué)習(xí)的效率這一科學(xué)問題,從強化學(xué)習(xí)過程中智能體間的通信方式、強化學(xué)習(xí)的算法結(jié)構(gòu)和強化學(xué)習(xí)的策略搜索方式三個方面著手進行研究,建立了分布式局部可觀測馬爾科夫過程、多智能體強化學(xué)習(xí)和局部通信之間的理論紐帶,為發(fā)展基于事件驅(qū)動思想的強化學(xué)習(xí)理論打下了基礎(chǔ)。針對大規(guī)模多智能體應(yīng)用中的觀測局部性和不確定性問題,圍繞分布式局部可觀測馬爾科夫模型,提出一種基于一致性協(xié)議的多智能體強化學(xué)習(xí)算法。對于一個分布式學(xué)習(xí)環(huán)境,強化學(xué)習(xí)的要素在局部觀測情況下往往難以進行有效描述,且每一個獨立智能體的學(xué)習(xí)行為都受其隊友的影響。所提算法利用一致性協(xié)議使所有智能體對觀測環(huán)境達成共識,剔除了重復(fù)觀測生成的部分策略;針對智能體感知能力有限并隨空間變化的特性,引入觀測可信度來評估智能體對當(dāng)前觀測的可靠程度。仿真實驗表明,觀測可信度可以提高團隊對觀測目標(biāo)的共識程度,基于一致性協(xié)議的學(xué)習(xí)算法減小了多... 

【文章來源】:西南交通大學(xué)四川省 211工程院校 教育部直屬院校

【文章頁數(shù)】:125 頁

【學(xué)位級別】:博士

【文章目錄】:
摘要
Abstract
主要符號對照表
第1章 緒論
    1.1 課題的背景及意義
    1.2 多智能體的協(xié)調(diào)與協(xié)作
    1.3 不確定環(huán)境下的多智能體系統(tǒng)
    1.4 強化學(xué)習(xí)的策略空間與收斂速度
    1.5 論文的主要研究內(nèi)容及章節(jié)安排
第2章 多智能體協(xié)作與學(xué)習(xí)模型
    2.1 引言
    2.2 強化學(xué)習(xí)原理
        2.2.1 MonteCarlo算法
        2.2.2 瞬時差分法
        2.2.3 Q-學(xué)習(xí)
        2.2.4 Sarsa算法
        2.2.5 Actor-Critic學(xué)習(xí)算法
        2.2.6 R-學(xué)習(xí)算法
    2.3 分布式強化學(xué)習(xí)原理
        2.3.1 分布式強化學(xué)習(xí)模型
        2.3.2 研究現(xiàn)況及存在的問題
    2.4 分布式馬爾科夫決策模型
        2.4.1 分布式馬爾科夫模型
        2.4.2 局部可觀測的馬爾科夫模型
        2.4.3 分布式局部可觀測的馬爾科夫模型
        2.4.4 研究現(xiàn)狀與存在的問題
    2.5 多智能體一致性原理
        2.5.1 圖論
        2.5.2 Gossip一致性算法
        2.5.3 離散一致性算法
    2.6 啟發(fā)式強化學(xué)習(xí)原理
        2.6.1 盲目搜索與啟發(fā)式搜索
        2.6.2 啟發(fā)式強化學(xué)習(xí)
    2.7 本章小結(jié)
第3章 基于一致性的多智能體強化學(xué)習(xí)研究
    3.1 引言
    3.2 基于一致性的DEC-POMDP強化學(xué)習(xí)框架
        3.2.1 強化學(xué)習(xí)中的局部觀測性和不確定性分析
        3.2.2 分布式多智能體強化學(xué)習(xí)模型設(shè)計
        3.2.3 多智能體強化學(xué)習(xí)一致性方案設(shè)計
    3.3 基于一致性的多智能體強化學(xué)習(xí)算法
        3.3.1 基于一致性的多智能體強化學(xué)習(xí)算法設(shè)計
        3.3.2 基于一致性的策略化簡設(shè)計
    3.4 收斂性分析
    3.5 仿真實驗
    3.6 本章小結(jié)
第4章 基于事件驅(qū)動的多智能體強化學(xué)習(xí)研究
    4.1 引言
    4.2 事件驅(qū)動原理
    4.3 強化學(xué)習(xí)的事件驅(qū)動模型與觸發(fā)規(guī)則設(shè)計
        4.3.1 基于事件驅(qū)動的強化學(xué)習(xí)模型設(shè)計
        4.3.2 觸發(fā)規(guī)則設(shè)計
    4.4 基于事件驅(qū)動的強化學(xué)習(xí)
        4.4.1 基于事件驅(qū)動的強化學(xué)習(xí)算法設(shè)計
        4.4.2 計算資源消耗分析
        4.4.3 算法收斂性分析
    4.5 仿真實驗
    4.6 本章小結(jié)
第5章 基于事件驅(qū)動的啟發(fā)式強化學(xué)習(xí)研究
    5.1 引言
    5.2 啟發(fā)式加速強化學(xué)習(xí)方法
        5.2.1 啟發(fā)式加速Q(mào)-學(xué)習(xí)
        5.2.2 基于狀態(tài)回溯代價分析啟發(fā)式Q-學(xué)習(xí)
        5.2.3 基于CaseBasedReasoning的啟發(fā)式加速Q(mào)-學(xué)習(xí)
    5.3 基于事件驅(qū)動的啟發(fā)式Q-學(xué)習(xí)設(shè)計
        5.3.1 基于事件驅(qū)動的HAQL算法
            5.3.1.1 觸發(fā)函數(shù)設(shè)計
            5.3.1.2 算法設(shè)計
            5.3.1.3 仿真實驗
        5.3.2 基于事件驅(qū)動的HASB-QL算法
            5.3.2.1 觸發(fā)函數(shù)設(shè)計
            5.3.2.2 算法設(shè)計
            5.3.2.3 啟發(fā)式函數(shù)分析
            5.3.2.4 仿真實驗
        5.3.3 基于事件驅(qū)動的CB-HAQL算法
            5.3.3.1 觸發(fā)函數(shù)設(shè)計
            5.3.3.2 案例設(shè)計
            5.3.3.3 算法設(shè)計
            5.3.3.4 仿真實驗
    5.4 本章小結(jié)
結(jié)論
致謝
參考文獻
攻讀博士學(xué)位期間發(fā)表的論文及科研成果



本文編號:3154153

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3154153.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶286d8***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
日本深夜福利在线播放| 婷婷基地五月激情五月| 精品久久av一二三区| 俄罗斯胖女人性生活视频| 国产高清一区二区不卡| 国产户外勾引精品露出一区| 久久青青草原中文字幕| 国产盗摄精品一区二区视频| 热久久这里只有精品视频| 欧美黑人精品一区二区在线 | 自拍偷女厕所拍偷区亚洲综合| 国产又粗又猛又黄又爽视频免费| 无套内射美女视频免费在线观看| 国产精品欧美一级免费| 欧美日韩久久精品一区二区| 精品少妇人妻av免费看| 九九视频通过这里有精品| 亚洲视频一区二区久久久| 国产一区日韩二区欧美| 中文字幕久热精品视频在线| 亚洲精品国产主播一区| 国产亚洲欧美一区二区| 日本女优一区二区三区免费| 亚洲一区二区三区一区| 国产永久免费高清在线精品| 综合久综合久综合久久| 国产免费一区二区不卡| 亚洲av秘片一区二区三区| 国产专区亚洲专区久久| 丝袜人妻夜夜爽一区二区三区| 草草视频精品在线观看| 国产乱淫av一区二区三区| 亚洲精品一区二区三区免| 亚洲天堂男人在线观看| 又黄又硬又爽又色的视频| 国产熟女一区二区不卡| 成人精品视频一区二区在线观看| 欧美日韩国产综合特黄| 国产视频在线一区二区| 成人精品亚洲欧美日韩| 久热这里只有精品九九|