基于一致性與事件驅(qū)動的強化學(xué)習(xí)研究
發(fā)布時間:2021-04-22 17:12
強化學(xué)習(xí)是一種重要的機器學(xué)習(xí)方法,通過試錯的方式來求解問題,具有學(xué)習(xí)結(jié)構(gòu)簡單,自適應(yīng)性強等特點,在機器博弈、機器人自主導(dǎo)航和市場決策等領(lǐng)域顯示出很大的發(fā)展?jié)摿?為解決智能系統(tǒng)知識獲取的瓶頸問題提供了一個可行之法。論文圍繞如何提高強化學(xué)習(xí)的效率這一科學(xué)問題,從強化學(xué)習(xí)過程中智能體間的通信方式、強化學(xué)習(xí)的算法結(jié)構(gòu)和強化學(xué)習(xí)的策略搜索方式三個方面著手進行研究,建立了分布式局部可觀測馬爾科夫過程、多智能體強化學(xué)習(xí)和局部通信之間的理論紐帶,為發(fā)展基于事件驅(qū)動思想的強化學(xué)習(xí)理論打下了基礎(chǔ)。針對大規(guī)模多智能體應(yīng)用中的觀測局部性和不確定性問題,圍繞分布式局部可觀測馬爾科夫模型,提出一種基于一致性協(xié)議的多智能體強化學(xué)習(xí)算法。對于一個分布式學(xué)習(xí)環(huán)境,強化學(xué)習(xí)的要素在局部觀測情況下往往難以進行有效描述,且每一個獨立智能體的學(xué)習(xí)行為都受其隊友的影響。所提算法利用一致性協(xié)議使所有智能體對觀測環(huán)境達成共識,剔除了重復(fù)觀測生成的部分策略;針對智能體感知能力有限并隨空間變化的特性,引入觀測可信度來評估智能體對當(dāng)前觀測的可靠程度。仿真實驗表明,觀測可信度可以提高團隊對觀測目標(biāo)的共識程度,基于一致性協(xié)議的學(xué)習(xí)算法減小了多...
【文章來源】:西南交通大學(xué)四川省 211工程院校 教育部直屬院校
【文章頁數(shù)】:125 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
Abstract
主要符號對照表
第1章 緒論
1.1 課題的背景及意義
1.2 多智能體的協(xié)調(diào)與協(xié)作
1.3 不確定環(huán)境下的多智能體系統(tǒng)
1.4 強化學(xué)習(xí)的策略空間與收斂速度
1.5 論文的主要研究內(nèi)容及章節(jié)安排
第2章 多智能體協(xié)作與學(xué)習(xí)模型
2.1 引言
2.2 強化學(xué)習(xí)原理
2.2.1 MonteCarlo算法
2.2.2 瞬時差分法
2.2.3 Q-學(xué)習(xí)
2.2.4 Sarsa算法
2.2.5 Actor-Critic學(xué)習(xí)算法
2.2.6 R-學(xué)習(xí)算法
2.3 分布式強化學(xué)習(xí)原理
2.3.1 分布式強化學(xué)習(xí)模型
2.3.2 研究現(xiàn)況及存在的問題
2.4 分布式馬爾科夫決策模型
2.4.1 分布式馬爾科夫模型
2.4.2 局部可觀測的馬爾科夫模型
2.4.3 分布式局部可觀測的馬爾科夫模型
2.4.4 研究現(xiàn)狀與存在的問題
2.5 多智能體一致性原理
2.5.1 圖論
2.5.2 Gossip一致性算法
2.5.3 離散一致性算法
2.6 啟發(fā)式強化學(xué)習(xí)原理
2.6.1 盲目搜索與啟發(fā)式搜索
2.6.2 啟發(fā)式強化學(xué)習(xí)
2.7 本章小結(jié)
第3章 基于一致性的多智能體強化學(xué)習(xí)研究
3.1 引言
3.2 基于一致性的DEC-POMDP強化學(xué)習(xí)框架
3.2.1 強化學(xué)習(xí)中的局部觀測性和不確定性分析
3.2.2 分布式多智能體強化學(xué)習(xí)模型設(shè)計
3.2.3 多智能體強化學(xué)習(xí)一致性方案設(shè)計
3.3 基于一致性的多智能體強化學(xué)習(xí)算法
3.3.1 基于一致性的多智能體強化學(xué)習(xí)算法設(shè)計
3.3.2 基于一致性的策略化簡設(shè)計
3.4 收斂性分析
3.5 仿真實驗
3.6 本章小結(jié)
第4章 基于事件驅(qū)動的多智能體強化學(xué)習(xí)研究
4.1 引言
4.2 事件驅(qū)動原理
4.3 強化學(xué)習(xí)的事件驅(qū)動模型與觸發(fā)規(guī)則設(shè)計
4.3.1 基于事件驅(qū)動的強化學(xué)習(xí)模型設(shè)計
4.3.2 觸發(fā)規(guī)則設(shè)計
4.4 基于事件驅(qū)動的強化學(xué)習(xí)
4.4.1 基于事件驅(qū)動的強化學(xué)習(xí)算法設(shè)計
4.4.2 計算資源消耗分析
4.4.3 算法收斂性分析
4.5 仿真實驗
4.6 本章小結(jié)
第5章 基于事件驅(qū)動的啟發(fā)式強化學(xué)習(xí)研究
5.1 引言
5.2 啟發(fā)式加速強化學(xué)習(xí)方法
5.2.1 啟發(fā)式加速Q(mào)-學(xué)習(xí)
5.2.2 基于狀態(tài)回溯代價分析啟發(fā)式Q-學(xué)習(xí)
5.2.3 基于CaseBasedReasoning的啟發(fā)式加速Q(mào)-學(xué)習(xí)
5.3 基于事件驅(qū)動的啟發(fā)式Q-學(xué)習(xí)設(shè)計
5.3.1 基于事件驅(qū)動的HAQL算法
5.3.1.1 觸發(fā)函數(shù)設(shè)計
5.3.1.2 算法設(shè)計
5.3.1.3 仿真實驗
5.3.2 基于事件驅(qū)動的HASB-QL算法
5.3.2.1 觸發(fā)函數(shù)設(shè)計
5.3.2.2 算法設(shè)計
5.3.2.3 啟發(fā)式函數(shù)分析
5.3.2.4 仿真實驗
5.3.3 基于事件驅(qū)動的CB-HAQL算法
5.3.3.1 觸發(fā)函數(shù)設(shè)計
5.3.3.2 案例設(shè)計
5.3.3.3 算法設(shè)計
5.3.3.4 仿真實驗
5.4 本章小結(jié)
結(jié)論
致謝
參考文獻
攻讀博士學(xué)位期間發(fā)表的論文及科研成果
本文編號:3154153
【文章來源】:西南交通大學(xué)四川省 211工程院校 教育部直屬院校
【文章頁數(shù)】:125 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
Abstract
主要符號對照表
第1章 緒論
1.1 課題的背景及意義
1.2 多智能體的協(xié)調(diào)與協(xié)作
1.3 不確定環(huán)境下的多智能體系統(tǒng)
1.4 強化學(xué)習(xí)的策略空間與收斂速度
1.5 論文的主要研究內(nèi)容及章節(jié)安排
第2章 多智能體協(xié)作與學(xué)習(xí)模型
2.1 引言
2.2 強化學(xué)習(xí)原理
2.2.1 MonteCarlo算法
2.2.2 瞬時差分法
2.2.3 Q-學(xué)習(xí)
2.2.4 Sarsa算法
2.2.5 Actor-Critic學(xué)習(xí)算法
2.2.6 R-學(xué)習(xí)算法
2.3 分布式強化學(xué)習(xí)原理
2.3.1 分布式強化學(xué)習(xí)模型
2.3.2 研究現(xiàn)況及存在的問題
2.4 分布式馬爾科夫決策模型
2.4.1 分布式馬爾科夫模型
2.4.2 局部可觀測的馬爾科夫模型
2.4.3 分布式局部可觀測的馬爾科夫模型
2.4.4 研究現(xiàn)狀與存在的問題
2.5 多智能體一致性原理
2.5.1 圖論
2.5.2 Gossip一致性算法
2.5.3 離散一致性算法
2.6 啟發(fā)式強化學(xué)習(xí)原理
2.6.1 盲目搜索與啟發(fā)式搜索
2.6.2 啟發(fā)式強化學(xué)習(xí)
2.7 本章小結(jié)
第3章 基于一致性的多智能體強化學(xué)習(xí)研究
3.1 引言
3.2 基于一致性的DEC-POMDP強化學(xué)習(xí)框架
3.2.1 強化學(xué)習(xí)中的局部觀測性和不確定性分析
3.2.2 分布式多智能體強化學(xué)習(xí)模型設(shè)計
3.2.3 多智能體強化學(xué)習(xí)一致性方案設(shè)計
3.3 基于一致性的多智能體強化學(xué)習(xí)算法
3.3.1 基于一致性的多智能體強化學(xué)習(xí)算法設(shè)計
3.3.2 基于一致性的策略化簡設(shè)計
3.4 收斂性分析
3.5 仿真實驗
3.6 本章小結(jié)
第4章 基于事件驅(qū)動的多智能體強化學(xué)習(xí)研究
4.1 引言
4.2 事件驅(qū)動原理
4.3 強化學(xué)習(xí)的事件驅(qū)動模型與觸發(fā)規(guī)則設(shè)計
4.3.1 基于事件驅(qū)動的強化學(xué)習(xí)模型設(shè)計
4.3.2 觸發(fā)規(guī)則設(shè)計
4.4 基于事件驅(qū)動的強化學(xué)習(xí)
4.4.1 基于事件驅(qū)動的強化學(xué)習(xí)算法設(shè)計
4.4.2 計算資源消耗分析
4.4.3 算法收斂性分析
4.5 仿真實驗
4.6 本章小結(jié)
第5章 基于事件驅(qū)動的啟發(fā)式強化學(xué)習(xí)研究
5.1 引言
5.2 啟發(fā)式加速強化學(xué)習(xí)方法
5.2.1 啟發(fā)式加速Q(mào)-學(xué)習(xí)
5.2.2 基于狀態(tài)回溯代價分析啟發(fā)式Q-學(xué)習(xí)
5.2.3 基于CaseBasedReasoning的啟發(fā)式加速Q(mào)-學(xué)習(xí)
5.3 基于事件驅(qū)動的啟發(fā)式Q-學(xué)習(xí)設(shè)計
5.3.1 基于事件驅(qū)動的HAQL算法
5.3.1.1 觸發(fā)函數(shù)設(shè)計
5.3.1.2 算法設(shè)計
5.3.1.3 仿真實驗
5.3.2 基于事件驅(qū)動的HASB-QL算法
5.3.2.1 觸發(fā)函數(shù)設(shè)計
5.3.2.2 算法設(shè)計
5.3.2.3 啟發(fā)式函數(shù)分析
5.3.2.4 仿真實驗
5.3.3 基于事件驅(qū)動的CB-HAQL算法
5.3.3.1 觸發(fā)函數(shù)設(shè)計
5.3.3.2 案例設(shè)計
5.3.3.3 算法設(shè)計
5.3.3.4 仿真實驗
5.4 本章小結(jié)
結(jié)論
致謝
參考文獻
攻讀博士學(xué)位期間發(fā)表的論文及科研成果
本文編號:3154153
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3154153.html
最近更新
教材專著