基于自適應(yīng)動態(tài)規(guī)劃的多智能體系統(tǒng)一致性方法
發(fā)布時間:2023-08-03 20:45
多智能體系統(tǒng)一致性控制通過智能體間的交互使所有的智能體的狀態(tài)或輸出達(dá)到一致,是多智能體系統(tǒng)中最重要的問題之一。根據(jù)系統(tǒng)中領(lǐng)航者的數(shù)量,多智能體系統(tǒng)一致性控制可以分為無領(lǐng)航者的一致性控制、一個領(lǐng)航者的領(lǐng)導(dǎo)—跟隨一致性控制以及多個領(lǐng)航者的包含控制。傳統(tǒng)的一致性控制方法僅要求系統(tǒng)的穩(wěn)定性,沒有考慮系統(tǒng)的最優(yōu)性,并且需要知道系統(tǒng)的模型信息。在實際環(huán)境中,系統(tǒng)的模型大多數(shù)是未知的或者難以建立精確的機理模型,限制了傳統(tǒng)一致性控制方法的應(yīng)用。自適應(yīng)動態(tài)規(guī)劃方法(Adaptive dynamic programming,ADP)是一種具有自學(xué)習(xí)能力和優(yōu)化能力的智能控制方法,能夠有效地解決系統(tǒng)模型未知情況下的優(yōu)化控制問題,在求解模型無關(guān)的多智能體系統(tǒng)最優(yōu)一致性控制問題中具有極大的潛力。本文結(jié)合ADP方法對模型未知情況下多智能體系統(tǒng)最優(yōu)包含控制、領(lǐng)導(dǎo)—跟隨最優(yōu)一致性控制以及異構(gòu)多智能體系統(tǒng)最優(yōu)輸出一致性控制展開研究。此外,還研究了影響ADP方法性能的關(guān)鍵因素—評價網(wǎng)絡(luò)的設(shè)計方法,以促進(jìn)ADP方法在模型未知情況下多智能體系統(tǒng)一致性控制中的應(yīng)用。本文的主要研究工作和取得的成果如下:(1)模型無關(guān)線性多智能體系...
【文章頁數(shù)】:131 頁
【學(xué)位級別】:博士
【文章目錄】:
作者簡歷
摘要
abstract
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 自適應(yīng)動態(tài)規(guī)劃理論
1.2.2 基于ADP的多智能體系統(tǒng)一致性控制
1.2.3 自適應(yīng)評價網(wǎng)絡(luò)設(shè)計方法
1.3 現(xiàn)有研究存在的問題
1.4 論文研究內(nèi)容與結(jié)構(gòu)安排
第二章 模型無關(guān)線性多智能體系統(tǒng)包含控制方法
2.1 引言
2.2 包含誤差動態(tài)系統(tǒng)
2.2.1 代數(shù)圖論
2.2.2 包含誤差動態(tài)系統(tǒng)問題描述
2.3 多智能體系統(tǒng)最優(yōu)包含控制
2.3.1 包含控制性能指標(biāo)
2.3.2 納什均衡和穩(wěn)定性分析
2.4 基于值迭代的數(shù)據(jù)驅(qū)動ADHDP算法
2.4.1 基于局部Q函數(shù)的值迭代算法
2.4.2 局部Q函數(shù)值迭代算法的收斂性分析
2.5 模型無關(guān)最優(yōu)包含控制
2.5.1 評價—執(zhí)行網(wǎng)絡(luò)設(shè)計
2.5.2 評價—執(zhí)行網(wǎng)絡(luò)的在線調(diào)整
2.6 仿真實驗
2.7 本章小結(jié)
第三章 基于評價—執(zhí)行網(wǎng)絡(luò)的非線性多智能體系統(tǒng)最優(yōu)一致性控制方法
3.1 引言
3.2 預(yù)備知識
3.3 問題描述
3.4 基于策略迭代的局部Q函數(shù)ADP方法
3.4.1 基于Q函數(shù)的策略迭代算法
3.4.2 策略迭代算法的收斂性分析
3.4.3 納什均衡和穩(wěn)定性分析
3.5 基于神經(jīng)網(wǎng)絡(luò)的評價—執(zhí)行網(wǎng)絡(luò)設(shè)計
3.5.1 基于神經(jīng)網(wǎng)絡(luò)的評價網(wǎng)絡(luò)設(shè)計
3.5.2 基于神經(jīng)網(wǎng)絡(luò)的執(zhí)行網(wǎng)絡(luò)設(shè)計
3.5.3 評價—執(zhí)行網(wǎng)絡(luò)的在線調(diào)整
3.6 仿真實驗
3.6.1 仿真實驗一
3.6.2 仿真實驗二
3.7 本章小結(jié)
第四章 部分可觀環(huán)境下異構(gòu)多智能體系統(tǒng)輸出一致性控制方法
4.1 引言
4.2 問題描述
4.3 利用可測數(shù)據(jù)的多智能體系統(tǒng)輸出一致性控制
4.3.1 可測輸入/輸出數(shù)據(jù)的狀態(tài)表示方法
4.3.2 基于自適應(yīng)動態(tài)規(guī)劃的輸出一致性控制方法
4.4 迭代自適應(yīng)動態(tài)規(guī)劃算法的實現(xiàn)
4.5 仿真實驗
4.6 本章小結(jié)
第五章 基于高斯過程回歸的雙階段值迭代評價網(wǎng)絡(luò)設(shè)計方法
5.1 引言
5.2 基于高斯過程回歸的評價網(wǎng)絡(luò)設(shè)計
5.3 問題描述
5.4 雙階段值迭代算法
5.5 仿真實驗
5.5.1 單智能體系統(tǒng)仿真實驗
5.5.2 多智能體系統(tǒng)仿真實驗
5.6 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
致謝
參考文獻(xiàn)
本文編號:3838777
【文章頁數(shù)】:131 頁
【學(xué)位級別】:博士
【文章目錄】:
作者簡歷
摘要
abstract
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 自適應(yīng)動態(tài)規(guī)劃理論
1.2.2 基于ADP的多智能體系統(tǒng)一致性控制
1.2.3 自適應(yīng)評價網(wǎng)絡(luò)設(shè)計方法
1.3 現(xiàn)有研究存在的問題
1.4 論文研究內(nèi)容與結(jié)構(gòu)安排
第二章 模型無關(guān)線性多智能體系統(tǒng)包含控制方法
2.1 引言
2.2 包含誤差動態(tài)系統(tǒng)
2.2.1 代數(shù)圖論
2.2.2 包含誤差動態(tài)系統(tǒng)問題描述
2.3 多智能體系統(tǒng)最優(yōu)包含控制
2.3.1 包含控制性能指標(biāo)
2.3.2 納什均衡和穩(wěn)定性分析
2.4 基于值迭代的數(shù)據(jù)驅(qū)動ADHDP算法
2.4.1 基于局部Q函數(shù)的值迭代算法
2.4.2 局部Q函數(shù)值迭代算法的收斂性分析
2.5 模型無關(guān)最優(yōu)包含控制
2.5.1 評價—執(zhí)行網(wǎng)絡(luò)設(shè)計
2.5.2 評價—執(zhí)行網(wǎng)絡(luò)的在線調(diào)整
2.6 仿真實驗
2.7 本章小結(jié)
第三章 基于評價—執(zhí)行網(wǎng)絡(luò)的非線性多智能體系統(tǒng)最優(yōu)一致性控制方法
3.1 引言
3.2 預(yù)備知識
3.3 問題描述
3.4 基于策略迭代的局部Q函數(shù)ADP方法
3.4.1 基于Q函數(shù)的策略迭代算法
3.4.2 策略迭代算法的收斂性分析
3.4.3 納什均衡和穩(wěn)定性分析
3.5 基于神經(jīng)網(wǎng)絡(luò)的評價—執(zhí)行網(wǎng)絡(luò)設(shè)計
3.5.1 基于神經(jīng)網(wǎng)絡(luò)的評價網(wǎng)絡(luò)設(shè)計
3.5.2 基于神經(jīng)網(wǎng)絡(luò)的執(zhí)行網(wǎng)絡(luò)設(shè)計
3.5.3 評價—執(zhí)行網(wǎng)絡(luò)的在線調(diào)整
3.6 仿真實驗
3.6.1 仿真實驗一
3.6.2 仿真實驗二
3.7 本章小結(jié)
第四章 部分可觀環(huán)境下異構(gòu)多智能體系統(tǒng)輸出一致性控制方法
4.1 引言
4.2 問題描述
4.3 利用可測數(shù)據(jù)的多智能體系統(tǒng)輸出一致性控制
4.3.1 可測輸入/輸出數(shù)據(jù)的狀態(tài)表示方法
4.3.2 基于自適應(yīng)動態(tài)規(guī)劃的輸出一致性控制方法
4.4 迭代自適應(yīng)動態(tài)規(guī)劃算法的實現(xiàn)
4.5 仿真實驗
4.6 本章小結(jié)
第五章 基于高斯過程回歸的雙階段值迭代評價網(wǎng)絡(luò)設(shè)計方法
5.1 引言
5.2 基于高斯過程回歸的評價網(wǎng)絡(luò)設(shè)計
5.3 問題描述
5.4 雙階段值迭代算法
5.5 仿真實驗
5.5.1 單智能體系統(tǒng)仿真實驗
5.5.2 多智能體系統(tǒng)仿真實驗
5.6 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
致謝
參考文獻(xiàn)
本文編號:3838777
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/3838777.html
最近更新
教材專著