多Agent協(xié)作團(tuán)隊(duì)的強(qiáng)化學(xué)習(xí)方法研究
發(fā)布時間:2017-04-27 14:04
本文關(guān)鍵詞:多Agent協(xié)作團(tuán)隊(duì)的強(qiáng)化學(xué)習(xí)方法研究,,由筆耕文化傳播整理發(fā)布。
【摘要】: 強(qiáng)化學(xué)習(xí),因其不需要環(huán)境模型、通過Agent和所在環(huán)境的自主交互進(jìn)行學(xué)習(xí)的特點(diǎn),現(xiàn)已成為多Agent系統(tǒng)和機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)。多Agent系統(tǒng)常被應(yīng)用于開放、復(fù)雜、動態(tài)變化的環(huán)境,單個Agent的能力已不能勝任所面臨的任務(wù),尤其是具有相同目標(biāo)的系統(tǒng),Agent之間必須協(xié)同求解。同時,Agent還必須具備學(xué)習(xí)能力以適應(yīng)環(huán)境的動態(tài)變化。但傳統(tǒng)的單Agent學(xué)習(xí)原理并不適用于多Agent環(huán)境,因此亟待根據(jù)多Agent系統(tǒng)的協(xié)同性,提出新的學(xué)習(xí)方法。 Pursuit Game問題常用于來測試人工智能領(lǐng)域的學(xué)習(xí)算法,本文就此問題提出了兩種多Agent協(xié)同強(qiáng)化學(xué)習(xí)方法:基于承諾和約定的方法和基于聯(lián)合行為優(yōu)先序列的方法。 文章首先介紹了Agent和多Agent系統(tǒng)、以及多Agent學(xué)習(xí)的一些基本概念,然后介紹了強(qiáng)化學(xué)習(xí)和多Agent強(qiáng)化學(xué)習(xí)的研究現(xiàn)狀和未來發(fā)展方向。第二部分對強(qiáng)化學(xué)習(xí)理論和多Agent強(qiáng)化學(xué)習(xí)理論進(jìn)行了簡要介紹。在對Pursuit Game問題進(jìn)行初步分析的基礎(chǔ)上,針對獨(dú)立行為學(xué)習(xí)者,擴(kuò)展了單Agent強(qiáng)化學(xué)習(xí)算法,提出了基于承諾和約定的多Agent協(xié)同強(qiáng)化學(xué)習(xí)方法MACRL-CC。針對聯(lián)合行為學(xué)習(xí)者,給出了多Agent協(xié)同強(qiáng)化學(xué)習(xí)的團(tuán)隊(duì)隨機(jī)博弈框架,并解決了多最優(yōu)均衡解問題,提出了基于聯(lián)合行為優(yōu)先序列的多Agent協(xié)同強(qiáng)化學(xué)習(xí)方法MACRL-JAPS。文中對上述兩種方法都進(jìn)行了實(shí)驗(yàn)驗(yàn)證。 本文的主要成果及創(chuàng)新是,提出了兩種多Agent協(xié)同強(qiáng)化學(xué)習(xí)算法,并進(jìn)行了實(shí)驗(yàn)驗(yàn)證。MACRL-CC在對系統(tǒng)目標(biāo)的特性進(jìn)行分析的基礎(chǔ)上,將系統(tǒng)目標(biāo)進(jìn)行分解,并采用基于承諾和約定的協(xié)作方法實(shí)現(xiàn)Agent的協(xié)作求解;考慮到狀態(tài)行為空間可能很大的問題,提出了狀態(tài)和行為的泛化的概念,對狀態(tài)空間進(jìn)行了縮減;針對Agent在求解過程中學(xué)習(xí)到的經(jīng)驗(yàn)知識的相似性,提出了經(jīng)驗(yàn)知識共享的方法以提高學(xué)習(xí)效率。MACRL-JAPS針對多Agent協(xié)同強(qiáng)化學(xué)習(xí)的特點(diǎn),提出了多Agent協(xié)同強(qiáng)化學(xué)習(xí)的團(tuán)隊(duì)隨機(jī)博弈框架;針對博弈問題的多最優(yōu)均衡解難題,提出了基于聯(lián)合行為優(yōu)先序列的方法,確保Agent能夠準(zhǔn)確預(yù)測其他Agent的行為,從而選擇一致的最優(yōu)均衡解。
【關(guān)鍵詞】:多Agent系統(tǒng) 強(qiáng)化學(xué)習(xí) Pursuit Game 承諾和約定 協(xié)同博弈 團(tuán)隊(duì)隨機(jī)博弈 納什均衡 聯(lián)合行為優(yōu)先序列
【學(xué)位授予單位】:國防科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2005
【分類號】:C936;F224
【目錄】:
- 摘要7-8
- Abstract8-10
- 第一章 緒論10-24
- 1.1 研究背景10-13
- 1.2 多Agent 學(xué)習(xí)概述13-17
- 1.2.1 Agent 與多Agent 系統(tǒng)13-15
- 1.2.2 多Agent 學(xué)習(xí)的研究內(nèi)容15-17
- 1.3 多Agent 強(qiáng)化學(xué)習(xí)的研究現(xiàn)狀和未來研究方向17-22
- 1.4 本文的研究內(nèi)容與結(jié)構(gòu)22-24
- 1.4.1 本文的研究內(nèi)容22-23
- 1.4.2 本文的結(jié)構(gòu)23-24
- 第二章 相關(guān)的研究工作24-44
- 2.1 強(qiáng)化學(xué)習(xí)簡介24-33
- 2.1.1 強(qiáng)化學(xué)習(xí)模型24-26
- 2.1.2 優(yōu)化行為模型26-27
- 2.1.3 馬爾可夫決策過程27-30
- 2.1.4 Q-學(xué)習(xí)算法30-33
- 2.2 多Agent 強(qiáng)化學(xué)習(xí)基本理論33-41
- 2.2.1 隨機(jī)博弈框架簡介35-39
- 2.2.2 相關(guān)算法39-41
- 2.3 與本文相關(guān)的研究工作41-43
- 2.4 本章小結(jié)43-44
- 第三章 基于承諾和約定的多 Agent 協(xié)同強(qiáng)化學(xué)習(xí)44-60
- 3.1 預(yù)備知識45-50
- 3.1.1 多Agent 協(xié)作團(tuán)隊(duì)45-47
- 3.1.2 任務(wù)的分解與分配47-48
- 3.1.3 承諾和約定48-50
- 3.2 狀態(tài)行為空間的縮減50-51
- 3.3 Pursuit Game 問題51-53
- 3.3.1 Pursuit Game 問題的相關(guān)研究51-52
- 3.3.2 Pursuit Game 的問題描述52-53
- 3.4 基于承諾和約定的多Agent 協(xié)同強(qiáng)化學(xué)習(xí)算法53-56
- 3.5 算法設(shè)計(jì)及實(shí)驗(yàn)結(jié)果56-59
- 3.5.1 算法設(shè)計(jì)56-57
- 3.5.2 實(shí)驗(yàn)及結(jié)論57-59
- 3.6 本章小結(jié)59-60
- 第四章 基于聯(lián)合行為優(yōu)先序列的多 Agent 協(xié)同強(qiáng)化學(xué)習(xí)60-77
- 4.1 多Agent 協(xié)同強(qiáng)化學(xué)習(xí)的團(tuán)隊(duì)隨機(jī)博弈框架60-64
- 4.1.1 基本概念60-61
- 4.1.2 團(tuán)隊(duì)隨機(jī)博弈框架61-64
- 4.2 對接問題描述64-67
- 4.3 多最優(yōu)均衡解問題67-70
- 4.3.1 多最優(yōu)均衡解問題的研究現(xiàn)狀67
- 4.3.2 基于聯(lián)合行為優(yōu)先序列的多最優(yōu)均衡問題解決方法67-70
- 4.4 基于聯(lián)合行為優(yōu)先序列的多Agent 協(xié)同強(qiáng)化學(xué)習(xí)算法70-71
- 4.5 對接問題的實(shí)驗(yàn)設(shè)定及結(jié)果71-73
- 4.6 Pursuit Game 問題的實(shí)驗(yàn)設(shè)定及結(jié)果73-76
- 4.7 本章小結(jié)76-77
- 第五章 總結(jié)與展望77-79
- 5.1 主要工作與創(chuàng)新77-78
- 5.2 進(jìn)一步的工作78-79
- 致謝79-80
- 參考文獻(xiàn)80-89
- 附錄89
【引證文獻(xiàn)】
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 李妼;基于視覺聽覺語義相干性的強(qiáng)化學(xué)習(xí)系統(tǒng)的研究[D];太原理工大學(xué);2012年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 劉飛;強(qiáng)化學(xué)習(xí)在足球機(jī)器人仿真中的應(yīng)用[D];長沙理工大學(xué);2012年
2 劉嘉;非常規(guī)突發(fā)事件應(yīng)對決策行為研究[D];武漢理工大學(xué);2012年
本文關(guān)鍵詞:多Agent協(xié)作團(tuán)隊(duì)的強(qiáng)化學(xué)習(xí)方法研究,由筆耕文化傳播整理發(fā)布。
本文編號:330731
本文鏈接:http://sikaile.net/guanlilunwen/yunyingzuzhiguanlilunwen/330731.html
最近更新
教材專著