多Agent協(xié)作團(tuán)隊(duì)的強(qiáng)化學(xué)習(xí)方法研究

發(fā)布時(shí)間：2017-04-27 14:04

本文關(guān)鍵詞：多Agent協(xié)作團(tuán)隊(duì)的強(qiáng)化學(xué)習(xí)方法研究，，由筆耕文化傳播整理發(fā)布。

【摘要】： 強(qiáng)化學(xué)習(xí),因其不需要環(huán)境模型、通過(guò)Agent和所在環(huán)境的自主交互進(jìn)行學(xué)習(xí)的特點(diǎn),現(xiàn)已成為多Agent系統(tǒng)和機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)。多Agent系統(tǒng)常被應(yīng)用于開(kāi)放、復(fù)雜、動(dòng)態(tài)變化的環(huán)境,單個(gè)Agent的能力已不能勝任所面臨的任務(wù),尤其是具有相同目標(biāo)的系統(tǒng),Agent之間必須協(xié)同求解。同時(shí),Agent還必須具備學(xué)習(xí)能力以適應(yīng)環(huán)境的動(dòng)態(tài)變化。但傳統(tǒng)的單Agent學(xué)習(xí)原理并不適用于多Agent環(huán)境,因此亟待根據(jù)多Agent系統(tǒng)的協(xié)同性,提出新的學(xué)習(xí)方法。 Pursuit Game問(wèn)題常用于來(lái)測(cè)試人工智能領(lǐng)域的學(xué)習(xí)算法,本文就此問(wèn)題提出了兩種多Agent協(xié)同強(qiáng)化學(xué)習(xí)方法:基于承諾和約定的方法和基于聯(lián)合行為優(yōu)先序列的方法。文章首先介紹了Agent和多Agent系統(tǒng)、以及多Agent學(xué)習(xí)的一些基本概念,然后介紹了強(qiáng)化學(xué)習(xí)和多Agent強(qiáng)化學(xué)習(xí)的研究現(xiàn)狀和未來(lái)發(fā)展方向。第二部分對(duì)強(qiáng)化學(xué)習(xí)理論和多Agent強(qiáng)化學(xué)習(xí)理論進(jìn)行了簡(jiǎn)要介紹。在對(duì)Pursuit Game問(wèn)題進(jìn)行初步分析的基礎(chǔ)上,針對(duì)獨(dú)立行為學(xué)習(xí)者,擴(kuò)展了單Agent強(qiáng)化學(xué)習(xí)算法,提出了基于承諾和約定的多Agent協(xié)同強(qiáng)化學(xué)習(xí)方法MACRL-CC。針對(duì)聯(lián)合行為學(xué)習(xí)者,給出了多Agent協(xié)同強(qiáng)化學(xué)習(xí)的團(tuán)隊(duì)隨機(jī)博弈框架,并解決了多最優(yōu)均衡解問(wèn)題,提出了基于聯(lián)合行為優(yōu)先序列的多Agent協(xié)同強(qiáng)化學(xué)習(xí)方法MACRL-JAPS。文中對(duì)上述兩種方法都進(jìn)行了實(shí)驗(yàn)驗(yàn)證。本文的主要成果及創(chuàng)新是,提出了兩種多Agent協(xié)同強(qiáng)化學(xué)習(xí)算法,并進(jìn)行了實(shí)驗(yàn)驗(yàn)證。MACRL-CC在對(duì)系統(tǒng)目標(biāo)的特性進(jìn)行分析的基礎(chǔ)上,將系統(tǒng)目標(biāo)進(jìn)行分解,并采用基于承諾和約定的協(xié)作方法實(shí)現(xiàn)Agent的協(xié)作求解;考慮到狀態(tài)行為空間可能很大的問(wèn)題,提出了狀態(tài)和行為的泛化的概念,對(duì)狀態(tài)空間進(jìn)行了縮減;針對(duì)Agent在求解過(guò)程中學(xué)習(xí)到的經(jīng)驗(yàn)知識(shí)的相似性,提出了經(jīng)驗(yàn)知識(shí)共享的方法以提高學(xué)習(xí)效率。MACRL-JAPS針對(duì)多Agent協(xié)同強(qiáng)化學(xué)習(xí)的特點(diǎn),提出了多Agent協(xié)同強(qiáng)化學(xué)習(xí)的團(tuán)隊(duì)隨機(jī)博弈框架;針對(duì)博弈問(wèn)題的多最優(yōu)均衡解難題,提出了基于聯(lián)合行為優(yōu)先序列的方法,確保Agent能夠準(zhǔn)確預(yù)測(cè)其他Agent的行為,從而選擇一致的最優(yōu)均衡解。
【關(guān)鍵詞】：多Agent系統(tǒng) 強(qiáng)化學(xué)習(xí) Pursuit Game 承諾和約定 協(xié)同博弈 團(tuán)隊(duì)隨機(jī)博弈 納什均衡 聯(lián)合行為優(yōu)先序列
【學(xué)位授予單位】：國(guó)防科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2005
【分類號(hào)】：C936;F224
【目錄】：

摘要7-8
Abstract8-10
第一章緒論10-24
1.1 研究背景10-13
1.2 多Agent 學(xué)習(xí)概述13-17
1.2.1 Agent 與多Agent 系統(tǒng)13-15
1.2.2 多Agent 學(xué)習(xí)的研究?jī)?nèi)容15-17
1.3 多Agent 強(qiáng)化學(xué)習(xí)的研究現(xiàn)狀和未來(lái)研究方向17-22
1.4 本文的研究?jī)?nèi)容與結(jié)構(gòu)22-24
1.4.1 本文的研究?jī)?nèi)容22-23
1.4.2 本文的結(jié)構(gòu)23-24
第二章相關(guān)的研究工作24-44
2.1 強(qiáng)化學(xué)習(xí)簡(jiǎn)介24-33
2.1.1 強(qiáng)化學(xué)習(xí)模型24-26
2.1.2 優(yōu)化行為模型26-27
2.1.3 馬爾可夫決策過(guò)程27-30
2.1.4 Q-學(xué)習(xí)算法30-33
2.2 多Agent 強(qiáng)化學(xué)習(xí)基本理論33-41
2.2.1 隨機(jī)博弈框架簡(jiǎn)介35-39
2.2.2 相關(guān)算法39-41
2.3 與本文相關(guān)的研究工作41-43
2.4 本章小結(jié)43-44
第三章基于承諾和約定的多 Agent 協(xié)同強(qiáng)化學(xué)習(xí)44-60
3.1 預(yù)備知識(shí)45-50
3.1.1 多Agent 協(xié)作團(tuán)隊(duì)45-47
3.1.2 任務(wù)的分解與分配47-48
3.1.3 承諾和約定48-50
3.2 狀態(tài)行為空間的縮減50-51
3.3 Pursuit Game 問(wèn)題51-53
3.3.1 Pursuit Game 問(wèn)題的相關(guān)研究51-52
3.3.2 Pursuit Game 的問(wèn)題描述52-53
3.4 基于承諾和約定的多Agent 協(xié)同強(qiáng)化學(xué)習(xí)算法53-56
3.5 算法設(shè)計(jì)及實(shí)驗(yàn)結(jié)果56-59
3.5.1 算法設(shè)計(jì)56-57
3.5.2 實(shí)驗(yàn)及結(jié)論57-59
3.6 本章小結(jié)59-60
第四章基于聯(lián)合行為優(yōu)先序列的多 Agent 協(xié)同強(qiáng)化學(xué)習(xí)60-77
4.1 多Agent 協(xié)同強(qiáng)化學(xué)習(xí)的團(tuán)隊(duì)隨機(jī)博弈框架60-64
4.1.1 基本概念60-61
4.1.2 團(tuán)隊(duì)隨機(jī)博弈框架61-64
4.2 對(duì)接問(wèn)題描述64-67
4.3 多最優(yōu)均衡解問(wèn)題67-70
4.3.1 多最優(yōu)均衡解問(wèn)題的研究現(xiàn)狀67
4.3.2 基于聯(lián)合行為優(yōu)先序列的多最優(yōu)均衡問(wèn)題解決方法67-70
4.4 基于聯(lián)合行為優(yōu)先序列的多Agent 協(xié)同強(qiáng)化學(xué)習(xí)算法70-71
4.5 對(duì)接問(wèn)題的實(shí)驗(yàn)設(shè)定及結(jié)果71-73
4.6 Pursuit Game 問(wèn)題的實(shí)驗(yàn)設(shè)定及結(jié)果73-76
4.7 本章小結(jié)76-77
第五章總結(jié)與展望77-79
5.1 主要工作與創(chuàng)新77-78
5.2 進(jìn)一步的工作78-79
致謝79-80
參考文獻(xiàn)80-89
附錄89

【引證文獻(xiàn)】

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 李?yuàn)?基于視覺(jué)聽(tīng)覺(jué)語(yǔ)義相干性的強(qiáng)化學(xué)習(xí)系統(tǒng)的研究[D];太原理工大學(xué);2012年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條

1 劉飛;強(qiáng)化學(xué)習(xí)在足球機(jī)器人仿真中的應(yīng)用[D];長(zhǎng)沙理工大學(xué);2012年

2 劉嘉;非常規(guī)突發(fā)事件應(yīng)對(duì)決策行為研究[D];武漢理工大學(xué);2012年

本文關(guān)鍵詞：多Agent協(xié)作團(tuán)隊(duì)的強(qiáng)化學(xué)習(xí)方法研究，由筆耕文化傳播整理發(fā)布。

本文編號(hào)：330731

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/yunyingzuzhiguanlilunwen/330731.html

上一篇：學(xué)習(xí)型公共組織的構(gòu)建：困境與出路
下一篇：分布式知識(shí)管理中的語(yǔ)義交互框架與方法研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

多Agent協(xié)作團(tuán)隊(duì)的強(qiáng)化學(xué)習(xí)方法研究