基于強(qiáng)化學(xué)習(xí)算法的多智能體學(xué)習(xí)問(wèn)題的研究

發(fā)布時(shí)間：2017-07-01 13:05

本文關(guān)鍵詞：基于強(qiáng)化學(xué)習(xí)算法的多智能體學(xué)習(xí)問(wèn)題的研究，由筆耕文化傳播整理發(fā)布。

【摘要】： 隨著控制論及計(jì)算機(jī)技術(shù)的發(fā)展,分布式人工智能中多智能體系統(tǒng)的理論及相關(guān)的應(yīng)用研究已成為人工智能和智能控制研究的熱點(diǎn)。機(jī)器人足球比賽是一項(xiàng)旨在提高諸多相關(guān)領(lǐng)域的研究水平而舉行的國(guó)際大型比賽和學(xué)術(shù)活動(dòng),是研究分布式人工智能、智能控制和機(jī)器人技術(shù)的絕好平臺(tái)。機(jī)器人足球比賽的環(huán)境是一個(gè)動(dòng)態(tài)、復(fù)雜、對(duì)抗的環(huán)境,并且每個(gè)機(jī)器人只能得到場(chǎng)上的不完全信息,如何使機(jī)器人能通過(guò)不斷地學(xué)習(xí)提高自己的性能是開(kāi)發(fā)足球機(jī)器人系統(tǒng)的關(guān)鍵內(nèi)容。本文主要研究強(qiáng)化學(xué)習(xí)技術(shù)在機(jī)器人足球中的實(shí)現(xiàn)問(wèn)題。首先,針對(duì)機(jī)器人足球比賽的環(huán)境的復(fù)雜性和狀態(tài)空間的龐大,對(duì)已有的基于CMAC神經(jīng)網(wǎng)絡(luò)的Q學(xué)習(xí)泛化學(xué)習(xí)算法,引入了信度分配的概念,把基于空間的信度分配和基于時(shí)間的信度分配同時(shí)融合到CMAC-Q學(xué)習(xí)算法當(dāng)中,提高了強(qiáng)化學(xué)習(xí)的速度。其次,對(duì)近年來(lái)從分層強(qiáng)化學(xué)習(xí)中發(fā)展出來(lái)的option算法,結(jié)合內(nèi)在激勵(lì)思想,嘗試性地將其應(yīng)用到機(jī)器人足球中的踢球技術(shù)、截球技術(shù)和配合技術(shù)中去。實(shí)驗(yàn)表明,這種算法能夠提高球隊(duì)的決策能力。
【關(guān)鍵詞】：機(jī)器人足球 智能控制 強(qiáng)化學(xué)習(xí) 信度分配 內(nèi)在激勵(lì)
【學(xué)位授予單位】：江南大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2006
【分類號(hào)】：TP18
【目錄】：

摘要2-3
ABSTRACT3-6
第一章緒論6-12
1.1 研究背景6-7
1.2 智能AGENT7-8
1.3 強(qiáng)化學(xué)習(xí)的研究現(xiàn)狀8-9
1.4 ROBOCUP 及其學(xué)習(xí)問(wèn)題9-10
1.5 主要研究工作10-12
第二章 ROBOCUP 環(huán)境模型及智能體的層結(jié)構(gòu)設(shè)計(jì)12-20
2.1 ROBOCUP 仿真比賽環(huán)境12-13
2.2 SOCCERSERVER 仿真模型13-17
2.3 智能體的分層結(jié)構(gòu)17
2.4 決策框架的分層結(jié)構(gòu)17-20
第三章強(qiáng)化學(xué)習(xí)理論及其算法20-27
3.1 強(qiáng)化學(xué)習(xí)理論基礎(chǔ)20-22
3.2 Q 學(xué)習(xí)22-23
3.3 遺忘軌跡（ELIGIBILITY）23-25
3.4 分層強(qiáng)化學(xué)習(xí)25-27
第四章改進(jìn)的CMAC－Q 學(xué)習(xí)算法27-36
4.1 改進(jìn)的CMAC 算法27-30
4.2 改進(jìn)的CMAC-Q 算法30-35
4.3 小結(jié)35-36
第五章內(nèi)在激勵(lì)學(xué)習(xí)算法及其應(yīng)用36-57
5.1 內(nèi)在激勵(lì)強(qiáng)化學(xué)習(xí)36-44
5.2 內(nèi)在激勵(lì)學(xué)習(xí)在ROBOCUP 仿真中的應(yīng)用44-57
第六章結(jié)論及展望57-59
6.1 比賽成績(jī)57
6.2 進(jìn)一步的工作57-59
參考文獻(xiàn)59-63
致謝63-64
攻讀碩士學(xué)位期間發(fā)表的論文清單64
機(jī)器人比賽獲獎(jiǎng)情況64

【引證文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條

1 李斐;白潔;朱大奇;;一種鋼絲繩局部截面損失識(shí)別的信息融合數(shù)據(jù)處理方法[J];電腦知識(shí)與技術(shù);2010年20期

2 申迅;劉國(guó)棟;;基于Q學(xué)習(xí)Robocup前鋒的射門(mén)訓(xùn)練[J];計(jì)算機(jī)工程與應(yīng)用;2011年18期

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前5條

1 申迅;基于3D仿真機(jī)器人系統(tǒng)的學(xué)習(xí)控制與算法研究[D];江南大學(xué);2011年

2 毛俊鑫;基于人工情感的機(jī)器人行為決策研究[D];哈爾濱工業(yè)大學(xué);2011年

3 齊心躍;基于強(qiáng)化學(xué)習(xí)的多機(jī)器人任務(wù)分配算法研究[D];吉林大學(xué);2008年

4 尹香花;基于強(qiáng)化學(xué)習(xí)的多機(jī)器人行為式隊(duì)形控制策略研究[D];吉林大學(xué);2009年

5 劉飛;強(qiáng)化學(xué)習(xí)在足球機(jī)器人仿真中的應(yīng)用[D];長(zhǎng)沙理工大學(xué);2012年

本文關(guān)鍵詞：基于強(qiáng)化學(xué)習(xí)算法的多智能體學(xué)習(xí)問(wèn)題的研究，，由筆耕文化傳播整理發(fā)布。

本文編號(hào)：506004

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/rengongzhinen/506004.html

上一篇：綜合決策支持系統(tǒng)中計(jì)算智能和知識(shí)獲取技術(shù)的研究與應(yīng)用
下一篇：基于BP人工神經(jīng)網(wǎng)絡(luò)的云制造系統(tǒng)圖像資源智能識(shí)別研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于強(qiáng)化學(xué)習(xí)算法的多智能體學(xué)習(xí)問(wèn)題的研究