基于強(qiáng)化學(xué)習(xí)算法的多智能體學(xué)習(xí)問(wèn)題的研究
本文關(guān)鍵詞:基于強(qiáng)化學(xué)習(xí)算法的多智能體學(xué)習(xí)問(wèn)題的研究,由筆耕文化傳播整理發(fā)布。
【摘要】: 隨著控制論及計(jì)算機(jī)技術(shù)的發(fā)展,分布式人工智能中多智能體系統(tǒng)的理論及相關(guān)的應(yīng)用研究已成為人工智能和智能控制研究的熱點(diǎn)。機(jī)器人足球比賽是一項(xiàng)旨在提高諸多相關(guān)領(lǐng)域的研究水平而舉行的國(guó)際大型比賽和學(xué)術(shù)活動(dòng),是研究分布式人工智能、智能控制和機(jī)器人技術(shù)的絕好平臺(tái)。 機(jī)器人足球比賽的環(huán)境是一個(gè)動(dòng)態(tài)、復(fù)雜、對(duì)抗的環(huán)境,并且每個(gè)機(jī)器人只能得到場(chǎng)上的不完全信息,如何使機(jī)器人能通過(guò)不斷地學(xué)習(xí)提高自己的性能是開(kāi)發(fā)足球機(jī)器人系統(tǒng)的關(guān)鍵內(nèi)容。 本文主要研究強(qiáng)化學(xué)習(xí)技術(shù)在機(jī)器人足球中的實(shí)現(xiàn)問(wèn)題。 首先,針對(duì)機(jī)器人足球比賽的環(huán)境的復(fù)雜性和狀態(tài)空間的龐大,對(duì)已有的基于CMAC神經(jīng)網(wǎng)絡(luò)的Q學(xué)習(xí)泛化學(xué)習(xí)算法,引入了信度分配的概念,把基于空間的信度分配和基于時(shí)間的信度分配同時(shí)融合到CMAC-Q學(xué)習(xí)算法當(dāng)中,提高了強(qiáng)化學(xué)習(xí)的速度。 其次,對(duì)近年來(lái)從分層強(qiáng)化學(xué)習(xí)中發(fā)展出來(lái)的option算法,結(jié)合內(nèi)在激勵(lì)思想,嘗試性地將其應(yīng)用到機(jī)器人足球中的踢球技術(shù)、截球技術(shù)和配合技術(shù)中去。實(shí)驗(yàn)表明,這種算法能夠提高球隊(duì)的決策能力。
【關(guān)鍵詞】:機(jī)器人足球 智能控制 強(qiáng)化學(xué)習(xí) 信度分配 內(nèi)在激勵(lì)
【學(xué)位授予單位】:江南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2006
【分類號(hào)】:TP18
【目錄】:
- 摘要2-3
- ABSTRACT3-6
- 第一章 緒論6-12
- 1.1 研究背景6-7
- 1.2 智能AGENT7-8
- 1.3 強(qiáng)化學(xué)習(xí)的研究現(xiàn)狀8-9
- 1.4 ROBOCUP 及其學(xué)習(xí)問(wèn)題9-10
- 1.5 主要研究工作10-12
- 第二章 ROBOCUP 環(huán)境模型及智能體的層結(jié)構(gòu)設(shè)計(jì)12-20
- 2.1 ROBOCUP 仿真比賽環(huán)境12-13
- 2.2 SOCCERSERVER 仿真模型13-17
- 2.3 智能體的分層結(jié)構(gòu)17
- 2.4 決策框架的分層結(jié)構(gòu)17-20
- 第三章 強(qiáng)化學(xué)習(xí)理論及其算法20-27
- 3.1 強(qiáng)化學(xué)習(xí)理論基礎(chǔ)20-22
- 3.2 Q 學(xué)習(xí)22-23
- 3.3 遺忘軌跡(ELIGIBILITY)23-25
- 3.4 分層強(qiáng)化學(xué)習(xí)25-27
- 第四章 改進(jìn)的CMAC-Q 學(xué)習(xí)算法27-36
- 4.1 改進(jìn)的CMAC 算法27-30
- 4.2 改進(jìn)的CMAC-Q 算法30-35
- 4.3 小結(jié)35-36
- 第五章 內(nèi)在激勵(lì)學(xué)習(xí)算法及其應(yīng)用36-57
- 5.1 內(nèi)在激勵(lì)強(qiáng)化學(xué)習(xí)36-44
- 5.2 內(nèi)在激勵(lì)學(xué)習(xí)在ROBOCUP 仿真中的應(yīng)用44-57
- 第六章 結(jié)論及展望57-59
- 6.1 比賽成績(jī)57
- 6.2 進(jìn)一步的工作57-59
- 參考文獻(xiàn)59-63
- 致謝63-64
- 攻讀碩士學(xué)位期間發(fā)表的論文清單64
- 機(jī)器人比賽獲獎(jiǎng)情況64
【引證文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 李斐;白潔;朱大奇;;一種鋼絲繩局部截面損失識(shí)別的信息融合數(shù)據(jù)處理方法[J];電腦知識(shí)與技術(shù);2010年20期
2 申迅;劉國(guó)棟;;基于Q學(xué)習(xí)Robocup前鋒的射門(mén)訓(xùn)練[J];計(jì)算機(jī)工程與應(yīng)用;2011年18期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前5條
1 申迅;基于3D仿真機(jī)器人系統(tǒng)的學(xué)習(xí)控制與算法研究[D];江南大學(xué);2011年
2 毛俊鑫;基于人工情感的機(jī)器人行為決策研究[D];哈爾濱工業(yè)大學(xué);2011年
3 齊心躍;基于強(qiáng)化學(xué)習(xí)的多機(jī)器人任務(wù)分配算法研究[D];吉林大學(xué);2008年
4 尹香花;基于強(qiáng)化學(xué)習(xí)的多機(jī)器人行為式隊(duì)形控制策略研究[D];吉林大學(xué);2009年
5 劉飛;強(qiáng)化學(xué)習(xí)在足球機(jī)器人仿真中的應(yīng)用[D];長(zhǎng)沙理工大學(xué);2012年
本文關(guān)鍵詞:基于強(qiáng)化學(xué)習(xí)算法的多智能體學(xué)習(xí)問(wèn)題的研究,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):506004
本文鏈接:http://sikaile.net/kejilunwen/rengongzhinen/506004.html