天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > AI論文 >

基于強(qiáng)化學(xué)習(xí)算法的多智能體學(xué)習(xí)問(wèn)題的研究

發(fā)布時(shí)間:2017-07-01 13:05

  本文關(guān)鍵詞:基于強(qiáng)化學(xué)習(xí)算法的多智能體學(xué)習(xí)問(wèn)題的研究,由筆耕文化傳播整理發(fā)布。


【摘要】: 隨著控制論及計(jì)算機(jī)技術(shù)的發(fā)展,分布式人工智能中多智能體系統(tǒng)的理論及相關(guān)的應(yīng)用研究已成為人工智能和智能控制研究的熱點(diǎn)。機(jī)器人足球比賽是一項(xiàng)旨在提高諸多相關(guān)領(lǐng)域的研究水平而舉行的國(guó)際大型比賽和學(xué)術(shù)活動(dòng),是研究分布式人工智能、智能控制和機(jī)器人技術(shù)的絕好平臺(tái)。 機(jī)器人足球比賽的環(huán)境是一個(gè)動(dòng)態(tài)、復(fù)雜、對(duì)抗的環(huán)境,并且每個(gè)機(jī)器人只能得到場(chǎng)上的不完全信息,如何使機(jī)器人能通過(guò)不斷地學(xué)習(xí)提高自己的性能是開(kāi)發(fā)足球機(jī)器人系統(tǒng)的關(guān)鍵內(nèi)容。 本文主要研究強(qiáng)化學(xué)習(xí)技術(shù)在機(jī)器人足球中的實(shí)現(xiàn)問(wèn)題。 首先,針對(duì)機(jī)器人足球比賽的環(huán)境的復(fù)雜性和狀態(tài)空間的龐大,對(duì)已有的基于CMAC神經(jīng)網(wǎng)絡(luò)的Q學(xué)習(xí)泛化學(xué)習(xí)算法,引入了信度分配的概念,把基于空間的信度分配和基于時(shí)間的信度分配同時(shí)融合到CMAC-Q學(xué)習(xí)算法當(dāng)中,提高了強(qiáng)化學(xué)習(xí)的速度。 其次,對(duì)近年來(lái)從分層強(qiáng)化學(xué)習(xí)中發(fā)展出來(lái)的option算法,結(jié)合內(nèi)在激勵(lì)思想,嘗試性地將其應(yīng)用到機(jī)器人足球中的踢球技術(shù)、截球技術(shù)和配合技術(shù)中去。實(shí)驗(yàn)表明,這種算法能夠提高球隊(duì)的決策能力。
【關(guān)鍵詞】:機(jī)器人足球 智能控制 強(qiáng)化學(xué)習(xí) 信度分配 內(nèi)在激勵(lì)
【學(xué)位授予單位】:江南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2006
【分類號(hào)】:TP18
【目錄】:
  • 摘要2-3
  • ABSTRACT3-6
  • 第一章 緒論6-12
  • 1.1 研究背景6-7
  • 1.2 智能AGENT7-8
  • 1.3 強(qiáng)化學(xué)習(xí)的研究現(xiàn)狀8-9
  • 1.4 ROBOCUP 及其學(xué)習(xí)問(wèn)題9-10
  • 1.5 主要研究工作10-12
  • 第二章 ROBOCUP 環(huán)境模型及智能體的層結(jié)構(gòu)設(shè)計(jì)12-20
  • 2.1 ROBOCUP 仿真比賽環(huán)境12-13
  • 2.2 SOCCERSERVER 仿真模型13-17
  • 2.3 智能體的分層結(jié)構(gòu)17
  • 2.4 決策框架的分層結(jié)構(gòu)17-20
  • 第三章 強(qiáng)化學(xué)習(xí)理論及其算法20-27
  • 3.1 強(qiáng)化學(xué)習(xí)理論基礎(chǔ)20-22
  • 3.2 Q 學(xué)習(xí)22-23
  • 3.3 遺忘軌跡(ELIGIBILITY)23-25
  • 3.4 分層強(qiáng)化學(xué)習(xí)25-27
  • 第四章 改進(jìn)的CMAC-Q 學(xué)習(xí)算法27-36
  • 4.1 改進(jìn)的CMAC 算法27-30
  • 4.2 改進(jìn)的CMAC-Q 算法30-35
  • 4.3 小結(jié)35-36
  • 第五章 內(nèi)在激勵(lì)學(xué)習(xí)算法及其應(yīng)用36-57
  • 5.1 內(nèi)在激勵(lì)強(qiáng)化學(xué)習(xí)36-44
  • 5.2 內(nèi)在激勵(lì)學(xué)習(xí)在ROBOCUP 仿真中的應(yīng)用44-57
  • 第六章 結(jié)論及展望57-59
  • 6.1 比賽成績(jī)57
  • 6.2 進(jìn)一步的工作57-59
  • 參考文獻(xiàn)59-63
  • 致謝63-64
  • 攻讀碩士學(xué)位期間發(fā)表的論文清單64
  • 機(jī)器人比賽獲獎(jiǎng)情況64

【引證文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條

1 李斐;白潔;朱大奇;;一種鋼絲繩局部截面損失識(shí)別的信息融合數(shù)據(jù)處理方法[J];電腦知識(shí)與技術(shù);2010年20期

2 申迅;劉國(guó)棟;;基于Q學(xué)習(xí)Robocup前鋒的射門(mén)訓(xùn)練[J];計(jì)算機(jī)工程與應(yīng)用;2011年18期

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前5條

1 申迅;基于3D仿真機(jī)器人系統(tǒng)的學(xué)習(xí)控制與算法研究[D];江南大學(xué);2011年

2 毛俊鑫;基于人工情感的機(jī)器人行為決策研究[D];哈爾濱工業(yè)大學(xué);2011年

3 齊心躍;基于強(qiáng)化學(xué)習(xí)的多機(jī)器人任務(wù)分配算法研究[D];吉林大學(xué);2008年

4 尹香花;基于強(qiáng)化學(xué)習(xí)的多機(jī)器人行為式隊(duì)形控制策略研究[D];吉林大學(xué);2009年

5 劉飛;強(qiáng)化學(xué)習(xí)在足球機(jī)器人仿真中的應(yīng)用[D];長(zhǎng)沙理工大學(xué);2012年


  本文關(guān)鍵詞:基于強(qiáng)化學(xué)習(xí)算法的多智能體學(xué)習(xí)問(wèn)題的研究,,由筆耕文化傳播整理發(fā)布。



本文編號(hào):506004

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/rengongzhinen/506004.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ae577***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com