天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > AI論文 >

基于強化學(xué)習(xí)的RoboCup 2D高層搶球策略研究

發(fā)布時間:2017-05-25 01:08

  本文關(guān)鍵詞:基于強化學(xué)習(xí)的RoboCup 2D高層搶球策略研究,由筆耕文化傳播整理發(fā)布。


【摘要】:RoboCup,機器人足球世界杯,是一個國際性的綜合賽事,其中的2D項目提出了一個復(fù)雜的實時多主體環(huán)境下的智能體決策問題。當(dāng)前人工智能正處在由“單主體靜態(tài)可預(yù)測環(huán)境中的問題求解”向“多主體動態(tài)不可預(yù)測環(huán)境中的問題求解”過渡的階段,RoboCup2D問題中的智能決策研究代表人工智能的最新理論方向,同時RoboCup2D問題的解決可以助力當(dāng)前信息時代的深入發(fā)展和革新。 RoboCup2D問題的重點是高層決策,目前處理高層決策問題的方法有手工策略和各種人工智能的方法。傳統(tǒng)的高層決策采用手工策略,手工策略具有很大的主觀性,相關(guān)參數(shù)的選取多根據(jù)經(jīng)驗,不能保證很優(yōu)化;同時手工策略無法考慮所有的比賽情形,對比賽情形動態(tài)變化的適應(yīng)能力差,從而導(dǎo)致球員達成目標(biāo)的效率底下;谌斯ぶ悄艿姆椒▌t包括強化學(xué)習(xí)、決策樹學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)等,它們由于具有學(xué)習(xí)能力,優(yōu)于簡單的手工策略。 在強化學(xué)習(xí)過程中,智能體通過不斷進行動作嘗試并觀察動作的回報,逐漸學(xué)會在各種情形下選擇對其有利的動作,以使自身在與環(huán)境交互過程中獲得高的累積回報值。強化學(xué)習(xí)的環(huán)境交互特點和RoboCup2D的客戶-服務(wù)器交互模式一致;強化學(xué)習(xí)的連續(xù)決策特點和RoboCup2D的周期性決策特點也十分一致;并且強化學(xué)習(xí)模型對動態(tài)不確定環(huán)境的適應(yīng)能力,使得強化學(xué)習(xí)方法十分適于解決RoboCup2D的高層決策問題,所以本文基于強化學(xué)習(xí)方法進行RoboCup2D問題研究。 Keepaway,即小規(guī)模控球搶球訓(xùn)練問題,是RoboCup2D中的典型子問題。目前有人使用強化學(xué)習(xí)的方法對Keepaway的高層控球策略進行研究,優(yōu)化了控球球隊中持球球員的高層動作決策。然而目將強化學(xué)習(xí)應(yīng)用于Keepaway問題中搶球球員的動作決策尚無文獻研究。在Keepaway中,搶球任務(wù)和控球任務(wù)的任務(wù)目標(biāo)相反,任務(wù)特點也有所不同,因而球隊策略也存在區(qū)別?厍虻奶攸c是要求無球球員進行合理的無球跑動,同時持球球員選擇合理的傳球路線;搶球的特點是則要求搶球球員分工對控球球員進行壓迫和逼搶?厍蛉蝿(wù)對無球球員的跑動要求相對較低,研究重點是持球球員的傳球決策;而對于搶球,離球最近的搶球球員的決策比較固定(他必須上前逼搶持球球員,否則球隊很難搶下球),剩下的負(fù)責(zé)攔截傳球路線的搶球球員的決策則具有研究價值。本文針對Keepaway中搶球任務(wù)的上述特點,研究將強化學(xué)習(xí)應(yīng)用于搶球球員高層動作決策的問題,主要做了以下工作: (1)針對傳統(tǒng)手工策略效率低的問題,通過對Keepaway中搶球任務(wù)特點的分析,合理設(shè)計了搶球球員強化學(xué)習(xí)模型的狀態(tài)空間、動作空間及回報值,并給出了搶球球員的強化學(xué)習(xí)算法,使球員的決策隨著訓(xùn)練的進行得到優(yōu)化,搶球任務(wù)完成時間縮短,搶斷成功率提高。 (2)針對較大規(guī)模Keepaway任務(wù)進行普通強化學(xué)習(xí)耗時太長的問題,利用策略遷移技術(shù),通過合理設(shè)計從較小規(guī)模到較大規(guī)模Keepaway搶球任務(wù)的遷移學(xué)習(xí)方案,以及定義兩個規(guī)模的任務(wù)間狀態(tài)及動作空間映射,并給出搶球球員的遷移學(xué)習(xí)算法,使搶球球員在較大規(guī)模Keepaway訓(xùn)練中重用在較小規(guī)模Keepaway中通過普通強化學(xué)習(xí)得到的高層策略,實現(xiàn)遷移學(xué)習(xí)。實驗表明遷移學(xué)習(xí)在訓(xùn)練開始時就表現(xiàn)出較高的決策效率,并且比從零開始的普通強化學(xué)習(xí)更快地收斂到理想的策略水平,大大縮短了訓(xùn)練時間。 本文的研究成果表明強化學(xué)習(xí)方法在Keepaway高層搶球決策中的有效性。傳統(tǒng)意義上,強化學(xué)習(xí)一般只應(yīng)用于底層動作決策。本研究則證明了通過合理的高層回報值模型設(shè)計,強化學(xué)習(xí)也可以用來解決高層動作決策問題,體現(xiàn)了強化學(xué)習(xí)更廣泛的應(yīng)用能力。
【關(guān)鍵詞】:機器人足球 Keepaway 強化學(xué)習(xí) 搶球策略 策略重用 遷移學(xué)習(xí)
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP242
【目錄】:
  • 摘要3-5
  • Abstract5-9
  • 第一章 緒論9-13
  • 1.1 研究背景及選題意義9-10
  • 1.2 國內(nèi)外研究現(xiàn)狀10-11
  • 1.3 本論文的主要內(nèi)容11-13
  • 第二章 ROBOCUP 2D平臺13-21
  • 2.1 ROBOCUP比賽13
  • 2.2 ROBOCUP 2D平臺架構(gòu)13-16
  • 2.3 ROBOCUP 2D問題模型16-17
  • 2.4 ROBOCUP 2D問題特點17-18
  • 2.5 ROBOCUP 2D子問題18-20
  • 2.6 本章小結(jié)20-21
  • 第三章 強化學(xué)習(xí)21-34
  • 3.1 強化學(xué)習(xí)概述21-22
  • 3.2 強化學(xué)習(xí)問題22-24
  • 3.3 MDP模型求解強化學(xué)習(xí)問題24-27
  • 3.4 強化學(xué)習(xí)算法27-33
  • 3.5 本章小結(jié)33-34
  • 第四章 高層搶球策略的強化學(xué)習(xí)34-43
  • 4.1 問題描述34
  • 4.2 KEEPAWAY的高層動作和總體策略34-36
  • 4.3 KEEPAWAY中高層搶球策略的強化學(xué)習(xí)36-39
  • 4.4 實驗分析39-42
  • 4.5 本章小結(jié)42-43
  • 第五章 高層搶球策略的任務(wù)間遷移學(xué)習(xí)43-51
  • 5.1 問題描述43
  • 5.2 遷移學(xué)習(xí)和策略重用43-46
  • 5.3 KEEPAWAY中高層搶球策略的任務(wù)間遷移學(xué)習(xí)46-48
  • 5.4 實驗分析48-50
  • 5.5 本章小結(jié)50-51
  • 第六章 總結(jié)和展望51-53
  • 6.1 全文工作總結(jié)51-52
  • 6.2 未來展望52-53
  • 參考文獻53-57
  • 致謝57-58
  • 攻讀碩士學(xué)位期間的學(xué)術(shù)論文、科研項目與相關(guān)獎項58

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 郝曉云;;多智能主體系統(tǒng)的社會規(guī)范[J];重慶工學(xué)院學(xué)報(社會科學(xué)版);2009年06期

2 劉春陽;譚應(yīng)清;柳長安;馬瑩巍;;多智能體強化學(xué)習(xí)在足球機器人中的研究與應(yīng)用[J];電子學(xué)報;2010年08期

3 殷鋒社;;基于知識的Agent強化學(xué)習(xí)算法分析與研究[J];電子設(shè)計工程;2011年11期

4 程顯毅;朱倩;;一種改進的強化學(xué)習(xí)方法在RoboCup中應(yīng)用研究[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2010年03期

5 連曉峰;張_";劉載文;蘇維鈞;;RoboCup中型組機器人足球相關(guān)技術(shù)研究[J];機器人技術(shù)與應(yīng)用;2009年03期

6 李實,徐旭明,葉榛,孫增圻;國際機器人足球比賽及其相關(guān)技術(shù)[J];機器人;2000年05期

7 何澤宇,付莊,曹其新,陳衛(wèi)東;具有輸入飽和特性的中型足球機器人運動控制研究[J];計算機工程與應(yīng)用;2003年18期

8 毛俊杰;劉國棟;;基于先驗知識的改進強化學(xué)習(xí)及其在MAS中應(yīng)用[J];計算機工程與應(yīng)用;2008年24期

9 陳學(xué)松;楊宜民;;強化學(xué)習(xí)研究綜述[J];計算機應(yīng)用研究;2010年08期

10 張汝波,顧國昌,劉照德,王醒策;強化學(xué)習(xí)理論、算法及應(yīng)用[J];控制理論與應(yīng)用;2000年05期

中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 覃姜維;遷移學(xué)習(xí)方法研究及其在跨領(lǐng)域數(shù)據(jù)分類中的應(yīng)用[D];華南理工大學(xué);2011年

2 范長杰;基于馬爾可夫決策理論的規(guī)劃問題的研究[D];中國科學(xué)技術(shù)大學(xué);2008年


  本文關(guān)鍵詞:基于強化學(xué)習(xí)的RoboCup 2D高層搶球策略研究,,由筆耕文化傳播整理發(fā)布。



本文編號:392390

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/rengongzhinen/392390.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶72472***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com