天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > AI論文 >

基于馬爾可夫決策過程理論的Agent決策問題研究

發(fā)布時(shí)間:2017-04-27 15:24

  本文關(guān)鍵詞:基于馬爾可夫決策過程理論的Agent決策問題研究,由筆耕文化傳播整理發(fā)布。


【摘要】: 人工智能被認(rèn)為其主要目標(biāo)是構(gòu)造可以決策出智能行為的Agents,即這些Agents能夠在多方面再現(xiàn)人類可以做出的智能行為。馬爾可夫決策過程(MDP)可以用來(lái)描述和處理大規(guī)模不確定性環(huán)境下的Agent決策問題。 RoboCup機(jī)器人世界杯是國(guó)際上一項(xiàng)為促進(jìn)分布式人工智能、智能機(jī)器人技術(shù)及其相關(guān)領(lǐng)域的研究與發(fā)展而舉行的大型比賽和學(xué)術(shù)活動(dòng),RoboCup仿真2D比賽是RoboCup所有項(xiàng)目中以Agent決策為重點(diǎn)的一個(gè)分支。 本文以馬爾可夫決策過程的相關(guān)理論為基礎(chǔ),以RoboCup仿真2D比賽為實(shí)驗(yàn)平臺(tái),對(duì)Agent決策相關(guān)問題進(jìn)行了研究。本文的主要工作可以概括為以下三個(gè)方面: 本文重構(gòu)并實(shí)現(xiàn)了一個(gè)完整的RoboCup仿真2D球隊(duì)決策系統(tǒng)WE2009。該系統(tǒng)以部分可觀察隨機(jī)博弈(POSG)的模型為理論基礎(chǔ),包括信息處理、高層決策和行為執(zhí)行三個(gè)模塊。特別是高層決策模塊,采用基于獨(dú)立行為生成器的結(jié)構(gòu)設(shè)計(jì),不僅可以充分利用Agent的決策時(shí)間,而且可以提高團(tuán)隊(duì)合作的效率。 本文提出了一類特殊的馬爾可夫決策過程,即行動(dòng)驅(qū)動(dòng)的馬爾可夫決策過程(ADMDP)。本文分析了ADMDP的理論模型,提出了ADMDP的相關(guān)求解方法。該方法采取離線值迭代與在線搜索相結(jié)合,在本文中用來(lái)求解RoboCup仿真2D比賽中的不離身帶球問題,使Agent的帶球性能有了較大的提高。 本文提出了一類特殊的馬爾可夫博弈,即基于陣型的零和馬爾可夫博弈(FZSMG)。本文分析了FZSMG的理論模型,并以此為基礎(chǔ)來(lái)描述RoboCup仿真2D比賽中的Anti-Mark問題。針對(duì)Anti-Mark問題,本文提出了一個(gè)基于陣型變換的啟發(fā)式求解方法,使球隊(duì)在與盯人防守的對(duì)手比賽時(shí)取得了較好的效果。 本文的所有工作都是基于WE2009實(shí)現(xiàn)的,WE2009在完成后參加了2009RoboCup機(jī)器人世界杯和2009中國(guó)機(jī)器人大賽兩次重要比賽,并且全部獲得冠軍。
【關(guān)鍵詞】:人工智能 Agent決策 多Agent系統(tǒng) 馬爾可夫決策過程 馬爾可夫博弈 RoboCup 仿真2D
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2010
【分類號(hào)】:TP18
【目錄】:
  • 摘要4-5
  • ABSTRACT5-7
  • 目錄7-10
  • 圖表目錄10-11
  • 第1章 緒論11-24
  • 1.1 人工智能與Agent 決策11-12
  • 1.2 馬爾可夫決策過程12-18
  • 1.2.1 基本模型13-14
  • 1.2.2 世界狀態(tài)14-15
  • 1.2.3 行動(dòng)15
  • 1.2.4 狀態(tài)轉(zhuǎn)移函數(shù)15-16
  • 1.2.5 收益函數(shù)16-17
  • 1.2.6 值函數(shù)與策略求解17-18
  • 1.3 其他決策模型介紹18-20
  • 1.4 實(shí)驗(yàn)平臺(tái)20-22
  • 1.4.1 RoboCup 機(jī)器人世界杯20-21
  • 1.4.2 RoboCup 仿真2D 機(jī)器人足球比賽21-22
  • 1.4.3 WrightEagle 仿真2D 機(jī)器人足球隊(duì)22
  • 1.5 本文的主要工作及章節(jié)安排22-24
  • 第2章 WE2009 仿真2D 球隊(duì)決策系統(tǒng)24-38
  • 2.1 RoboCup 仿真2D 平臺(tái)24-27
  • 2.1.1 Server 端25-26
  • 2.1.2 Client 端26-27
  • 2.2 理論模型27-29
  • 2.2.1 POSG 的基本模型27-28
  • 2.2.2 WE2009 的POSG 建模28-29
  • 2.3 系統(tǒng)結(jié)構(gòu)分析29-37
  • 2.3.1 系統(tǒng)決策流程30-31
  • 2.3.2 信息處理模塊31-32
  • 2.3.3 高層決策模塊32-36
  • 2.3.4 行為執(zhí)行模塊36-37
  • 2.4 小結(jié)37-38
  • 第3章 行動(dòng)驅(qū)動(dòng)的馬爾可夫決策過程38-52
  • 3.1 問題的提出38-39
  • 3.2 理論模型39-40
  • 3.3 求解算法40-44
  • 3.3.1 MDP 的經(jīng)典求解算法40-41
  • 3.3.2 ADMDP 的精確求解算法41-43
  • 3.3.3 ADMDP 的啟發(fā)式求解算法43-44
  • 3.4 不離身帶球問題的求解44-47
  • 3.4.1 問題分析45
  • 3.4.2 模型建立45-47
  • 3.5 實(shí)驗(yàn)結(jié)果及分析47-51
  • 3.6 小結(jié)51-52
  • 第4章 基于陣型的零和馬爾可夫博弈52-66
  • 4.1 博弈論相關(guān)背景52-55
  • 4.1.1 博弈與零和博弈53-54
  • 4.1.2 零和馬爾可夫博弈54-55
  • 4.2 理論模型及應(yīng)用實(shí)例55-59
  • 4.2.1 角色與陣型55-56
  • 4.2.2 理論模型56-57
  • 4.2.3 Anti-Mark 問題中的應(yīng)用57-59
  • 4.3 Anti-Mark 問題的求解59-63
  • 4.3.1 多角色異構(gòu)分配策略59-60
  • 4.3.2 陣型變換策略60-63
  • 4.4 實(shí)驗(yàn)結(jié)果及分析63-64
  • 4.5 小結(jié)64-66
  • 第5章 總結(jié)與展望66-68
  • 5.1 總結(jié)66
  • 5.2 展望66-68
  • 參考文獻(xiàn)68-72
  • 致謝72-74
  • 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文與取得的其他研究成果74

【引證文獻(xiàn)】

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 章惠龍;RoboCup仿真2D中的Agent智能決策系統(tǒng)[D];安徽大學(xué);2012年


  本文關(guān)鍵詞:基于馬爾可夫決策過程理論的Agent決策問題研究,,由筆耕文化傳播整理發(fā)布。



本文編號(hào):330827

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/rengongzhinen/330827.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8173b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com