基于馬爾可夫決策過程理論的Agent決策問題研究

發(fā)布時間：2017-04-27 15:24

本文關鍵詞：基于馬爾可夫決策過程理論的Agent決策問題研究，由筆耕文化傳播整理發(fā)布。

【摘要】： 人工智能被認為其主要目標是構造可以決策出智能行為的Agents,即這些Agents能夠在多方面再現人類可以做出的智能行為。馬爾可夫決策過程(MDP)可以用來描述和處理大規(guī)模不確定性環(huán)境下的Agent決策問題。 RoboCup機器人世界杯是國際上一項為促進分布式人工智能、智能機器人技術及其相關領域的研究與發(fā)展而舉行的大型比賽和學術活動,RoboCup仿真2D比賽是RoboCup所有項目中以Agent決策為重點的一個分支。本文以馬爾可夫決策過程的相關理論為基礎,以RoboCup仿真2D比賽為實驗平臺,對Agent決策相關問題進行了研究。本文的主要工作可以概括為以下三個方面: 本文重構并實現了一個完整的RoboCup仿真2D球隊決策系統(tǒng)WE2009。該系統(tǒng)以部分可觀察隨機博弈(POSG)的模型為理論基礎,包括信息處理、高層決策和行為執(zhí)行三個模塊。特別是高層決策模塊,采用基于獨立行為生成器的結構設計,不僅可以充分利用Agent的決策時間,而且可以提高團隊合作的效率。本文提出了一類特殊的馬爾可夫決策過程,即行動驅動的馬爾可夫決策過程(ADMDP)。本文分析了ADMDP的理論模型,提出了ADMDP的相關求解方法。該方法采取離線值迭代與在線搜索相結合,在本文中用來求解RoboCup仿真2D比賽中的不離身帶球問題,使Agent的帶球性能有了較大的提高。本文提出了一類特殊的馬爾可夫博弈,即基于陣型的零和馬爾可夫博弈(FZSMG)。本文分析了FZSMG的理論模型,并以此為基礎來描述RoboCup仿真2D比賽中的Anti-Mark問題。針對Anti-Mark問題,本文提出了一個基于陣型變換的啟發(fā)式求解方法,使球隊在與盯人防守的對手比賽時取得了較好的效果。本文的所有工作都是基于WE2009實現的,WE2009在完成后參加了2009RoboCup機器人世界杯和2009中國機器人大賽兩次重要比賽,并且全部獲得冠軍。
【關鍵詞】：人工智能 Agent決策 多Agent系統(tǒng) 馬爾可夫決策過程 馬爾可夫博弈 RoboCup 仿真2D
【學位授予單位】：中國科學技術大學
【學位級別】：碩士
【學位授予年份】：2010
【分類號】：TP18
【目錄】：

摘要4-5
ABSTRACT5-7
目錄7-10
圖表目錄10-11
第1章緒論11-24
1.1 人工智能與Agent 決策11-12
1.2 馬爾可夫決策過程12-18
1.2.1 基本模型13-14
1.2.2 世界狀態(tài)14-15
1.2.3 行動15
1.2.4 狀態(tài)轉移函數15-16
1.2.5 收益函數16-17
1.2.6 值函數與策略求解17-18
1.3 其他決策模型介紹18-20
1.4 實驗平臺20-22
1.4.1 RoboCup 機器人世界杯20-21
1.4.2 RoboCup 仿真2D 機器人足球比賽21-22
1.4.3 WrightEagle 仿真2D 機器人足球隊22
1.5 本文的主要工作及章節(jié)安排22-24
第2章 WE2009 仿真2D 球隊決策系統(tǒng)24-38
2.1 RoboCup 仿真2D 平臺24-27
2.1.1 Server 端25-26
2.1.2 Client 端26-27
2.2 理論模型27-29
2.2.1 POSG 的基本模型27-28
2.2.2 WE2009 的POSG 建模28-29
2.3 系統(tǒng)結構分析29-37
2.3.1 系統(tǒng)決策流程30-31
2.3.2 信息處理模塊31-32
2.3.3 高層決策模塊32-36
2.3.4 行為執(zhí)行模塊36-37
2.4 小結37-38
第3章行動驅動的馬爾可夫決策過程38-52
3.1 問題的提出38-39
3.2 理論模型39-40
3.3 求解算法40-44
3.3.1 MDP 的經典求解算法40-41
3.3.2 ADMDP 的精確求解算法41-43
3.3.3 ADMDP 的啟發(fā)式求解算法43-44
3.4 不離身帶球問題的求解44-47
3.4.1 問題分析45
3.4.2 模型建立45-47
3.5 實驗結果及分析47-51
3.6 小結51-52
第4章基于陣型的零和馬爾可夫博弈52-66
4.1 博弈論相關背景52-55
4.1.1 博弈與零和博弈53-54
4.1.2 零和馬爾可夫博弈54-55
4.2 理論模型及應用實例55-59
4.2.1 角色與陣型55-56
4.2.2 理論模型56-57
4.2.3 Anti-Mark 問題中的應用57-59
4.3 Anti-Mark 問題的求解59-63
4.3.1 多角色異構分配策略59-60
4.3.2 陣型變換策略60-63
4.4 實驗結果及分析63-64
4.5 小結64-66
第5章總結與展望66-68
5.1 總結66
5.2 展望66-68
參考文獻68-72
致謝72-74
攻讀學位期間發(fā)表的學術論文與取得的其他研究成果74

【引證文獻】

中國碩士學位論文全文數據庫前1條

1 章惠龍;RoboCup仿真2D中的Agent智能決策系統(tǒng)[D];安徽大學;2012年

本文關鍵詞：基于馬爾可夫決策過程理論的Agent決策問題研究，，由筆耕文化傳播整理發(fā)布。

本文編號：330827

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/rengongzhinen/330827.html

上一篇：人工免疫算法的改進與IP核實現
下一篇：基于神經網絡反饋補償控制的磁懸浮球位置控制

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于馬爾可夫決策過程理論的Agent決策問題研究