天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向動作類游戲仿真的多層深度強(qiáng)化學(xué)習(xí)研究

發(fā)布時(shí)間:2021-12-09 08:12
  游戲AI是人工智能和游戲領(lǐng)域結(jié)合的產(chǎn)物,是強(qiáng)化學(xué)習(xí)領(lǐng)域的重要實(shí)驗(yàn)載體。強(qiáng)化學(xué)習(xí)解決的是序貫決策問題,與游戲中的智能體決策不謀而合。在該領(lǐng)域,近年來也出現(xiàn)了許多令人矚目的研究成果,從早期的DQN控制雅達(dá)利游戲得分接近人類水平,到AlphaGO擊敗世界頂級圍棋選手,OpenAI Five在Dota2電子競技上擊敗國際頂尖隊(duì)伍,該領(lǐng)域越來越受到學(xué)術(shù)界的關(guān)注和重視。傳統(tǒng)強(qiáng)化學(xué)習(xí)理論采用的是低維的輸入,動作狀態(tài)空間都比較小,但在面臨復(fù)雜游戲環(huán)境時(shí)卻遇到了越來越多的挑戰(zhàn),比如高維的狀態(tài)動作空間、游戲反饋延遲且稀疏、多智能體系統(tǒng)下的環(huán)境不穩(wěn)定問題等。本文以相對復(fù)雜的動作類多人足球游戲?yàn)閷?shí)驗(yàn)載體,結(jié)合多智能體領(lǐng)域的溝通機(jī)制和強(qiáng)化學(xué)習(xí)分層思想,提出帶溝通機(jī)制的分層多智能體強(qiáng)化學(xué)習(xí)方法。理論層面上,本文將行為主義和連接主義方法結(jié)合,探索了復(fù)雜環(huán)境下的多智能體集群智能問題。算法層面上,本文通過智能體獨(dú)立的思想,以去中心化的訓(xùn)練方式,在高層的網(wǎng)絡(luò)中增加通信溝通機(jī)制,推動智能體之間進(jìn)行溝通分享信息,完善對環(huán)境、對其他智能體行為策略的感知,一定程度上解決了環(huán)境不穩(wěn)定的問題,并促進(jìn)了多智能體之間的協(xié)作對抗行為。本文... 

【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:68 頁

【學(xué)位級別】:碩士

【部分圖文】:

面向動作類游戲仿真的多層深度強(qiáng)化學(xué)習(xí)研究


強(qiáng)化學(xué)習(xí)更新方法分類圖

面向動作類游戲仿真的多層深度強(qiáng)化學(xué)習(xí)研究


策略迭代示意圖

面向動作類游戲仿真的多層深度強(qiáng)化學(xué)習(xí)研究


重要性權(quán)重示意圖

【參考文獻(xiàn)】:
期刊論文
[1]分層強(qiáng)化學(xué)習(xí)綜述[J]. 周文吉,俞揚(yáng).  智能系統(tǒng)學(xué)報(bào). 2017(05)
[2]深度強(qiáng)化學(xué)習(xí)綜述[J]. 劉全,翟建偉,章宗長,鐘珊,周倩,章鵬,徐進(jìn).  計(jì)算機(jī)學(xué)報(bào). 2018(01)
[3]強(qiáng)化學(xué)習(xí)研究綜述[J]. 陳學(xué)松,楊宜民.  計(jì)算機(jī)應(yīng)用研究. 2010(08)
[4]關(guān)于學(xué)習(xí)本質(zhì)的哲學(xué)探索[J]. 張曉榮.  蘭州學(xué)刊. 2007(05)
[5]強(qiáng)化學(xué)習(xí)研究綜述[J]. 高陽,陳世福,陸鑫.  自動化學(xué)報(bào). 2004(01)
[6]強(qiáng)化學(xué)習(xí)理論、算法及應(yīng)用[J]. 張汝波,顧國昌,劉照德,王醒策.  控制理論與應(yīng)用. 2000(05)



本文編號:3530278

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3530278.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d1569***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com