面向動作類游戲仿真的多層深度強(qiáng)化學(xué)習(xí)研究
發(fā)布時(shí)間:2021-12-09 08:12
游戲AI是人工智能和游戲領(lǐng)域結(jié)合的產(chǎn)物,是強(qiáng)化學(xué)習(xí)領(lǐng)域的重要實(shí)驗(yàn)載體。強(qiáng)化學(xué)習(xí)解決的是序貫決策問題,與游戲中的智能體決策不謀而合。在該領(lǐng)域,近年來也出現(xiàn)了許多令人矚目的研究成果,從早期的DQN控制雅達(dá)利游戲得分接近人類水平,到AlphaGO擊敗世界頂級圍棋選手,OpenAI Five在Dota2電子競技上擊敗國際頂尖隊(duì)伍,該領(lǐng)域越來越受到學(xué)術(shù)界的關(guān)注和重視。傳統(tǒng)強(qiáng)化學(xué)習(xí)理論采用的是低維的輸入,動作狀態(tài)空間都比較小,但在面臨復(fù)雜游戲環(huán)境時(shí)卻遇到了越來越多的挑戰(zhàn),比如高維的狀態(tài)動作空間、游戲反饋延遲且稀疏、多智能體系統(tǒng)下的環(huán)境不穩(wěn)定問題等。本文以相對復(fù)雜的動作類多人足球游戲?yàn)閷?shí)驗(yàn)載體,結(jié)合多智能體領(lǐng)域的溝通機(jī)制和強(qiáng)化學(xué)習(xí)分層思想,提出帶溝通機(jī)制的分層多智能體強(qiáng)化學(xué)習(xí)方法。理論層面上,本文將行為主義和連接主義方法結(jié)合,探索了復(fù)雜環(huán)境下的多智能體集群智能問題。算法層面上,本文通過智能體獨(dú)立的思想,以去中心化的訓(xùn)練方式,在高層的網(wǎng)絡(luò)中增加通信溝通機(jī)制,推動智能體之間進(jìn)行溝通分享信息,完善對環(huán)境、對其他智能體行為策略的感知,一定程度上解決了環(huán)境不穩(wěn)定的問題,并促進(jìn)了多智能體之間的協(xié)作對抗行為。本文...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
強(qiáng)化學(xué)習(xí)更新方法分類圖
策略迭代示意圖
重要性權(quán)重示意圖
【參考文獻(xiàn)】:
期刊論文
[1]分層強(qiáng)化學(xué)習(xí)綜述[J]. 周文吉,俞揚(yáng). 智能系統(tǒng)學(xué)報(bào). 2017(05)
[2]深度強(qiáng)化學(xué)習(xí)綜述[J]. 劉全,翟建偉,章宗長,鐘珊,周倩,章鵬,徐進(jìn). 計(jì)算機(jī)學(xué)報(bào). 2018(01)
[3]強(qiáng)化學(xué)習(xí)研究綜述[J]. 陳學(xué)松,楊宜民. 計(jì)算機(jī)應(yīng)用研究. 2010(08)
[4]關(guān)于學(xué)習(xí)本質(zhì)的哲學(xué)探索[J]. 張曉榮. 蘭州學(xué)刊. 2007(05)
[5]強(qiáng)化學(xué)習(xí)研究綜述[J]. 高陽,陳世福,陸鑫. 自動化學(xué)報(bào). 2004(01)
[6]強(qiáng)化學(xué)習(xí)理論、算法及應(yīng)用[J]. 張汝波,顧國昌,劉照德,王醒策. 控制理論與應(yīng)用. 2000(05)
本文編號:3530278
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
強(qiáng)化學(xué)習(xí)更新方法分類圖
策略迭代示意圖
重要性權(quán)重示意圖
【參考文獻(xiàn)】:
期刊論文
[1]分層強(qiáng)化學(xué)習(xí)綜述[J]. 周文吉,俞揚(yáng). 智能系統(tǒng)學(xué)報(bào). 2017(05)
[2]深度強(qiáng)化學(xué)習(xí)綜述[J]. 劉全,翟建偉,章宗長,鐘珊,周倩,章鵬,徐進(jìn). 計(jì)算機(jī)學(xué)報(bào). 2018(01)
[3]強(qiáng)化學(xué)習(xí)研究綜述[J]. 陳學(xué)松,楊宜民. 計(jì)算機(jī)應(yīng)用研究. 2010(08)
[4]關(guān)于學(xué)習(xí)本質(zhì)的哲學(xué)探索[J]. 張曉榮. 蘭州學(xué)刊. 2007(05)
[5]強(qiáng)化學(xué)習(xí)研究綜述[J]. 高陽,陳世福,陸鑫. 自動化學(xué)報(bào). 2004(01)
[6]強(qiáng)化學(xué)習(xí)理論、算法及應(yīng)用[J]. 張汝波,顧國昌,劉照德,王醒策. 控制理論與應(yīng)用. 2000(05)
本文編號:3530278
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3530278.html
最近更新
教材專著