基于A3C模型的帶預(yù)判游戲智能體研究
發(fā)布時(shí)間:2021-04-13 06:24
目前,常見的游戲內(nèi)置機(jī)器人在進(jìn)行對(duì)抗時(shí)都是根據(jù)事先編寫好的腳本進(jìn)行決策,采取行動(dòng),而且可以獲取利用一些不平等信息,并不是像人類玩家一樣只根據(jù)游戲畫面(或者再結(jié)合聲音)進(jìn)行分析決策,靈活多變。本課題主要研究深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)在游戲智能體領(lǐng)域的應(yīng)用,以及相關(guān)算法的改進(jìn),使游戲智能體的決策過程更像人類,并使其擺脫對(duì)不公平信息的依賴。首先,本文采用VizDoom作為游戲智能體的研究平臺(tái),該游戲是一款第一人稱視角的射擊游戲。根據(jù)A3C算法設(shè)計(jì)實(shí)現(xiàn)了一個(gè)游戲智能體(即卷積神經(jīng)網(wǎng)絡(luò)),該智能體以原始的實(shí)時(shí)游戲畫面作為網(wǎng)絡(luò)輸入,輸出為對(duì)應(yīng)的離散動(dòng)作(即決策)。智能體會(huì)和VizDoom進(jìn)行交互,讀取實(shí)時(shí)游戲畫面,然后進(jìn)行決策,控制游戲中的角色行動(dòng)。其次,本文對(duì)A3C算法做了一個(gè)改進(jìn),在其原有的基礎(chǔ)上加入了一個(gè)預(yù)判網(wǎng)絡(luò),預(yù)判網(wǎng)絡(luò)的目的是使智能體可以像人類玩家一樣,在進(jìn)行決策前做出一個(gè)預(yù)判,然后將實(shí)時(shí)游戲畫面和預(yù)判畫面一起作為A3C算法的網(wǎng)絡(luò)輸入,進(jìn)行決策,輸出對(duì)應(yīng)的離散動(dòng)作。由于這個(gè)改動(dòng)僅僅改變了A3C算法的網(wǎng)絡(luò)輸入的數(shù)據(jù)結(jié)構(gòu),因此是一個(gè)模型無關(guān)的方法,易于移植到其他算法上。最后,本文分析比較了A3C算法...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:65 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
視頻畫面預(yù)測(cè)模型網(wǎng)絡(luò)結(jié)構(gòu)圖
圖 2-15 VizDoom 真實(shí)游戲畫面截圖章小結(jié)章主要介紹了本研究課題相關(guān)的技術(shù)和平臺(tái),首先介紹了深度最基本的感知機(jī)切入,講解了神經(jīng)網(wǎng)絡(luò)的本質(zhì)及學(xué)習(xí)的原理;瘜W(xué)習(xí)的研究問題以及如何利用馬爾科夫決策過程對(duì)其進(jìn)行建然后講解了圖像預(yù)測(cè)的相關(guān)原理及其評(píng)估方法。最后簡單介紹到的開發(fā)框架和研究平臺(tái)。
圖 3-1 Agent-Environment 交互圖具體的講,agent 和 environment 的交互發(fā)生在每個(gè)離散時(shí)間點(diǎn) 。在每個(gè)時(shí)間點(diǎn) t,agent 接收到 environment 的當(dāng)前狀態(tài)St(前的畫面),St S,其中 S 代表可能的狀態(tài)集合,然后在此基動(dòng)作t,t (St),其中 (St)表示在狀態(tài)St下可選的動(dòng)作集合nment 根據(jù) agent 的動(dòng)作發(fā)生改變,轉(zhuǎn)移到新的狀態(tài) ,agent Rt R。了解了整個(gè)過程之后,那么 agent 的目標(biāo)直觀的講就是決策后得到的累積獎(jiǎng)勵(lì)最大,如公式(3-1)所示:Gt= Rt Rt Rt RTGt 代表目標(biāo),T 代表結(jié)束時(shí)間點(diǎn)(如游戲結(jié)束)。接下來我們需( §),計(jì)算每個(gè)狀態(tài) s 映射到 a 的概率,agent 要學(xué)習(xí)的就是如何優(yōu)的策略 使得Gt最大。上面對(duì)于Gt的定義是一種特殊情況,實(shí)考慮累積獎(jiǎng)勵(lì)(reward)的時(shí)候會(huì)在每一項(xiàng)上加上衰減因子γ,同時(shí)間點(diǎn)的獎(jiǎng)懲對(duì)目標(biāo)的影響大小,如公式(3-2)所示。Gt= t tRt Tt t式(3-2)中 。根據(jù)G的定義,那么給定狀態(tài) s 下它的期望
【參考文獻(xiàn)】:
期刊論文
[1]基于深度學(xué)習(xí)的軍事智能決策支持系統(tǒng)[J]. 張曉海,操新文. 指揮控制與仿真. 2018(02)
[2]基于深度學(xué)習(xí)的視頻預(yù)測(cè)研究綜述[J]. 莫凌飛,蔣紅亮,李煊鵬. 智能系統(tǒng)學(xué)報(bào). 2018(01)
[3]深度強(qiáng)化學(xué)習(xí)進(jìn)展:從AlphaGo到AlphaGo Zero[J]. 唐振韜,邵坤,趙冬斌,朱圓恒. 控制理論與應(yīng)用. 2017(12)
[4]基于深度Q值網(wǎng)絡(luò)的自動(dòng)小車控制方法[J]. 王立群,朱舜,韓笑,何軍. 電子測(cè)量技術(shù). 2017(11)
[5]基于深度增強(qiáng)學(xué)習(xí)的自動(dòng)游戲方法[J]. 袁月,馮濤,阮青青,趙銀明,鄒健. 長江大學(xué)學(xué)報(bào)(自科版). 2017(21)
[6]深度學(xué)習(xí)的研究現(xiàn)狀與發(fā)展[J]. 何曉萍,沈雅云. 現(xiàn)代情報(bào). 2017(02)
[7]基于幀內(nèi)幀間聯(lián)合預(yù)測(cè)的深度視頻編碼方法[J]. 朱濤. 信息技術(shù). 2016(10)
[8]Discrete-time dynamic graphical games:model-free reinforcement learning solution[J]. Mohammed I.ABOUHEAF,Frank L.LEWIS,Magdi S.MAHMOUD,Dariusz G.MIKULSKI. Control Theory and Technology. 2015(01)
[9]多Agent系統(tǒng)中強(qiáng)化學(xué)習(xí)的研究現(xiàn)狀和發(fā)展趨勢(shì)[J]. 趙志宏,高陽,駱斌,陳世福. 計(jì)算機(jī)科學(xué). 2004(03)
博士論文
[1]視頻壓縮中的高效幀內(nèi)編碼技術(shù)研究[D]. 張濤.哈爾濱工業(yè)大學(xué) 2017
碩士論文
[1]基于強(qiáng)化學(xué)習(xí)的開放領(lǐng)域聊天機(jī)器人對(duì)話生成算法[D]. 曹東巖.哈爾濱工業(yè)大學(xué) 2017
[2]基于強(qiáng)化學(xué)習(xí)的路徑規(guī)劃問題研究[D]. 趙英男.哈爾濱工業(yè)大學(xué) 2017
本文編號(hào):3134793
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:65 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
視頻畫面預(yù)測(cè)模型網(wǎng)絡(luò)結(jié)構(gòu)圖
圖 2-15 VizDoom 真實(shí)游戲畫面截圖章小結(jié)章主要介紹了本研究課題相關(guān)的技術(shù)和平臺(tái),首先介紹了深度最基本的感知機(jī)切入,講解了神經(jīng)網(wǎng)絡(luò)的本質(zhì)及學(xué)習(xí)的原理;瘜W(xué)習(xí)的研究問題以及如何利用馬爾科夫決策過程對(duì)其進(jìn)行建然后講解了圖像預(yù)測(cè)的相關(guān)原理及其評(píng)估方法。最后簡單介紹到的開發(fā)框架和研究平臺(tái)。
圖 3-1 Agent-Environment 交互圖具體的講,agent 和 environment 的交互發(fā)生在每個(gè)離散時(shí)間點(diǎn) 。在每個(gè)時(shí)間點(diǎn) t,agent 接收到 environment 的當(dāng)前狀態(tài)St(前的畫面),St S,其中 S 代表可能的狀態(tài)集合,然后在此基動(dòng)作t,t (St),其中 (St)表示在狀態(tài)St下可選的動(dòng)作集合nment 根據(jù) agent 的動(dòng)作發(fā)生改變,轉(zhuǎn)移到新的狀態(tài) ,agent Rt R。了解了整個(gè)過程之后,那么 agent 的目標(biāo)直觀的講就是決策后得到的累積獎(jiǎng)勵(lì)最大,如公式(3-1)所示:Gt= Rt Rt Rt RTGt 代表目標(biāo),T 代表結(jié)束時(shí)間點(diǎn)(如游戲結(jié)束)。接下來我們需( §),計(jì)算每個(gè)狀態(tài) s 映射到 a 的概率,agent 要學(xué)習(xí)的就是如何優(yōu)的策略 使得Gt最大。上面對(duì)于Gt的定義是一種特殊情況,實(shí)考慮累積獎(jiǎng)勵(lì)(reward)的時(shí)候會(huì)在每一項(xiàng)上加上衰減因子γ,同時(shí)間點(diǎn)的獎(jiǎng)懲對(duì)目標(biāo)的影響大小,如公式(3-2)所示。Gt= t tRt Tt t式(3-2)中 。根據(jù)G的定義,那么給定狀態(tài) s 下它的期望
【參考文獻(xiàn)】:
期刊論文
[1]基于深度學(xué)習(xí)的軍事智能決策支持系統(tǒng)[J]. 張曉海,操新文. 指揮控制與仿真. 2018(02)
[2]基于深度學(xué)習(xí)的視頻預(yù)測(cè)研究綜述[J]. 莫凌飛,蔣紅亮,李煊鵬. 智能系統(tǒng)學(xué)報(bào). 2018(01)
[3]深度強(qiáng)化學(xué)習(xí)進(jìn)展:從AlphaGo到AlphaGo Zero[J]. 唐振韜,邵坤,趙冬斌,朱圓恒. 控制理論與應(yīng)用. 2017(12)
[4]基于深度Q值網(wǎng)絡(luò)的自動(dòng)小車控制方法[J]. 王立群,朱舜,韓笑,何軍. 電子測(cè)量技術(shù). 2017(11)
[5]基于深度增強(qiáng)學(xué)習(xí)的自動(dòng)游戲方法[J]. 袁月,馮濤,阮青青,趙銀明,鄒健. 長江大學(xué)學(xué)報(bào)(自科版). 2017(21)
[6]深度學(xué)習(xí)的研究現(xiàn)狀與發(fā)展[J]. 何曉萍,沈雅云. 現(xiàn)代情報(bào). 2017(02)
[7]基于幀內(nèi)幀間聯(lián)合預(yù)測(cè)的深度視頻編碼方法[J]. 朱濤. 信息技術(shù). 2016(10)
[8]Discrete-time dynamic graphical games:model-free reinforcement learning solution[J]. Mohammed I.ABOUHEAF,Frank L.LEWIS,Magdi S.MAHMOUD,Dariusz G.MIKULSKI. Control Theory and Technology. 2015(01)
[9]多Agent系統(tǒng)中強(qiáng)化學(xué)習(xí)的研究現(xiàn)狀和發(fā)展趨勢(shì)[J]. 趙志宏,高陽,駱斌,陳世福. 計(jì)算機(jī)科學(xué). 2004(03)
博士論文
[1]視頻壓縮中的高效幀內(nèi)編碼技術(shù)研究[D]. 張濤.哈爾濱工業(yè)大學(xué) 2017
碩士論文
[1]基于強(qiáng)化學(xué)習(xí)的開放領(lǐng)域聊天機(jī)器人對(duì)話生成算法[D]. 曹東巖.哈爾濱工業(yè)大學(xué) 2017
[2]基于強(qiáng)化學(xué)習(xí)的路徑規(guī)劃問題研究[D]. 趙英男.哈爾濱工業(yè)大學(xué) 2017
本文編號(hào):3134793
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3134793.html
最近更新
教材專著