基于統(tǒng)計前向規(guī)劃算法的游戲通用人工智能
發(fā)布時間:2022-01-17 17:23
統(tǒng)計前向規(guī)劃(statistical forward planning,SFP)算法使用仿真模型(也稱為前向模型)自適應(yīng)地搜索有效的動作序列,此類算法提供了一種簡單通用的方法,為各種游戲提供快速自適應(yīng)的AI控制。介紹了兩種常用的SFP算法:蒙特卡羅樹搜索和滾動層進化,并證明了在沒有任何事先訓(xùn)練的情況下,SPF算法就可以在各種視頻游戲中出色地運行。
【文章來源】:智能科學(xué)與技術(shù)學(xué)報. 2019,1(03)
【文章頁數(shù)】:9 頁
【部分圖文】:
用于預(yù)測中心瓦片下一個狀態(tài)的本地局部鄰域模式
有很多實現(xiàn)局部正向模型學(xué)習(xí)的算法,例如Hash圖和決策樹模型。不完美的模型也是很有用的,可以提供不錯的結(jié)果。從圖3可以看到,3種狀態(tài)的結(jié)果基本是一致的,但是有的時候也會出現(xiàn)一些錯誤,不過正如之前說的,不是完美的方法才有用,這個局部模型在很大程度上是適用的。2.3 可解釋性
以推箱子游戲來說明這一學(xué)習(xí)過程,推箱子屬于一個解謎游戲,如圖1所示,玩家(小矮人)必須將所有的箱子(灰色方塊)推入目標(biāo)(橙色圓圈)才能通過關(guān)卡。如果想把箱子推到指定位置,需要先把箱子推到另一側(cè),讓游戲的個體能夠把箱子從另一個方向推動到目標(biāo)位置,這是一個典型的基于網(wǎng)格的游戲模型。這個游戲可以使用局部模型依次建立前向模型,從而確定對應(yīng)動作。在這個游戲中,狀態(tài)可以表示為一組排列在網(wǎng)格中的瓦片,其中T(x,y)代表處于網(wǎng)格中位置為(x,y)的瓦片。游戲的目標(biāo)是根據(jù)單元格的狀態(tài)tA以及它在t時刻的局部鄰域狀態(tài)N(x,y)t來預(yù)測每個瓦片在t+1時刻的狀態(tài)T(x,y)t+1。令局部狀態(tài)轉(zhuǎn)換函數(shù)fx,y為:
本文編號:3595133
【文章來源】:智能科學(xué)與技術(shù)學(xué)報. 2019,1(03)
【文章頁數(shù)】:9 頁
【部分圖文】:
用于預(yù)測中心瓦片下一個狀態(tài)的本地局部鄰域模式
有很多實現(xiàn)局部正向模型學(xué)習(xí)的算法,例如Hash圖和決策樹模型。不完美的模型也是很有用的,可以提供不錯的結(jié)果。從圖3可以看到,3種狀態(tài)的結(jié)果基本是一致的,但是有的時候也會出現(xiàn)一些錯誤,不過正如之前說的,不是完美的方法才有用,這個局部模型在很大程度上是適用的。2.3 可解釋性
以推箱子游戲來說明這一學(xué)習(xí)過程,推箱子屬于一個解謎游戲,如圖1所示,玩家(小矮人)必須將所有的箱子(灰色方塊)推入目標(biāo)(橙色圓圈)才能通過關(guān)卡。如果想把箱子推到指定位置,需要先把箱子推到另一側(cè),讓游戲的個體能夠把箱子從另一個方向推動到目標(biāo)位置,這是一個典型的基于網(wǎng)格的游戲模型。這個游戲可以使用局部模型依次建立前向模型,從而確定對應(yīng)動作。在這個游戲中,狀態(tài)可以表示為一組排列在網(wǎng)格中的瓦片,其中T(x,y)代表處于網(wǎng)格中位置為(x,y)的瓦片。游戲的目標(biāo)是根據(jù)單元格的狀態(tài)tA以及它在t時刻的局部鄰域狀態(tài)N(x,y)t來預(yù)測每個瓦片在t+1時刻的狀態(tài)T(x,y)t+1。令局部狀態(tài)轉(zhuǎn)換函數(shù)fx,y為:
本文編號:3595133
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3595133.html
最近更新
教材專著