基于深度強(qiáng)化學(xué)習(xí)的非完備信息3D視頻游戲博弈算法研究
發(fā)布時間:2021-12-30 14:31
人工智能研究正在世界各地如火如荼地進(jìn)行著,而機(jī)器博弈自從計(jì)算機(jī)和博弈論誕生以來一直是人工智能研究的熱門領(lǐng)域。近年來,AlphaGo圍棋智能體的大獲成功更是吸引了越來越多的研究人員投入到機(jī)器博弈的研究中來,值得關(guān)注的是該圍棋智能體主要使用的深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)算法已經(jīng)成為當(dāng)下的人工智能浪潮中最具有代表性的技術(shù)。圍棋智能體的成功代表著機(jī)器博弈領(lǐng)域中的完備信息博弈取得了歷史性的突破,而有著更高復(fù)雜度、更貼近現(xiàn)實(shí)世界的非完備信息博弈依然有很多課題需要研究解決。另一方面,計(jì)算機(jī)游戲因其具有清晰的規(guī)則定義、豐富的場景和可重用性等特點(diǎn),如今已成為人工智能尤其是機(jī)器博弈領(lǐng)域最重要的研究工具和測試平臺。本文選取非完備信息3D視頻游戲作為研究內(nèi)容的載體,針對非完備信息博弈中狀態(tài)維度和動作空間巨大的特點(diǎn),利用深度神經(jīng)網(wǎng)絡(luò)表征強(qiáng)化學(xué)習(xí)中的價值函數(shù)和策略模型,直接使用原始的游戲畫面作為神經(jīng)網(wǎng)絡(luò)的輸入,有別于傳統(tǒng)強(qiáng)化學(xué)習(xí)算法需要在使用相關(guān)領(lǐng)域知識的前提下,通過任務(wù)建模和人工抽取特征等求解策略的方式。從而解決了傳統(tǒng)方法可擴(kuò)展性差、求解效率低且無法收斂等問題。針對強(qiáng)化學(xué)習(xí)算法中原始策略梯度算法高方差的缺點(diǎn),本文引入基線...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
DQN網(wǎng)絡(luò)結(jié)構(gòu)圖
圖 3-1 采樣價值不穩(wěn)定示意圖解決累積獎勵值不穩(wěn)定的問題,需要考慮轉(zhuǎn)向基于價值迭代的強(qiáng)在基于價值迭代的強(qiáng)化學(xué)習(xí)算法中,狀態(tài)價值函數(shù)和狀態(tài)-動作價要的兩大定義。狀態(tài)價值函數(shù) V ( s) 含義是當(dāng)智能體采取策略 時狀態(tài) s時能夠獲取的累積獎勵值(直到結(jié)束狀態(tài)),用來評估環(huán)境。狀態(tài)-動作函數(shù) Q ( s , a) 描述了當(dāng)智能體處于狀態(tài) s并采取動作 獲得的累積獎勵值,能夠一定程度上衡量動作的優(yōu)劣。,可以發(fā)現(xiàn)狀態(tài)-動作函數(shù)的定義和策略梯度中累計(jì)獎勵值't'Tt t t 算過程是相同的,如公式(3-23)所示。所以就可以將策略梯度方法相結(jié)合。如果用狀態(tài)價值函數(shù)替換累計(jì)獎勵值,則基準(zhǔn) b 的計(jì)算價值函數(shù)。其中最重要的原因是累計(jì)價值的計(jì)算需要有正有負(fù),數(shù)值恰好是狀態(tài)-動作函數(shù)的期望值,這樣一來,不同的動作的累有正有負(fù),符合策略梯度的需求,這一過程如公式(3-24)所示。'Tt t n n n n
作用是估計(jì)演員策略的相應(yīng)價值函數(shù)。常見的做法方法更新策略參數(shù),同時評論家使用某種形式的時數(shù)。該算法通過融合策略梯度和價值迭代方法,相梯度方法的顯著優(yōu)勢在于,評論家的存在減少了策略空間的搜索更加高效且健壯。價值模型融入策勢函數(shù)、狀態(tài)價值函數(shù)和 Q 值函數(shù)等,本文通過態(tài)價值函數(shù)的融合算法。公式(3-27)展示了本文優(yōu)勢函數(shù)的 AC 策略梯度算法。11 11( ) ( ( ) ( )) log ( )N Nn n n n nt t t t ti tJ r V s V s a sN + + 了 AC 算法的流程,首先可以選擇一個初始的隨過程中記錄軌跡的信息。用這些收集到軌跡中包含信息來擬合狀態(tài)價值函數(shù)。接下來利用狀態(tài)價值函新的策略繼續(xù)與環(huán)境進(jìn)行交互。循環(huán)這個過程,
【參考文獻(xiàn)】:
期刊論文
[1]機(jī)器博弈風(fēng)險分析及其估算方法的研究[J]. 張加佳,王軒. 高技術(shù)通訊. 2013 (09)
[2]中國象棋計(jì)算機(jī)博弈開局庫研究與設(shè)計(jì)[J]. 魏欽剛,王驕,徐心和,南曉斐. 智能系統(tǒng)學(xué)報. 2007(01)
[3]中國象棋計(jì)算機(jī)博弈關(guān)鍵技術(shù)分析[J]. 徐心和,王驕. 小型微型計(jì)算機(jī)系統(tǒng). 2006(06)
本文編號:3558391
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
DQN網(wǎng)絡(luò)結(jié)構(gòu)圖
圖 3-1 采樣價值不穩(wěn)定示意圖解決累積獎勵值不穩(wěn)定的問題,需要考慮轉(zhuǎn)向基于價值迭代的強(qiáng)在基于價值迭代的強(qiáng)化學(xué)習(xí)算法中,狀態(tài)價值函數(shù)和狀態(tài)-動作價要的兩大定義。狀態(tài)價值函數(shù) V ( s) 含義是當(dāng)智能體采取策略 時狀態(tài) s時能夠獲取的累積獎勵值(直到結(jié)束狀態(tài)),用來評估環(huán)境。狀態(tài)-動作函數(shù) Q ( s , a) 描述了當(dāng)智能體處于狀態(tài) s并采取動作 獲得的累積獎勵值,能夠一定程度上衡量動作的優(yōu)劣。,可以發(fā)現(xiàn)狀態(tài)-動作函數(shù)的定義和策略梯度中累計(jì)獎勵值't'Tt t t 算過程是相同的,如公式(3-23)所示。所以就可以將策略梯度方法相結(jié)合。如果用狀態(tài)價值函數(shù)替換累計(jì)獎勵值,則基準(zhǔn) b 的計(jì)算價值函數(shù)。其中最重要的原因是累計(jì)價值的計(jì)算需要有正有負(fù),數(shù)值恰好是狀態(tài)-動作函數(shù)的期望值,這樣一來,不同的動作的累有正有負(fù),符合策略梯度的需求,這一過程如公式(3-24)所示。'Tt t n n n n
作用是估計(jì)演員策略的相應(yīng)價值函數(shù)。常見的做法方法更新策略參數(shù),同時評論家使用某種形式的時數(shù)。該算法通過融合策略梯度和價值迭代方法,相梯度方法的顯著優(yōu)勢在于,評論家的存在減少了策略空間的搜索更加高效且健壯。價值模型融入策勢函數(shù)、狀態(tài)價值函數(shù)和 Q 值函數(shù)等,本文通過態(tài)價值函數(shù)的融合算法。公式(3-27)展示了本文優(yōu)勢函數(shù)的 AC 策略梯度算法。11 11( ) ( ( ) ( )) log ( )N Nn n n n nt t t t ti tJ r V s V s a sN + + 了 AC 算法的流程,首先可以選擇一個初始的隨過程中記錄軌跡的信息。用這些收集到軌跡中包含信息來擬合狀態(tài)價值函數(shù)。接下來利用狀態(tài)價值函新的策略繼續(xù)與環(huán)境進(jìn)行交互。循環(huán)這個過程,
【參考文獻(xiàn)】:
期刊論文
[1]機(jī)器博弈風(fēng)險分析及其估算方法的研究[J]. 張加佳,王軒. 高技術(shù)通訊. 2013 (09)
[2]中國象棋計(jì)算機(jī)博弈開局庫研究與設(shè)計(jì)[J]. 魏欽剛,王驕,徐心和,南曉斐. 智能系統(tǒng)學(xué)報. 2007(01)
[3]中國象棋計(jì)算機(jī)博弈關(guān)鍵技術(shù)分析[J]. 徐心和,王驕. 小型微型計(jì)算機(jī)系統(tǒng). 2006(06)
本文編號:3558391
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3558391.html
最近更新
教材專著