面向?qū)崟r(shí)策略游戲微操的智能博弈決策方法
發(fā)布時(shí)間:2023-10-06 11:44
實(shí)時(shí)策略(Real-time Strategy,RTS)游戲微操是指操縱多個(gè)戰(zhàn)斗單元以贏得遭遇戰(zhàn)勝利,屬于同步博弈問題,是人工智能(Artificial Intelligence,AI)領(lǐng)域最具挑戰(zhàn)性的研究方向之一,F(xiàn)有解決方法主要分為搜索方法和多智能體深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Leaning,DRL)兩種,分別通過在線搜索、環(huán)境交互式學(xué)習(xí)完成決策。在面對(duì)大規(guī)模戰(zhàn)斗場(chǎng)景時(shí),前者存在搜索效率下降和搜索空間有限的問題,后者存在學(xué)習(xí)困難和泛化性弱的問題,均難以保證決策性能。結(jié)合深度學(xué)習(xí)、蒙特卡洛樹搜索(Monte Carlo Tree Search,MCTS)的思路在棋類問題上取得了巨大成功,為解決此問題提供機(jī)遇。本文融合學(xué)習(xí)與搜索的優(yōu)勢(shì),由學(xué)習(xí)模型引導(dǎo)搜索過程,盡可能地搜索大概率存在最優(yōu)解的動(dòng)作空間。因此,先進(jìn)行多智能體聯(lián)合動(dòng)作的端到端學(xué)習(xí),再進(jìn)行學(xué)習(xí)模型指導(dǎo)下的搜索決策。針對(duì)多智能體聯(lián)合動(dòng)作的端到端學(xué)習(xí),通過特征設(shè)計(jì)和特征編碼完成了狀態(tài)表達(dá),參考動(dòng)作精煉思路完成了動(dòng)作表達(dá),提出了基于卷積神經(jīng)網(wǎng)絡(luò)的聯(lián)合策略網(wǎng)絡(luò)(Joint Policy Network,JPN)。...
【文章頁數(shù)】:85 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 課題研究背景
1.2 課題研究意義
1.3 國內(nèi)外研究現(xiàn)狀
1.3.1 面向?qū)崟r(shí)策略游戲微操的搜索方法
1.3.2 面向?qū)崟r(shí)策略游戲微操的強(qiáng)化學(xué)習(xí)方法
1.4 本文研究工作
1.5 章節(jié)安排
第2章 相關(guān)理論與技術(shù)
2.1 深度學(xué)習(xí)簡(jiǎn)介
2.1.1 深度神經(jīng)網(wǎng)絡(luò)
2.1.2 模型優(yōu)化算法
2.2 強(qiáng)化學(xué)習(xí)簡(jiǎn)介
2.2.1 強(qiáng)化學(xué)習(xí)原理
2.2.2 常見強(qiáng)化學(xué)習(xí)算法
2.3 面向?qū)崟r(shí)策略游戲微操的搜索方法
2.3.1 蒙特卡洛樹搜索方法
2.3.2 組合貪婪搜索方法
2.3.3 組合在線演化方法
2.3.4 分層策略選擇方法
2.4 面向?qū)崟r(shí)策略游戲微操的多智能體強(qiáng)化學(xué)習(xí)方法
2.4.1 BiCNet方法
2.4.2 OGTL方法
2.4.3 PS-MAGDS方法
2.4.4 IC3Net方法
2.5 本章小結(jié)
第3章 實(shí)時(shí)策略游戲微操問題
3.1 問題描述
3.1.1 數(shù)學(xué)描述
3.1.2 結(jié)合機(jī)器學(xué)習(xí)與搜索的算法框架
3.2 實(shí)驗(yàn)評(píng)估方法
3.2.1 實(shí)驗(yàn)平臺(tái)概述
3.2.2 性能評(píng)估
3.2.3 實(shí)驗(yàn)環(huán)境搭建
3.3 本章小結(jié)
第4章 基于卷積神經(jīng)網(wǎng)絡(luò)的聯(lián)合策略網(wǎng)絡(luò)
4.1 引言
4.2 算法概述
4.3 狀態(tài)表達(dá)
4.4 動(dòng)作表達(dá)
4.5 基于卷積神經(jīng)網(wǎng)絡(luò)的聯(lián)合策略網(wǎng)絡(luò)
4.5.1 模型結(jié)構(gòu)設(shè)計(jì)
4.5.2 損失函數(shù)
4.6 實(shí)驗(yàn)及分析
4.6.1 基本設(shè)置
4.6.2 數(shù)據(jù)集構(gòu)建
4.6.3 模型訓(xùn)練
4.6.4 模型預(yù)測(cè)性能評(píng)估
4.6.5 模型決策性能評(píng)估
4.6.6 模型耗時(shí)分析
4.7 本章小結(jié)
第5章 結(jié)合深度學(xué)習(xí)與搜索的智能博弈決策方法
5.1 引言
5.2 算法概述
5.3 改進(jìn)搜索方法
5.3.1 融合聯(lián)合策略網(wǎng)絡(luò)的組合貪婪搜索
5.3.2 融合聯(lián)合策略網(wǎng)絡(luò)的組合在線搜索
5.3.3 融合聯(lián)合策略網(wǎng)絡(luò)的自適應(yīng)策略選擇
5.4 實(shí)驗(yàn)及分析
5.4.1 實(shí)驗(yàn)基本設(shè)置
5.4.2 算法決策性能評(píng)估
5.4.3 算法性能增益評(píng)估
5.4.4 結(jié)合機(jī)制有效性驗(yàn)證
5.5 本章小結(jié)
第6章 總結(jié)與展望
6.1 論文總結(jié)
6.2 未來展望
參考文獻(xiàn)
致謝
在讀期間發(fā)表的學(xué)術(shù)論文與取得的研究成果
本文編號(hào):3851789
【文章頁數(shù)】:85 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 課題研究背景
1.2 課題研究意義
1.3 國內(nèi)外研究現(xiàn)狀
1.3.1 面向?qū)崟r(shí)策略游戲微操的搜索方法
1.3.2 面向?qū)崟r(shí)策略游戲微操的強(qiáng)化學(xué)習(xí)方法
1.4 本文研究工作
1.5 章節(jié)安排
第2章 相關(guān)理論與技術(shù)
2.1 深度學(xué)習(xí)簡(jiǎn)介
2.1.1 深度神經(jīng)網(wǎng)絡(luò)
2.1.2 模型優(yōu)化算法
2.2 強(qiáng)化學(xué)習(xí)簡(jiǎn)介
2.2.1 強(qiáng)化學(xué)習(xí)原理
2.2.2 常見強(qiáng)化學(xué)習(xí)算法
2.3 面向?qū)崟r(shí)策略游戲微操的搜索方法
2.3.1 蒙特卡洛樹搜索方法
2.3.2 組合貪婪搜索方法
2.3.3 組合在線演化方法
2.3.4 分層策略選擇方法
2.4 面向?qū)崟r(shí)策略游戲微操的多智能體強(qiáng)化學(xué)習(xí)方法
2.4.1 BiCNet方法
2.4.2 OGTL方法
2.4.3 PS-MAGDS方法
2.4.4 IC3Net方法
2.5 本章小結(jié)
第3章 實(shí)時(shí)策略游戲微操問題
3.1 問題描述
3.1.1 數(shù)學(xué)描述
3.1.2 結(jié)合機(jī)器學(xué)習(xí)與搜索的算法框架
3.2 實(shí)驗(yàn)評(píng)估方法
3.2.1 實(shí)驗(yàn)平臺(tái)概述
3.2.2 性能評(píng)估
3.2.3 實(shí)驗(yàn)環(huán)境搭建
3.3 本章小結(jié)
第4章 基于卷積神經(jīng)網(wǎng)絡(luò)的聯(lián)合策略網(wǎng)絡(luò)
4.1 引言
4.2 算法概述
4.3 狀態(tài)表達(dá)
4.4 動(dòng)作表達(dá)
4.5 基于卷積神經(jīng)網(wǎng)絡(luò)的聯(lián)合策略網(wǎng)絡(luò)
4.5.1 模型結(jié)構(gòu)設(shè)計(jì)
4.5.2 損失函數(shù)
4.6 實(shí)驗(yàn)及分析
4.6.1 基本設(shè)置
4.6.2 數(shù)據(jù)集構(gòu)建
4.6.3 模型訓(xùn)練
4.6.4 模型預(yù)測(cè)性能評(píng)估
4.6.5 模型決策性能評(píng)估
4.6.6 模型耗時(shí)分析
4.7 本章小結(jié)
第5章 結(jié)合深度學(xué)習(xí)與搜索的智能博弈決策方法
5.1 引言
5.2 算法概述
5.3 改進(jìn)搜索方法
5.3.1 融合聯(lián)合策略網(wǎng)絡(luò)的組合貪婪搜索
5.3.2 融合聯(lián)合策略網(wǎng)絡(luò)的組合在線搜索
5.3.3 融合聯(lián)合策略網(wǎng)絡(luò)的自適應(yīng)策略選擇
5.4 實(shí)驗(yàn)及分析
5.4.1 實(shí)驗(yàn)基本設(shè)置
5.4.2 算法決策性能評(píng)估
5.4.3 算法性能增益評(píng)估
5.4.4 結(jié)合機(jī)制有效性驗(yàn)證
5.5 本章小結(jié)
第6章 總結(jié)與展望
6.1 論文總結(jié)
6.2 未來展望
參考文獻(xiàn)
致謝
在讀期間發(fā)表的學(xué)術(shù)論文與取得的研究成果
本文編號(hào):3851789
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3851789.html
最近更新
教材專著