基于內(nèi)在獎(jiǎng)勵(lì)和輔助任務(wù)結(jié)合的深度強(qiáng)化學(xué)習(xí)算法研究
發(fā)布時(shí)間:2023-12-26 19:47
人工智能技術(shù)的發(fā)展日新月異,機(jī)器博弈作為其中的熱門研究領(lǐng)域受到了研究者的廣泛關(guān)注。近年來,以深度強(qiáng)化學(xué)習(xí)算法為代表的機(jī)器博弈方法得到了長足的發(fā)展。一方面,Alpha Go等圍棋智能體的成功標(biāo)志著深度強(qiáng)化學(xué)習(xí)算法在完備信息機(jī)器博弈領(lǐng)域已取得了重大突破。另一方面,非完備信息機(jī)器博弈因其復(fù)雜度高、信息感知不完全等特點(diǎn),已成為人工智能領(lǐng)域新的研究焦點(diǎn)。本文主要研究非完備信息條件下三維視頻游戲的策略求解問題。針對(duì)視頻游戲博弈中高維狀態(tài)空間與信息感知不完全的問題,提出了一種基于內(nèi)在獎(jiǎng)勵(lì)策略優(yōu)化算法的深度強(qiáng)化學(xué)習(xí)方法。在該方法中,首先利用限制行動(dòng)策略比值更新幅度的手段緩解了運(yùn)用傳統(tǒng)算法時(shí)產(chǎn)生的高方差、不穩(wěn)定問題。其次,針對(duì)三維場景中較為常見的缺乏環(huán)境反饋獎(jiǎng)勵(lì)值的問題,本文提出了內(nèi)在獎(jiǎng)勵(lì)模型,通過設(shè)計(jì)目標(biāo)映射網(wǎng)絡(luò)與預(yù)測網(wǎng)絡(luò)產(chǎn)生內(nèi)在獎(jiǎng)勵(lì)值彌補(bǔ)環(huán)境反饋獎(jiǎng)勵(lì)值的缺失,輔助智能體進(jìn)行策略更新。最后,考慮到內(nèi)在獎(jiǎng)勵(lì)模型與傳統(tǒng)策略優(yōu)化算法的結(jié)構(gòu)性差異,通過調(diào)整價(jià)值網(wǎng)絡(luò)的結(jié)構(gòu)對(duì)兩者進(jìn)行融合,進(jìn)而提出內(nèi)在獎(jiǎng)勵(lì)策略優(yōu)化算法,提升了智能體在稀疏獎(jiǎng)勵(lì)三維場景中的行動(dòng)效果。從增強(qiáng)智能體對(duì)環(huán)境獎(jiǎng)勵(lì)信息的感知能力和對(duì)強(qiáng)化學(xué)習(xí)狀態(tài)...
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題研究背景和意義
1.1.1 課題研究背景
1.1.2 研究目的和意義
1.2 國內(nèi)外相關(guān)研究及綜述
1.3 主要研究內(nèi)容及組織結(jié)構(gòu)
1.3.1 主要研究內(nèi)容
1.3.2 論文的組織結(jié)構(gòu)
第2章 基于深度強(qiáng)化學(xué)習(xí)的非完備信息博弈
2.1 非完備信息博弈問題簡介
2.1.1 非完備信息博弈的特點(diǎn)
2.1.2 傳統(tǒng)求解方法
2.2 強(qiáng)化學(xué)習(xí)
2.2.1 強(qiáng)化學(xué)習(xí)理論基礎(chǔ)
2.2.2 最優(yōu)策略的時(shí)序差分求解方法
2.3 深度強(qiáng)化學(xué)習(xí)
2.3.1 基于值函數(shù)的方法
2.3.2 基于策略梯度的方法
2.3.3 基于值函數(shù)與策略梯度結(jié)合的方法
2.4 本章小結(jié)
第3章 基于內(nèi)在獎(jiǎng)勵(lì)策略優(yōu)化的博弈決策方法
3.1 策略優(yōu)化算法
3.1.1 現(xiàn)有算法存在的不足
3.1.2 改進(jìn)的策略優(yōu)化算法
3.2 內(nèi)在獎(jiǎng)勵(lì)機(jī)制
3.3 內(nèi)在獎(jiǎng)勵(lì)策略優(yōu)化算法
3.4 本章小結(jié)
第4章 基于輔助任務(wù)學(xué)習(xí)的獎(jiǎng)勵(lì)特征增強(qiáng)方法
4.1 獎(jiǎng)勵(lì)特征增強(qiáng)方法
4.2 輔助任務(wù)學(xué)習(xí)機(jī)制
4.2.1 基于獎(jiǎng)勵(lì)預(yù)測的特征增強(qiáng)方法
4.2.2 基于狀態(tài)價(jià)值的特征增強(qiáng)方法
4.2.3 基于動(dòng)作價(jià)值的特征增強(qiáng)方法
4.3 結(jié)合輔助任務(wù)的內(nèi)在獎(jiǎng)勵(lì)策略優(yōu)化算法
4.4 本章小結(jié)
第5章 智能體的設(shè)計(jì)實(shí)現(xiàn)與實(shí)驗(yàn)分析
5.1 智能體的設(shè)計(jì)實(shí)現(xiàn)
5.1.1 實(shí)驗(yàn)環(huán)境
5.1.2 網(wǎng)絡(luò)結(jié)構(gòu)
5.1.3 Vizdoom場景介紹
5.2 IBPO算法實(shí)驗(yàn)分析
5.2.1 IBPO算法性能對(duì)比
5.2.2 內(nèi)在獎(jiǎng)勵(lì)變化趨勢分析
5.3 AIBPO算法實(shí)驗(yàn)分析
5.3.1 AIBPO算法性能對(duì)比
5.3.2 輔助任務(wù)對(duì)比實(shí)驗(yàn)
5.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝
本文編號(hào):3875444
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題研究背景和意義
1.1.1 課題研究背景
1.1.2 研究目的和意義
1.2 國內(nèi)外相關(guān)研究及綜述
1.3 主要研究內(nèi)容及組織結(jié)構(gòu)
1.3.1 主要研究內(nèi)容
1.3.2 論文的組織結(jié)構(gòu)
第2章 基于深度強(qiáng)化學(xué)習(xí)的非完備信息博弈
2.1 非完備信息博弈問題簡介
2.1.1 非完備信息博弈的特點(diǎn)
2.1.2 傳統(tǒng)求解方法
2.2 強(qiáng)化學(xué)習(xí)
2.2.1 強(qiáng)化學(xué)習(xí)理論基礎(chǔ)
2.2.2 最優(yōu)策略的時(shí)序差分求解方法
2.3 深度強(qiáng)化學(xué)習(xí)
2.3.1 基于值函數(shù)的方法
2.3.2 基于策略梯度的方法
2.3.3 基于值函數(shù)與策略梯度結(jié)合的方法
2.4 本章小結(jié)
第3章 基于內(nèi)在獎(jiǎng)勵(lì)策略優(yōu)化的博弈決策方法
3.1 策略優(yōu)化算法
3.1.1 現(xiàn)有算法存在的不足
3.1.2 改進(jìn)的策略優(yōu)化算法
3.2 內(nèi)在獎(jiǎng)勵(lì)機(jī)制
3.3 內(nèi)在獎(jiǎng)勵(lì)策略優(yōu)化算法
3.4 本章小結(jié)
第4章 基于輔助任務(wù)學(xué)習(xí)的獎(jiǎng)勵(lì)特征增強(qiáng)方法
4.1 獎(jiǎng)勵(lì)特征增強(qiáng)方法
4.2 輔助任務(wù)學(xué)習(xí)機(jī)制
4.2.1 基于獎(jiǎng)勵(lì)預(yù)測的特征增強(qiáng)方法
4.2.2 基于狀態(tài)價(jià)值的特征增強(qiáng)方法
4.2.3 基于動(dòng)作價(jià)值的特征增強(qiáng)方法
4.3 結(jié)合輔助任務(wù)的內(nèi)在獎(jiǎng)勵(lì)策略優(yōu)化算法
4.4 本章小結(jié)
第5章 智能體的設(shè)計(jì)實(shí)現(xiàn)與實(shí)驗(yàn)分析
5.1 智能體的設(shè)計(jì)實(shí)現(xiàn)
5.1.1 實(shí)驗(yàn)環(huán)境
5.1.2 網(wǎng)絡(luò)結(jié)構(gòu)
5.1.3 Vizdoom場景介紹
5.2 IBPO算法實(shí)驗(yàn)分析
5.2.1 IBPO算法性能對(duì)比
5.2.2 內(nèi)在獎(jiǎng)勵(lì)變化趨勢分析
5.3 AIBPO算法實(shí)驗(yàn)分析
5.3.1 AIBPO算法性能對(duì)比
5.3.2 輔助任務(wù)對(duì)比實(shí)驗(yàn)
5.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝
本文編號(hào):3875444
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3875444.html
最近更新
教材專著