基于內(nèi)在獎勵和輔助任務(wù)結(jié)合的深度強(qiáng)化學(xué)習(xí)算法研究

發(fā)布時(shí)間：2023-12-26 19:47

　　人工智能技術(shù)的發(fā)展日新月異,機(jī)器博弈作為其中的熱門研究領(lǐng)域受到了研究者的廣泛關(guān)注。近年來,以深度強(qiáng)化學(xué)習(xí)算法為代表的機(jī)器博弈方法得到了長足的發(fā)展。一方面,Alpha Go等圍棋智能體的成功標(biāo)志著深度強(qiáng)化學(xué)習(xí)算法在完備信息機(jī)器博弈領(lǐng)域已取得了重大突破。另一方面,非完備信息機(jī)器博弈因其復(fù)雜度高、信息感知不完全等特點(diǎn),已成為人工智能領(lǐng)域新的研究焦點(diǎn)。本文主要研究非完備信息條件下三維視頻游戲的策略求解問題。針對視頻游戲博弈中高維狀態(tài)空間與信息感知不完全的問題,提出了一種基于內(nèi)在獎勵策略優(yōu)化算法的深度強(qiáng)化學(xué)習(xí)方法。在該方法中,首先利用限制行動策略比值更新幅度的手段緩解了運(yùn)用傳統(tǒng)算法時(shí)產(chǎn)生的高方差、不穩(wěn)定問題。其次,針對三維場景中較為常見的缺乏環(huán)境反饋獎勵值的問題,本文提出了內(nèi)在獎勵模型,通過設(shè)計(jì)目標(biāo)映射網(wǎng)絡(luò)與預(yù)測網(wǎng)絡(luò)產(chǎn)生內(nèi)在獎勵值彌補(bǔ)環(huán)境反饋獎勵值的缺失,輔助智能體進(jìn)行策略更新。最后,考慮到內(nèi)在獎勵模型與傳統(tǒng)策略優(yōu)化算法的結(jié)構(gòu)性差異,通過調(diào)整價(jià)值網(wǎng)絡(luò)的結(jié)構(gòu)對兩者進(jìn)行融合,進(jìn)而提出內(nèi)在獎勵策略優(yōu)化算法,提升了智能體在稀疏獎勵三維場景中的行動效果。從增強(qiáng)智能體對環(huán)境獎勵信息的感知能力和對強(qiáng)化學(xué)習(xí)狀態(tài)...

【文章頁數(shù)】：60 頁

【學(xué)位級別】：碩士

【文章目錄】：
摘要
ABSTRACT
第1章緒論
    1.1 課題研究背景和意義
        1.1.1 課題研究背景
        1.1.2 研究目的和意義
    1.2 國內(nèi)外相關(guān)研究及綜述
    1.3 主要研究內(nèi)容及組織結(jié)構(gòu)
        1.3.1 主要研究內(nèi)容
        1.3.2 論文的組織結(jié)構(gòu)
第2章基于深度強(qiáng)化學(xué)習(xí)的非完備信息博弈
    2.1 非完備信息博弈問題簡介
        2.1.1 非完備信息博弈的特點(diǎn)
        2.1.2 傳統(tǒng)求解方法
    2.2 強(qiáng)化學(xué)習(xí)
        2.2.1 強(qiáng)化學(xué)習(xí)理論基礎(chǔ)
        2.2.2 最優(yōu)策略的時(shí)序差分求解方法
    2.3 深度強(qiáng)化學(xué)習(xí)
        2.3.1 基于值函數(shù)的方法
        2.3.2 基于策略梯度的方法
        2.3.3 基于值函數(shù)與策略梯度結(jié)合的方法
    2.4 本章小結(jié)
第3章基于內(nèi)在獎勵策略優(yōu)化的博弈決策方法
    3.1 策略優(yōu)化算法
        3.1.1 現(xiàn)有算法存在的不足
        3.1.2 改進(jìn)的策略優(yōu)化算法
    3.2 內(nèi)在獎勵機(jī)制
    3.3 內(nèi)在獎勵策略優(yōu)化算法
    3.4 本章小結(jié)
第4章基于輔助任務(wù)學(xué)習(xí)的獎勵特征增強(qiáng)方法
    4.1 獎勵特征增強(qiáng)方法
    4.2 輔助任務(wù)學(xué)習(xí)機(jī)制
        4.2.1 基于獎勵預(yù)測的特征增強(qiáng)方法
        4.2.2 基于狀態(tài)價(jià)值的特征增強(qiáng)方法
        4.2.3 基于動作價(jià)值的特征增強(qiáng)方法
    4.3 結(jié)合輔助任務(wù)的內(nèi)在獎勵策略優(yōu)化算法
    4.4 本章小結(jié)
第5章智能體的設(shè)計(jì)實(shí)現(xiàn)與實(shí)驗(yàn)分析
    5.1 智能體的設(shè)計(jì)實(shí)現(xiàn)
        5.1.1 實(shí)驗(yàn)環(huán)境
        5.1.2 網(wǎng)絡(luò)結(jié)構(gòu)
        5.1.3 Vizdoom場景介紹
    5.2 IBPO算法實(shí)驗(yàn)分析
        5.2.1 IBPO算法性能對比
        5.2.2 內(nèi)在獎勵變化趨勢分析
    5.3 AIBPO算法實(shí)驗(yàn)分析
        5.3.1 AIBPO算法性能對比
        5.3.2 輔助任務(wù)對比實(shí)驗(yàn)
    5.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝

本文編號：3875444

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3875444.html

上一篇：GB/T 28181在地鐵車載監(jiān)控系統(tǒng)中的應(yīng)用
下一篇：基于模式調(diào)制濾波的波前復(fù)原研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于內(nèi)在獎勵和輔助任務(wù)結(jié)合的深度強(qiáng)化學(xué)習(xí)算法研究