天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動(dòng)化論文 >

基于內(nèi)在獎(jiǎng)勵(lì)和輔助任務(wù)結(jié)合的深度強(qiáng)化學(xué)習(xí)算法研究

發(fā)布時(shí)間:2023-12-26 19:47
  人工智能技術(shù)的發(fā)展日新月異,機(jī)器博弈作為其中的熱門研究領(lǐng)域受到了研究者的廣泛關(guān)注。近年來,以深度強(qiáng)化學(xué)習(xí)算法為代表的機(jī)器博弈方法得到了長足的發(fā)展。一方面,Alpha Go等圍棋智能體的成功標(biāo)志著深度強(qiáng)化學(xué)習(xí)算法在完備信息機(jī)器博弈領(lǐng)域已取得了重大突破。另一方面,非完備信息機(jī)器博弈因其復(fù)雜度高、信息感知不完全等特點(diǎn),已成為人工智能領(lǐng)域新的研究焦點(diǎn)。本文主要研究非完備信息條件下三維視頻游戲的策略求解問題。針對(duì)視頻游戲博弈中高維狀態(tài)空間與信息感知不完全的問題,提出了一種基于內(nèi)在獎(jiǎng)勵(lì)策略優(yōu)化算法的深度強(qiáng)化學(xué)習(xí)方法。在該方法中,首先利用限制行動(dòng)策略比值更新幅度的手段緩解了運(yùn)用傳統(tǒng)算法時(shí)產(chǎn)生的高方差、不穩(wěn)定問題。其次,針對(duì)三維場景中較為常見的缺乏環(huán)境反饋獎(jiǎng)勵(lì)值的問題,本文提出了內(nèi)在獎(jiǎng)勵(lì)模型,通過設(shè)計(jì)目標(biāo)映射網(wǎng)絡(luò)與預(yù)測網(wǎng)絡(luò)產(chǎn)生內(nèi)在獎(jiǎng)勵(lì)值彌補(bǔ)環(huán)境反饋獎(jiǎng)勵(lì)值的缺失,輔助智能體進(jìn)行策略更新。最后,考慮到內(nèi)在獎(jiǎng)勵(lì)模型與傳統(tǒng)策略優(yōu)化算法的結(jié)構(gòu)性差異,通過調(diào)整價(jià)值網(wǎng)絡(luò)的結(jié)構(gòu)對(duì)兩者進(jìn)行融合,進(jìn)而提出內(nèi)在獎(jiǎng)勵(lì)策略優(yōu)化算法,提升了智能體在稀疏獎(jiǎng)勵(lì)三維場景中的行動(dòng)效果。從增強(qiáng)智能體對(duì)環(huán)境獎(jiǎng)勵(lì)信息的感知能力和對(duì)強(qiáng)化學(xué)習(xí)狀態(tài)...

【文章頁數(shù)】:60 頁

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
ABSTRACT
第1章 緒論
    1.1 課題研究背景和意義
        1.1.1 課題研究背景
        1.1.2 研究目的和意義
    1.2 國內(nèi)外相關(guān)研究及綜述
    1.3 主要研究內(nèi)容及組織結(jié)構(gòu)
        1.3.1 主要研究內(nèi)容
        1.3.2 論文的組織結(jié)構(gòu)
第2章 基于深度強(qiáng)化學(xué)習(xí)的非完備信息博弈
    2.1 非完備信息博弈問題簡介
        2.1.1 非完備信息博弈的特點(diǎn)
        2.1.2 傳統(tǒng)求解方法
    2.2 強(qiáng)化學(xué)習(xí)
        2.2.1 強(qiáng)化學(xué)習(xí)理論基礎(chǔ)
        2.2.2 最優(yōu)策略的時(shí)序差分求解方法
    2.3 深度強(qiáng)化學(xué)習(xí)
        2.3.1 基于值函數(shù)的方法
        2.3.2 基于策略梯度的方法
        2.3.3 基于值函數(shù)與策略梯度結(jié)合的方法
    2.4 本章小結(jié)
第3章 基于內(nèi)在獎(jiǎng)勵(lì)策略優(yōu)化的博弈決策方法
    3.1 策略優(yōu)化算法
        3.1.1 現(xiàn)有算法存在的不足
        3.1.2 改進(jìn)的策略優(yōu)化算法
    3.2 內(nèi)在獎(jiǎng)勵(lì)機(jī)制
    3.3 內(nèi)在獎(jiǎng)勵(lì)策略優(yōu)化算法
    3.4 本章小結(jié)
第4章 基于輔助任務(wù)學(xué)習(xí)的獎(jiǎng)勵(lì)特征增強(qiáng)方法
    4.1 獎(jiǎng)勵(lì)特征增強(qiáng)方法
    4.2 輔助任務(wù)學(xué)習(xí)機(jī)制
        4.2.1 基于獎(jiǎng)勵(lì)預(yù)測的特征增強(qiáng)方法
        4.2.2 基于狀態(tài)價(jià)值的特征增強(qiáng)方法
        4.2.3 基于動(dòng)作價(jià)值的特征增強(qiáng)方法
    4.3 結(jié)合輔助任務(wù)的內(nèi)在獎(jiǎng)勵(lì)策略優(yōu)化算法
    4.4 本章小結(jié)
第5章 智能體的設(shè)計(jì)實(shí)現(xiàn)與實(shí)驗(yàn)分析
    5.1 智能體的設(shè)計(jì)實(shí)現(xiàn)
        5.1.1 實(shí)驗(yàn)環(huán)境
        5.1.2 網(wǎng)絡(luò)結(jié)構(gòu)
        5.1.3 Vizdoom場景介紹
    5.2 IBPO算法實(shí)驗(yàn)分析
        5.2.1 IBPO算法性能對(duì)比
        5.2.2 內(nèi)在獎(jiǎng)勵(lì)變化趨勢分析
    5.3 AIBPO算法實(shí)驗(yàn)分析
        5.3.1 AIBPO算法性能對(duì)比
        5.3.2 輔助任務(wù)對(duì)比實(shí)驗(yàn)
    5.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝



本文編號(hào):3875444

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3875444.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8a9cb***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
九九热视频网在线观看| 欧美一级内射一色桃子| 日韩毛片视频免费观看| 日本99精品在线观看| 日韩性生活视频免费在线观看| 精品欧美在线观看国产| 熟女免费视频一区二区| 日韩美女偷拍视频久久| 在线一区二区免费的视频| 国产亚洲成av人在线观看| 国产又长又粗又爽免费视频| 九九热这里只有精品视频| 免费福利午夜在线观看| 成人午夜爽爽爽免费视频| 粗暴蹂躏中文一区二区三区| 国产内射在线激情一区| 熟女一区二区三区国产| 国产成人人人97超碰熟女| 成人免费在线视频大香蕉| 久久热九九这里只有精品| 日韩免费国产91在线| 一区二区免费视频中文乱码国产| 亚洲中文字幕高清乱码毛片| 国产精品一区二区丝袜| 欧美国产亚洲一区二区三区| 国产亚洲欧美另类久久久| 日本少妇aa特黄大片| 久久精品国产熟女精品| 亚洲成人精品免费在线观看 | 亚洲伦片免费偷拍一区| 91精品国产av一区二区| 日韩人妻精品免费一区二区三区| 91亚洲国产成人久久精品麻豆| 欧美综合色婷婷欧美激情| 久七久精品视频黄色的| 91久久精品国产成人| 视频在线免费观看你懂的| 一区二区三区四区亚洲另类| 高潮少妇高潮久久精品99| 成人精品视频在线观看不卡| 日韩毛片视频免费观看|