基于負(fù)相關(guān)搜索的演化強(qiáng)化學(xué)習(xí)算法研究
發(fā)布時(shí)間:2023-02-08 19:19
作為機(jī)器學(xué)習(xí)中的一個(gè)主要分支,強(qiáng)化學(xué)習(xí)從智能體和環(huán)境之間的交互數(shù)據(jù)中學(xué)習(xí)最優(yōu)控制策略。通過計(jì)算目標(biāo)函數(shù)對(duì)策略參數(shù)的導(dǎo)數(shù)一直是解決強(qiáng)化學(xué)習(xí)問題的主流方向,近年來(lái)基于演化算法的強(qiáng)化學(xué)習(xí)算法不斷涌現(xiàn)。相較于梯度算法,演化算法一方面不需要計(jì)算梯度,縮短了訓(xùn)練時(shí)間;另一方面演化算法能夠很好的進(jìn)行并行化,運(yùn)行效率更高。演化算法雖然能在短時(shí)間內(nèi)完成模型的訓(xùn)練,但是訓(xùn)練過程需要和環(huán)境交互的次數(shù)遠(yuǎn)遠(yuǎn)高于梯度強(qiáng)化學(xué)習(xí)算法。對(duì)于強(qiáng)化學(xué)習(xí)問題,與環(huán)境的交互是需要一定成本的,尤其是在現(xiàn)實(shí)問題上的應(yīng)用,如強(qiáng)化學(xué)習(xí)應(yīng)用于機(jī)器人操縱上,在訓(xùn)練一開始模型失敗的可能性很高,很可能出現(xiàn)機(jī)器人損壞或者其他消耗。因此我們希望通過對(duì)強(qiáng)化學(xué)習(xí)算法的改進(jìn)來(lái)減少智能體和環(huán)境的交互次數(shù),或者在相同交互次數(shù)限制下得到更好的性能。本文的兩個(gè)工作都基于負(fù)相關(guān)搜索思想,利用其在目標(biāo)空間多個(gè)不同區(qū)域同時(shí)搜索的特性和在搜索行為層次上為演化提供的多樣性來(lái)提升算法的性能。在論文的第一個(gè)工作中,我們將負(fù)相關(guān)搜索思想和自然演化策略算法相結(jié)合,提出了負(fù)相關(guān)自然演化策略算法NCNES。NCNES算法的基本設(shè)計(jì)基于自然演化策略算法框架,我們根據(jù)負(fù)相關(guān)搜索思想,設(shè)...
【文章頁(yè)數(shù)】:72 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 強(qiáng)化學(xué)習(xí)的發(fā)展和研究現(xiàn)狀
1.2.2 演化強(qiáng)化學(xué)習(xí)的研究現(xiàn)狀
1.3 本論文的研究?jī)?nèi)容和創(chuàng)新
1.4 本論文的組織結(jié)構(gòu)
第2章 相關(guān)工作
2.1 強(qiáng)化學(xué)習(xí)問題定義
2.2 強(qiáng)化學(xué)習(xí)基本算法
2.3 梯度強(qiáng)化學(xué)習(xí)典型算法
2.3.1 A3C
2.3.2 PPO
2.4 演化強(qiáng)化學(xué)習(xí)算法綜述
2.4.1 演化策略模型參數(shù)
2.4.2 演化策略模型結(jié)構(gòu)
2.4.3 演化策略模型結(jié)構(gòu)與參數(shù)
2.4.4 其他類
2.5 本章小結(jié)
第3章 基于NCS和 NES的演化強(qiáng)化學(xué)習(xí)算法
3.1 自然演化策略算法
3.2 負(fù)相關(guān)搜索算法
3.3 算法設(shè)計(jì)
3.4 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
3.4.1 測(cè)試環(huán)境
3.4.2 對(duì)比算法
3.4.3 實(shí)驗(yàn)配置
3.4.4 實(shí)驗(yàn)方法和結(jié)果分析
3.5 本章小結(jié)
第4章 基于CC和NCS的演化強(qiáng)化學(xué)習(xí)算法
4.1 維度災(zāi)難
4.2 合作式協(xié)同演化算法
4.3 算法設(shè)計(jì)
4.4 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
4.4.1 測(cè)試環(huán)境
4.4.2 對(duì)比算法
4.4.3 實(shí)驗(yàn)配置
4.4.4 實(shí)驗(yàn)方法與結(jié)果分析
4.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝
本文編號(hào):3738230
【文章頁(yè)數(shù)】:72 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 強(qiáng)化學(xué)習(xí)的發(fā)展和研究現(xiàn)狀
1.2.2 演化強(qiáng)化學(xué)習(xí)的研究現(xiàn)狀
1.3 本論文的研究?jī)?nèi)容和創(chuàng)新
1.4 本論文的組織結(jié)構(gòu)
第2章 相關(guān)工作
2.1 強(qiáng)化學(xué)習(xí)問題定義
2.2 強(qiáng)化學(xué)習(xí)基本算法
2.3 梯度強(qiáng)化學(xué)習(xí)典型算法
2.3.1 A3C
2.3.2 PPO
2.4 演化強(qiáng)化學(xué)習(xí)算法綜述
2.4.1 演化策略模型參數(shù)
2.4.2 演化策略模型結(jié)構(gòu)
2.4.3 演化策略模型結(jié)構(gòu)與參數(shù)
2.4.4 其他類
2.5 本章小結(jié)
第3章 基于NCS和 NES的演化強(qiáng)化學(xué)習(xí)算法
3.1 自然演化策略算法
3.2 負(fù)相關(guān)搜索算法
3.3 算法設(shè)計(jì)
3.4 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
3.4.1 測(cè)試環(huán)境
3.4.2 對(duì)比算法
3.4.3 實(shí)驗(yàn)配置
3.4.4 實(shí)驗(yàn)方法和結(jié)果分析
3.5 本章小結(jié)
第4章 基于CC和NCS的演化強(qiáng)化學(xué)習(xí)算法
4.1 維度災(zāi)難
4.2 合作式協(xié)同演化算法
4.3 算法設(shè)計(jì)
4.4 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
4.4.1 測(cè)試環(huán)境
4.4.2 對(duì)比算法
4.4.3 實(shí)驗(yàn)配置
4.4.4 實(shí)驗(yàn)方法與結(jié)果分析
4.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝
本文編號(hào):3738230
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3738230.html
最近更新
教材專著