天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

基函數(shù)自適應(yīng)的強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的研究

發(fā)布時(shí)間:2020-12-26 20:17
  強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中一個(gè)重要的方向,是智能體通過與環(huán)境交互來學(xué)習(xí)如何行為的方法。強(qiáng)化學(xué)習(xí)過程是一個(gè)以尋找最優(yōu)策略為最終目標(biāo)的過程。策略評價(jià)是對策略好壞的評定,是強(qiáng)化學(xué)習(xí)重要的研究內(nèi)容之一。一般策略評價(jià)算法是基于值函數(shù)進(jìn)行的。值函數(shù)通常是通過線性參數(shù)化的值函數(shù)逼近器估計(jì)的。以往的函數(shù)逼近方法僅僅通過調(diào)節(jié)網(wǎng)絡(luò)權(quán)值來改進(jìn)近似精度,而沒有考慮網(wǎng)絡(luò)中基函數(shù)的參數(shù)。事實(shí)上,值函數(shù)逼近器的基函數(shù)對算法的性能也有很大的影響。一般來說,基函數(shù)中的中心點(diǎn)可以根據(jù)所要解決的問題確定,而基函數(shù)的寬度則較難選擇,經(jīng)常要經(jīng)過多次實(shí)驗(yàn),通過經(jīng)驗(yàn)設(shè)定。本研究利用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)算法,使網(wǎng)絡(luò)中基函數(shù)的寬度可以自適應(yīng)選取,論文的主要研究內(nèi)容包括:1、提出了一種基函數(shù)自適應(yīng)的帶有梯度修正作用的強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)算法。在本算法中,值函數(shù)逼近器中的基函數(shù)的參數(shù)(主要是指基函數(shù)的寬度)是自動調(diào)節(jié)直到最優(yōu)的。其中時(shí)域差分誤差和值函數(shù)由函數(shù)逼近器和帶有梯度修正作用的遞推最小二乘時(shí)域差分算法進(jìn)行估計(jì)。同時(shí),時(shí)域差分誤差反傳來更新值函數(shù)逼近器的參數(shù),也就是網(wǎng)絡(luò)權(quán)值和基函數(shù)寬度。這樣就可以通過一個(gè)自適應(yīng)的方法,使算法在學(xué)習(xí)的過程中... 

【文章來源】:北京化工大學(xué)北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:82 頁

【學(xué)位級別】:碩士

【部分圖文】:

基函數(shù)自適應(yīng)的強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的研究


圖1-1強(qiáng)化學(xué)習(xí)結(jié)構(gòu)框圖??Fig.1-1?Block?diagram?of?reinforcement?learning??

示意圖,策略,迭代,值函數(shù)


另一部分是策略提升,一般來說策略提升利用貪婪法則,也就是尋找最大值函數(shù),??這個(gè)值函數(shù)所對應(yīng)的策略就是提升的策略。這一步相對較簡單。策略評價(jià)和策略提升??依次迭代進(jìn)行,直到算法收斂,我們就得到了最優(yōu)的策略,其過程如圖2-2。??'??^提升的策略????JT??^?r??策略提升?策略評價(jià)??i?k??值函數(shù)????^???Q1??圖2-2強(qiáng)化學(xué)習(xí)策略迭代示意圖??Fig.2-2?Policy?iteration?for?reinforcement?learning??總的來說,策略if價(jià)給策略迭代提供了對于給定的策略的值函數(shù)。而策略提升保??證了選出的策略比原始策略更好。??2.2.4強(qiáng)化學(xué)習(xí)中目標(biāo)函數(shù)??在強(qiáng)化學(xué)習(xí)中,一些目標(biāo)函數(shù)用來實(shí)現(xiàn)梯度下降作用,使得參數(shù)得到修正。最常??見的目標(biāo)函數(shù)就是均方誤差(Mean-square?Error,?MSE)。均方誤差是指通過值函數(shù)逼??近器得到的值函數(shù)的估計(jì)值和它的真實(shí)值的差的二范數(shù),表示如下:??MSE(0)?=?||F,-F||^vtjDv?(2-6)??其中DeRis|x|s|是對角陣,表示向量二范數(shù)的平方。由于在強(qiáng)化學(xué)習(xí)中,真實(shí)的值??函數(shù)是不知道的。因此,上式的計(jì)算無法真正實(shí)現(xiàn)。??但是我們知道值函數(shù)滿足貝爾曼方程

框架圖,框架圖,自適應(yīng),算法


我們提出一種自適應(yīng)的帶有梯度修正作用的遞推最小二乘時(shí)域差分算法??的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在本算法中我們利用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)RC算法,稱為自適應(yīng)RC??網(wǎng)絡(luò)。自適應(yīng)的RC網(wǎng)絡(luò)的結(jié)構(gòu)如圖3-1所示,在本算法中主要由兩部分組成,一部??分是強(qiáng)化學(xué)習(xí)部分,在強(qiáng)化學(xué)習(xí)部分使用RC算法,通過網(wǎng)絡(luò)結(jié)構(gòu)的形式來求解值函??數(shù)和TD誤差中的線性參數(shù)向量,對值函數(shù)和TD誤差進(jìn)行近似求;另一部分就是??網(wǎng)絡(luò)學(xué)習(xí)部分,主要是指網(wǎng)絡(luò)中的參數(shù)學(xué)習(xí),包括網(wǎng)絡(luò)中基函數(shù)的寬度以及網(wǎng)絡(luò)權(quán)值??的更新。在這部分中,TD誤差反傳來調(diào)節(jié)網(wǎng)絡(luò)參數(shù)。本算法使用的網(wǎng)絡(luò)結(jié)構(gòu)是一個(gè)??三層RBF祌經(jīng)網(wǎng)絡(luò),具體各層結(jié)構(gòu)如圖3-1。??第一層是輸入層。在本層,每個(gè)輸入節(jié)點(diǎn)為輸入的狀態(tài)或者狀態(tài)動作的集合以及??回報(bào)值,同時(shí),輸入節(jié)點(diǎn)數(shù)等于輸入特征狀態(tài)的維數(shù)。輸入數(shù)據(jù)直接傳到下一層。??19??

【參考文獻(xiàn)】:
期刊論文
[1]Approximate policy iteration:a survey and somenew methods[J]. Dimitri P.BERTSEKAS.  Journal of Control Theory and Applications. 2011(03)
[2]基于狀態(tài)-動作圖測地高斯基的策略迭代強(qiáng)化學(xué)習(xí)[J]. 程玉虎,馮渙婷,王雪松.  自動化學(xué)報(bào). 2011(01)

碩士論文
[1]正則化快速最小二乘時(shí)域差分算法的研究[D]. 李論通.北京化工大學(xué) 2016



本文編號:2940395

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2940395.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶dad5d***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com