天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

增量式雙自然策略梯度的行動(dòng)者評(píng)論家算法

發(fā)布時(shí)間:2018-08-13 19:02
【摘要】:針對(duì)強(qiáng)化學(xué)習(xí)中已有連續(xù)動(dòng)作空間算法未能充分考慮最優(yōu)動(dòng)作的選取方法和利用動(dòng)作空間的知識(shí),提出一種對(duì)自然梯度進(jìn)行改進(jìn)的行動(dòng)者評(píng)論家算法。該算法采用最大化期望回報(bào)作為目標(biāo)函數(shù),對(duì)動(dòng)作區(qū)間上界和下界進(jìn)行加權(quán)來求最優(yōu)動(dòng)作,然后通過線性函數(shù)逼近器來近似動(dòng)作區(qū)間上下界的權(quán)值,將最優(yōu)動(dòng)作求解轉(zhuǎn)換為對(duì)雙策略參數(shù)向量的求解。為了加快上下界的參數(shù)向量學(xué)習(xí)速率,設(shè)計(jì)了增量的Fisher信息矩陣和動(dòng)作上下界權(quán)值的資格跡,并定義了雙策略梯度的增量式自然行動(dòng)者評(píng)論家算法。為了證明該算法的有效性,將該算法與其他連續(xù)動(dòng)作空間的經(jīng)典強(qiáng)化學(xué)習(xí)算法在3個(gè)強(qiáng)化學(xué)習(xí)的經(jīng)典測(cè)試實(shí)驗(yàn)中進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,所提算法具有收斂速度快和收斂穩(wěn)定性好的優(yōu)點(diǎn)。
[Abstract]:In view of the fact that the continuous action space algorithm in reinforcement learning has not fully considered the selection method of optimal action and the knowledge of action space, an actor critic algorithm is proposed to improve the natural gradient. In this algorithm, the maximum expected return is used as the objective function, the upper and lower bounds of the action interval are weighted to obtain the optimal action, and then the weights of the upper and lower bounds of the action interval are approximated by a linear function approximator. The optimal action solution is converted to the solution of the dual strategy parameter vector. In order to speed up the learning rate of the upper and lower bound parameter vectors, the incremental Fisher information matrix and the qualification trace of the upper and lower bound weights of the action are designed, and the dual strategy gradient incremental natural action critic algorithm is defined. In order to prove the effectiveness of this algorithm, the algorithm is compared with other classical reinforcement learning algorithms in continuous action space in three classical test experiments of reinforcement learning. Experimental results show that the proposed algorithm has the advantages of fast convergence speed and good convergence stability.
【作者單位】: 蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心;吉林大學(xué)符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室;
【基金】:國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61272005,No.61303108,No.61373094,No.61472262,No.61502323,No.61502329) 江蘇省自然科學(xué)基金資助項(xiàng)目(No.BK2012616) 江蘇省高校自然科學(xué)研究基金資助項(xiàng)目(No.13KJB520020) 吉林大學(xué)符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室基金資助項(xiàng)目(No.93K172014K04) 蘇州市應(yīng)用基礎(chǔ)研究計(jì)劃工業(yè)部分基金資助項(xiàng)目(No.SYG201422,No.SYG201308)~~
【分類號(hào)】:TP181

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 王靖亞;;算法結(jié)構(gòu)對(duì)其性能的影響研究[J];中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年04期

2 Белый А.А.;к.Ф.-м.н.Бовбелъ Е.И.;к.т.н.Микулович В.И.;張至德;;快速付立葉變換的各種算法及其特性[J];現(xiàn)代雷達(dá);1981年01期

3 何璞,張平;分裂基算法的討論[J];現(xiàn)代電子技術(shù);2003年18期

4 李玉峰;一種利用符號(hào)算法的自適應(yīng)圖象位移估計(jì)算法[J];電子學(xué)報(bào);1991年04期

5 王威;胡斌;董鵬;楊超;;軍械調(diào)運(yùn)方案優(yōu)化算法的設(shè)計(jì)與仿真[J];微計(jì)算機(jī)信息;2006年19期

6 宋楊;張玉清;;結(jié)構(gòu)化比對(duì)算法研究及軟件實(shí)現(xiàn)[J];中國(guó)科學(xué)院研究生院學(xué)報(bào);2009年04期

7 鄢靖豐;;一種改進(jìn)的人工蜂群算法及其應(yīng)用研究[J];許昌學(xué)院學(xué)報(bào);2013年02期

8 程渭呂;通信及信號(hào)處理用的新算法[J];上海航天;1985年01期

9 楊世達(dá);易亞林;單志勇;李慶華;;蜜蜂進(jìn)化型的類電磁機(jī)制算法[J];計(jì)算機(jī)工程與應(yīng)用;2013年06期

10 郭福順 ,高鐵軍;抽象數(shù)據(jù)型與一類表達(dá)式的化簡(jiǎn)[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);1985年A3期

相關(guān)會(huì)議論文 前9條

1 劉明蘭;王玲t(yī) ;曾春年;鐘紹華;張俊;;雙模自組織Fuzzy-Dahlin算法研究[A];1997中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];1997年

2 胡海清;;序列最小優(yōu)化及其改進(jìn)算法[A];第十屆中國(guó)科協(xié)年會(huì)信息化與社會(huì)發(fā)展學(xué)術(shù)討論會(huì)分會(huì)場(chǎng)論文集[C];2008年

3 王春厚;許都;孫健;;一種降低誤判率的BF快速匹配算法結(jié)構(gòu)[A];2010年全國(guó)通信安全學(xué)術(shù)會(huì)議論文集[C];2010年

4 桑紅燕;潘全科;任立群;;解決單機(jī)準(zhǔn)時(shí)排序問題的差異進(jìn)化算法[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年

5 周川;張璐;陳慶偉;;基于神經(jīng)網(wǎng)絡(luò)PID的智能AQM新算法[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年

6 陳小林;趙建;王延杰;;多模實(shí)時(shí)跟蹤算法研究[A];第七屆全國(guó)信息獲取與處理學(xué)術(shù)會(huì)議論文集[C];2009年

7 傅薈璇;王宇超;孫楓;;融合Kalman濾波的自適應(yīng)帶寬Mean Shift算法[A];2011年中國(guó)智能自動(dòng)化學(xué)術(shù)會(huì)議論文集(第一分冊(cè))[C];2011年

8 羌磊;肖田元;宋士吉;;多種群模式協(xié)同搜索貝葉斯優(yōu)化算法[A];第25屆中國(guó)控制會(huì)議論文集(中冊(cè))[C];2006年

9 阮秀凱;張志涌;;一種基于支持向量回歸的盲恢復(fù)新算法[A];2009年中國(guó)智能自動(dòng)化會(huì)議論文集(第七分冊(cè))[南京理工大學(xué)學(xué)報(bào)(增刊)][C];2009年

相關(guān)博士學(xué)位論文 前10條

1 陳貴濤;基于CMAES雜交算法的鋼筋混凝土框架結(jié)構(gòu)優(yōu)化設(shè)計(jì)研究[D];華南理工大學(xué);2014年

2 杜新鵬;聯(lián)合稀疏恢復(fù)新型算法及其應(yīng)用研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2013年

3 李大威;基于集成學(xué)習(xí)的高分遙感圖像玉米區(qū)高精度提取算法研究[D];中北大學(xué);2017年

4 李向濤;進(jìn)化算法研究及其在化學(xué)信息學(xué)中的應(yīng)用[D];東北師范大學(xué);2015年

5 許偉;基于進(jìn)化算法的復(fù)雜化工過程智能建模方法及其應(yīng)用[D];華東理工大學(xué);2011年

6 鄭友蓮;面向模糊車間調(diào)度問題的智能算法研究[D];武漢大學(xué);2011年

7 高健;分布式環(huán)境的同順序流水作業(yè)問題求解算法研究[D];大連海事大學(xué);2013年

8 畢云龍;自適應(yīng)聲學(xué)回聲抑制算法研究及其VLSI芯片設(shè)計(jì)[D];哈爾濱工業(yè)大學(xué);2010年

9 趙立權(quán);ICA算法及其在陣列信號(hào)處理中的應(yīng)用研究[D];哈爾濱工程大學(xué);2009年

10 鄒德旋;啟發(fā)式算法及其在工程優(yōu)化中的應(yīng)用[D];東北大學(xué);2011年

相關(guān)碩士學(xué)位論文 前10條

1 和夢(mèng)思;粒子群進(jìn)化算法的改進(jìn)及應(yīng)用[D];深圳大學(xué);2015年

2 王金明;基于AES和LSB算法的信息隱藏模塊研究與設(shè)計(jì)[D];貴州大學(xué);2015年

3 許崢;自適應(yīng)PID算法在減水劑生產(chǎn)控制中的研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2015年

4 賈寧寧;復(fù)雜網(wǎng)絡(luò)中社團(tuán)發(fā)現(xiàn)算法研究及應(yīng)用[D];石家莊鐵道大學(xué);2015年

5 龐德艷;非光滑方程的算法及其應(yīng)用[D];青島大學(xué);2015年

6 李倩;基于膜計(jì)算的黑洞聚類算法研究[D];西華大學(xué);2015年

7 劉建;無線傳感器網(wǎng)絡(luò)鏈?zhǔn)铰酚伤惴╗D];廣西師范大學(xué);2015年

8 楊葛;基于本體的程序代碼資源算法結(jié)構(gòu)關(guān)聯(lián)研究[D];東華大學(xué);2013年

9 褚夫飛;基于改進(jìn)人工蜂群算法的分散式風(fēng)功率預(yù)測(cè)方法研究[D];東北大學(xué);2014年

10 王耀輝;蜂群算法應(yīng)用研究[D];福州大學(xué);2013年

,

本文編號(hào):2181894

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2181894.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f8487***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com