增量式雙自然策略梯度的行動(dòng)者評(píng)論家算法
[Abstract]:In view of the fact that the continuous action space algorithm in reinforcement learning has not fully considered the selection method of optimal action and the knowledge of action space, an actor critic algorithm is proposed to improve the natural gradient. In this algorithm, the maximum expected return is used as the objective function, the upper and lower bounds of the action interval are weighted to obtain the optimal action, and then the weights of the upper and lower bounds of the action interval are approximated by a linear function approximator. The optimal action solution is converted to the solution of the dual strategy parameter vector. In order to speed up the learning rate of the upper and lower bound parameter vectors, the incremental Fisher information matrix and the qualification trace of the upper and lower bound weights of the action are designed, and the dual strategy gradient incremental natural action critic algorithm is defined. In order to prove the effectiveness of this algorithm, the algorithm is compared with other classical reinforcement learning algorithms in continuous action space in three classical test experiments of reinforcement learning. Experimental results show that the proposed algorithm has the advantages of fast convergence speed and good convergence stability.
【作者單位】: 蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心;吉林大學(xué)符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室;
【基金】:國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61272005,No.61303108,No.61373094,No.61472262,No.61502323,No.61502329) 江蘇省自然科學(xué)基金資助項(xiàng)目(No.BK2012616) 江蘇省高校自然科學(xué)研究基金資助項(xiàng)目(No.13KJB520020) 吉林大學(xué)符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室基金資助項(xiàng)目(No.93K172014K04) 蘇州市應(yīng)用基礎(chǔ)研究計(jì)劃工業(yè)部分基金資助項(xiàng)目(No.SYG201422,No.SYG201308)~~
【分類號(hào)】:TP181
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王靖亞;;算法結(jié)構(gòu)對(duì)其性能的影響研究[J];中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年04期
2 Белый А.А.;к.Ф.-м.н.Бовбелъ Е.И.;к.т.н.Микулович В.И.;張至德;;快速付立葉變換的各種算法及其特性[J];現(xiàn)代雷達(dá);1981年01期
3 何璞,張平;分裂基算法的討論[J];現(xiàn)代電子技術(shù);2003年18期
4 李玉峰;一種利用符號(hào)算法的自適應(yīng)圖象位移估計(jì)算法[J];電子學(xué)報(bào);1991年04期
5 王威;胡斌;董鵬;楊超;;軍械調(diào)運(yùn)方案優(yōu)化算法的設(shè)計(jì)與仿真[J];微計(jì)算機(jī)信息;2006年19期
6 宋楊;張玉清;;結(jié)構(gòu)化比對(duì)算法研究及軟件實(shí)現(xiàn)[J];中國(guó)科學(xué)院研究生院學(xué)報(bào);2009年04期
7 鄢靖豐;;一種改進(jìn)的人工蜂群算法及其應(yīng)用研究[J];許昌學(xué)院學(xué)報(bào);2013年02期
8 程渭呂;通信及信號(hào)處理用的新算法[J];上海航天;1985年01期
9 楊世達(dá);易亞林;單志勇;李慶華;;蜜蜂進(jìn)化型的類電磁機(jī)制算法[J];計(jì)算機(jī)工程與應(yīng)用;2013年06期
10 郭福順 ,高鐵軍;抽象數(shù)據(jù)型與一類表達(dá)式的化簡(jiǎn)[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);1985年A3期
相關(guān)會(huì)議論文 前9條
1 劉明蘭;王玲t(yī) ;曾春年;鐘紹華;張俊;;雙模自組織Fuzzy-Dahlin算法研究[A];1997中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];1997年
2 胡海清;;序列最小優(yōu)化及其改進(jìn)算法[A];第十屆中國(guó)科協(xié)年會(huì)信息化與社會(huì)發(fā)展學(xué)術(shù)討論會(huì)分會(huì)場(chǎng)論文集[C];2008年
3 王春厚;許都;孫健;;一種降低誤判率的BF快速匹配算法結(jié)構(gòu)[A];2010年全國(guó)通信安全學(xué)術(shù)會(huì)議論文集[C];2010年
4 桑紅燕;潘全科;任立群;;解決單機(jī)準(zhǔn)時(shí)排序問題的差異進(jìn)化算法[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
5 周川;張璐;陳慶偉;;基于神經(jīng)網(wǎng)絡(luò)PID的智能AQM新算法[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年
6 陳小林;趙建;王延杰;;多模實(shí)時(shí)跟蹤算法研究[A];第七屆全國(guó)信息獲取與處理學(xué)術(shù)會(huì)議論文集[C];2009年
7 傅薈璇;王宇超;孫楓;;融合Kalman濾波的自適應(yīng)帶寬Mean Shift算法[A];2011年中國(guó)智能自動(dòng)化學(xué)術(shù)會(huì)議論文集(第一分冊(cè))[C];2011年
8 羌磊;肖田元;宋士吉;;多種群模式協(xié)同搜索貝葉斯優(yōu)化算法[A];第25屆中國(guó)控制會(huì)議論文集(中冊(cè))[C];2006年
9 阮秀凱;張志涌;;一種基于支持向量回歸的盲恢復(fù)新算法[A];2009年中國(guó)智能自動(dòng)化會(huì)議論文集(第七分冊(cè))[南京理工大學(xué)學(xué)報(bào)(增刊)][C];2009年
相關(guān)博士學(xué)位論文 前10條
1 陳貴濤;基于CMAES雜交算法的鋼筋混凝土框架結(jié)構(gòu)優(yōu)化設(shè)計(jì)研究[D];華南理工大學(xué);2014年
2 杜新鵬;聯(lián)合稀疏恢復(fù)新型算法及其應(yīng)用研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2013年
3 李大威;基于集成學(xué)習(xí)的高分遙感圖像玉米區(qū)高精度提取算法研究[D];中北大學(xué);2017年
4 李向濤;進(jìn)化算法研究及其在化學(xué)信息學(xué)中的應(yīng)用[D];東北師范大學(xué);2015年
5 許偉;基于進(jìn)化算法的復(fù)雜化工過程智能建模方法及其應(yīng)用[D];華東理工大學(xué);2011年
6 鄭友蓮;面向模糊車間調(diào)度問題的智能算法研究[D];武漢大學(xué);2011年
7 高健;分布式環(huán)境的同順序流水作業(yè)問題求解算法研究[D];大連海事大學(xué);2013年
8 畢云龍;自適應(yīng)聲學(xué)回聲抑制算法研究及其VLSI芯片設(shè)計(jì)[D];哈爾濱工業(yè)大學(xué);2010年
9 趙立權(quán);ICA算法及其在陣列信號(hào)處理中的應(yīng)用研究[D];哈爾濱工程大學(xué);2009年
10 鄒德旋;啟發(fā)式算法及其在工程優(yōu)化中的應(yīng)用[D];東北大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 和夢(mèng)思;粒子群進(jìn)化算法的改進(jìn)及應(yīng)用[D];深圳大學(xué);2015年
2 王金明;基于AES和LSB算法的信息隱藏模塊研究與設(shè)計(jì)[D];貴州大學(xué);2015年
3 許崢;自適應(yīng)PID算法在減水劑生產(chǎn)控制中的研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2015年
4 賈寧寧;復(fù)雜網(wǎng)絡(luò)中社團(tuán)發(fā)現(xiàn)算法研究及應(yīng)用[D];石家莊鐵道大學(xué);2015年
5 龐德艷;非光滑方程的算法及其應(yīng)用[D];青島大學(xué);2015年
6 李倩;基于膜計(jì)算的黑洞聚類算法研究[D];西華大學(xué);2015年
7 劉建;無線傳感器網(wǎng)絡(luò)鏈?zhǔn)铰酚伤惴╗D];廣西師范大學(xué);2015年
8 楊葛;基于本體的程序代碼資源算法結(jié)構(gòu)關(guān)聯(lián)研究[D];東華大學(xué);2013年
9 褚夫飛;基于改進(jìn)人工蜂群算法的分散式風(fēng)功率預(yù)測(cè)方法研究[D];東北大學(xué);2014年
10 王耀輝;蜂群算法應(yīng)用研究[D];福州大學(xué);2013年
,本文編號(hào):2181894
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2181894.html