基于經(jīng)驗(yàn)回放Q-Learning的最優(yōu)控制算法
本文選題:控制策略 切入點(diǎn):經(jīng)驗(yàn)回放 出處:《計(jì)算機(jī)工程與設(shè)計(jì)》2017年05期 論文類型:期刊論文
【摘要】:針對(duì)實(shí)時(shí)系統(tǒng)的在線最優(yōu)控制策略學(xué)計(jì)算開銷高的缺點(diǎn),提出基于經(jīng)驗(yàn)回放和Q-Learning的最優(yōu)控制算法。采用經(jīng)驗(yàn)回放(experience replay,ER)對(duì)樣本進(jìn)行重復(fù)利用,彌補(bǔ)實(shí)時(shí)系統(tǒng)在線獲取樣本少的不足;通過Q-Learning算法并采用梯度下降方法對(duì)值函數(shù)參數(shù)向量進(jìn)行更新;定義基于經(jīng)驗(yàn)回放和Q-Learning的ER-Q-Learning算法,分析其計(jì)算復(fù)雜度。仿真結(jié)果表明,相比Q-Learning算法、Sarsa算法以及批量的BLSPI算法,ER-Q-Learning算法能在有限時(shí)間內(nèi)平衡更多時(shí)間步,具有最快的收斂速度。
[Abstract]:Learn the disadvantage of high computational overhead for the optimal control strategy of online real-time system, and put forward the optimum experience playback and Q-Learning control algorithm based on the experience replay (experience replay, ER) of the samples were reused for real-time online access to samples from less foot; through the Q-Learning algorithm and the gradient descent method to update value function parameter vector; definition of ER-Q-Learning algorithm based on Q-Learning and playback experience, analyze its computational complexity. Simulation results show that compared with Q-Learning algorithm, Sarsa algorithm and BLSPI algorithm ER-Q-Learning batch algorithm can balance the more time step in finite time, has the fastest convergence rate.
【作者單位】: 成都信息工程大學(xué)控制工程學(xué)院;
【基金】:國(guó)家自然科學(xué)基金項(xiàng)目(61502329)
【分類號(hào)】:O232;TP18
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 蘇開樂;關(guān)于D.W.Etherington的擴(kuò)充產(chǎn)生算法的一個(gè)注記[J];計(jì)算機(jī)工程與科學(xué);1998年04期
2 胡夢(mèng)佑;陳鈞量;;快速加權(quán)滑窗RLS格型算法[J];中山大學(xué)學(xué)報(bào)(自然科學(xué)版);1992年02期
3 裴炳南;吳顯鼎;張明武;;MLMS算法的偽收斂現(xiàn)象[J];河南科學(xué);1993年Z1期
4 張承慧;一種工業(yè)過程時(shí)變參數(shù)估計(jì)新算法——修正目標(biāo)函數(shù)法[J];中國(guó)工程科學(xué);2001年11期
5 金丕彥,芮勇;BP算法各種改進(jìn)算法的研究及應(yīng)用[J];南京航空航天大學(xué)學(xué)報(bào);1994年S1期
6 王則柯;超越函數(shù)零點(diǎn)Kuhn算法收斂的一個(gè)充分條件[J];科學(xué)通報(bào);1985年06期
7 周鳳利,李紹滋,粱文林;一種改進(jìn)型的BP算法[J];電氣傳動(dòng)自動(dòng)化;1997年01期
8 傅曉陽(yáng),周幼英;Euler族算法的一般收斂性[J];應(yīng)用數(shù)學(xué)學(xué)報(bào);1994年04期
9 粟華;谷良賢;龔春林;;求解黑箱優(yōu)化問題的動(dòng)態(tài)模式跟蹤抽樣算法[J];計(jì)算機(jī)集成制造系統(tǒng);2013年07期
10 鄒士新,楊坤德,馬遠(yuǎn)良;幾種優(yōu)化算法在淺海匹配場(chǎng)反演中的性能比較[J];聲學(xué)技術(shù);2005年01期
相關(guān)博士學(xué)位論文 前4條
1 黃亞魁;幾類優(yōu)化問題的BB型算法研究[D];西安電子科技大學(xué);2015年
2 易雯帆;非線性偏微分方程多解計(jì)算大范圍收斂算法及其應(yīng)用研究[D];湖南師范大學(xué);2016年
3 鮑吉鋒;平衡問題和優(yōu)化問題若干算法的收斂性分析[D];浙江大學(xué);2013年
4 張曉偉;全局優(yōu)化的若干隨機(jī)性算法[D];西安電子科技大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 馬英鈞;基于人工蜂群算法的約束優(yōu)化問題研究[D];華中師范大學(xué);2015年
2 張忠正;基于核心區(qū)域擴(kuò)展的重疊社區(qū)發(fā)現(xiàn)算法研究[D];北京理工大學(xué);2016年
3 王淑靖;非重疊社區(qū)發(fā)現(xiàn)中近鄰傳播算法的研究與應(yīng)用[D];中國(guó)礦業(yè)大學(xué);2016年
4 宋慧;預(yù)處理Householder-GMRES(m)算法研究[D];燕山大學(xué);2013年
5 閆濤紅;預(yù)處理加權(quán)GMRES(m)算法研究[D];燕山大學(xué);2014年
6 張慧;E-變換GMRES(m)算法的研究與應(yīng)用[D];燕山大學(xué);2014年
7 楊艷;人工螢火蟲優(yōu)化算法在數(shù)值計(jì)算中的應(yīng)用[D];廣西民族大學(xué);2011年
8 劉丙花;分裂可行問題及其拓展問題的算法研究[D];曲阜師范大學(xué);2014年
9 孔維鎮(zhèn);不精確Newton-GMRES方法的全局算法[D];浙江大學(xué);2012年
10 王平;基于凸優(yōu)化的矩陣重建問題算法的研究[D];海南師范大學(xué);2014年
,本文編號(hào):1577643
本文鏈接:http://sikaile.net/kejilunwen/yysx/1577643.html