基于經(jīng)驗回放Q-Learning的最優(yōu)控制算法

發(fā)布時間：2018-03-07 03:04

本文選題：控制策略　切入點：經(jīng)驗回放　出處：《計算機工程與設計》2017年05期 　論文類型：期刊論文

【摘要】：針對實時系統(tǒng)的在線最優(yōu)控制策略學計算開銷高的缺點,提出基于經(jīng)驗回放和Q-Learning的最優(yōu)控制算法。采用經(jīng)驗回放(experience replay,ER)對樣本進行重復利用,彌補實時系統(tǒng)在線獲取樣本少的不足;通過Q-Learning算法并采用梯度下降方法對值函數(shù)參數(shù)向量進行更新;定義基于經(jīng)驗回放和Q-Learning的ER-Q-Learning算法,分析其計算復雜度。仿真結果表明,相比Q-Learning算法、Sarsa算法以及批量的BLSPI算法,ER-Q-Learning算法能在有限時間內(nèi)平衡更多時間步,具有最快的收斂速度。
[Abstract]:Learn the disadvantage of high computational overhead for the optimal control strategy of online real-time system, and put forward the optimum experience playback and Q-Learning control algorithm based on the experience replay (experience replay, ER) of the samples were reused for real-time online access to samples from less foot; through the Q-Learning algorithm and the gradient descent method to update value function parameter vector; definition of ER-Q-Learning algorithm based on Q-Learning and playback experience, analyze its computational complexity. Simulation results show that compared with Q-Learning algorithm, Sarsa algorithm and BLSPI algorithm ER-Q-Learning batch algorithm can balance the more time step in finite time, has the fastest convergence rate.

【作者單位】：成都信息工程大學控制工程學院;
【基金】：國家自然科學基金項目(61502329)
【分類號】：O232;TP18

【相似文獻】

相關期刊論文前10條

1 蘇開樂;關于D.W.Etherington的擴充產(chǎn)生算法的一個注記[J];計算機工程與科學;1998年04期

2 胡夢佑;陳鈞量;;快速加權滑窗RLS格型算法[J];中山大學學報(自然科學版);1992年02期

3 裴炳南;吳顯鼎;張明武;;MLMS算法的偽收斂現(xiàn)象[J];河南科學;1993年Z1期

4 張承慧;一種工業(yè)過程時變參數(shù)估計新算法——修正目標函數(shù)法[J];中國工程科學;2001年11期

5 金丕彥，芮勇;BP算法各種改進算法的研究及應用[J];南京航空航天大學學報;1994年S1期

6 王則柯;超越函數(shù)零點Kuhn算法收斂的一個充分條件[J];科學通報;1985年06期

7 周鳳利,李紹滋,粱文林;一種改進型的BP算法[J];電氣傳動自動化;1997年01期

8 傅曉陽，周幼英;Euler族算法的一般收斂性[J];應用數(shù)學學報;1994年04期

9 粟華;谷良賢;龔春林;;求解黑箱優(yōu)化問題的動態(tài)模式跟蹤抽樣算法[J];計算機集成制造系統(tǒng);2013年07期

10 鄒士新,楊坤德,馬遠良;幾種優(yōu)化算法在淺海匹配場反演中的性能比較[J];聲學技術;2005年01期

相關博士學位論文前4條

1 黃亞魁;幾類優(yōu)化問題的BB型算法研究[D];西安電子科技大學;2015年

2 易雯帆;非線性偏微分方程多解計算大范圍收斂算法及其應用研究[D];湖南師范大學;2016年

3 鮑吉鋒;平衡問題和優(yōu)化問題若干算法的收斂性分析[D];浙江大學;2013年

4 張曉偉;全局優(yōu)化的若干隨機性算法[D];西安電子科技大學;2008年

相關碩士學位論文前10條

1 馬英鈞;基于人工蜂群算法的約束優(yōu)化問題研究[D];華中師范大學;2015年

2 張忠正;基于核心區(qū)域擴展的重疊社區(qū)發(fā)現(xiàn)算法研究[D];北京理工大學;2016年

3 王淑靖;非重疊社區(qū)發(fā)現(xiàn)中近鄰傳播算法的研究與應用[D];中國礦業(yè)大學;2016年

4 宋慧;預處理Householder-GMRES(m)算法研究[D];燕山大學;2013年

5 閆濤紅;預處理加權GMRES(m)算法研究[D];燕山大學;2014年

6 張慧;E-變換GMRES(m)算法的研究與應用[D];燕山大學;2014年

7 楊艷;人工螢火蟲優(yōu)化算法在數(shù)值計算中的應用[D];廣西民族大學;2011年

8 劉丙花;分裂可行問題及其拓展問題的算法研究[D];曲阜師范大學;2014年

9 孔維鎮(zhèn);不精確Newton-GMRES方法的全局算法[D];浙江大學;2012年

10 王平;基于凸優(yōu)化的矩陣重建問題算法的研究[D];海南師范大學;2014年

，

本文編號：1577643

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/yysx/1577643.html

上一篇：幾類帶積分邊界的分數(shù)階微分方程的研究
下一篇：基于變量概率信息的因子分析監(jiān)控方法

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于經(jīng)驗回放Q-Learning的最優(yōu)控制算法