天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于經(jīng)驗(yàn)回放Q-Learning的最優(yōu)控制算法

發(fā)布時(shí)間:2018-03-07 03:04

  本文選題:控制策略 切入點(diǎn):經(jīng)驗(yàn)回放 出處:《計(jì)算機(jī)工程與設(shè)計(jì)》2017年05期  論文類型:期刊論文


【摘要】:針對(duì)實(shí)時(shí)系統(tǒng)的在線最優(yōu)控制策略學(xué)計(jì)算開銷高的缺點(diǎn),提出基于經(jīng)驗(yàn)回放和Q-Learning的最優(yōu)控制算法。采用經(jīng)驗(yàn)回放(experience replay,ER)對(duì)樣本進(jìn)行重復(fù)利用,彌補(bǔ)實(shí)時(shí)系統(tǒng)在線獲取樣本少的不足;通過Q-Learning算法并采用梯度下降方法對(duì)值函數(shù)參數(shù)向量進(jìn)行更新;定義基于經(jīng)驗(yàn)回放和Q-Learning的ER-Q-Learning算法,分析其計(jì)算復(fù)雜度。仿真結(jié)果表明,相比Q-Learning算法、Sarsa算法以及批量的BLSPI算法,ER-Q-Learning算法能在有限時(shí)間內(nèi)平衡更多時(shí)間步,具有最快的收斂速度。
[Abstract]:Learn the disadvantage of high computational overhead for the optimal control strategy of online real-time system, and put forward the optimum experience playback and Q-Learning control algorithm based on the experience replay (experience replay, ER) of the samples were reused for real-time online access to samples from less foot; through the Q-Learning algorithm and the gradient descent method to update value function parameter vector; definition of ER-Q-Learning algorithm based on Q-Learning and playback experience, analyze its computational complexity. Simulation results show that compared with Q-Learning algorithm, Sarsa algorithm and BLSPI algorithm ER-Q-Learning batch algorithm can balance the more time step in finite time, has the fastest convergence rate.

【作者單位】: 成都信息工程大學(xué)控制工程學(xué)院;
【基金】:國(guó)家自然科學(xué)基金項(xiàng)目(61502329)
【分類號(hào)】:O232;TP18

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 蘇開樂;關(guān)于D.W.Etherington的擴(kuò)充產(chǎn)生算法的一個(gè)注記[J];計(jì)算機(jī)工程與科學(xué);1998年04期

2 胡夢(mèng)佑;陳鈞量;;快速加權(quán)滑窗RLS格型算法[J];中山大學(xué)學(xué)報(bào)(自然科學(xué)版);1992年02期

3 裴炳南;吳顯鼎;張明武;;MLMS算法的偽收斂現(xiàn)象[J];河南科學(xué);1993年Z1期

4 張承慧;一種工業(yè)過程時(shí)變參數(shù)估計(jì)新算法——修正目標(biāo)函數(shù)法[J];中國(guó)工程科學(xué);2001年11期

5 金丕彥,芮勇;BP算法各種改進(jìn)算法的研究及應(yīng)用[J];南京航空航天大學(xué)學(xué)報(bào);1994年S1期

6 王則柯;超越函數(shù)零點(diǎn)Kuhn算法收斂的一個(gè)充分條件[J];科學(xué)通報(bào);1985年06期

7 周鳳利,李紹滋,粱文林;一種改進(jìn)型的BP算法[J];電氣傳動(dòng)自動(dòng)化;1997年01期

8 傅曉陽(yáng),周幼英;Euler族算法的一般收斂性[J];應(yīng)用數(shù)學(xué)學(xué)報(bào);1994年04期

9 粟華;谷良賢;龔春林;;求解黑箱優(yōu)化問題的動(dòng)態(tài)模式跟蹤抽樣算法[J];計(jì)算機(jī)集成制造系統(tǒng);2013年07期

10 鄒士新,楊坤德,馬遠(yuǎn)良;幾種優(yōu)化算法在淺海匹配場(chǎng)反演中的性能比較[J];聲學(xué)技術(shù);2005年01期

相關(guān)博士學(xué)位論文 前4條

1 黃亞魁;幾類優(yōu)化問題的BB型算法研究[D];西安電子科技大學(xué);2015年

2 易雯帆;非線性偏微分方程多解計(jì)算大范圍收斂算法及其應(yīng)用研究[D];湖南師范大學(xué);2016年

3 鮑吉鋒;平衡問題和優(yōu)化問題若干算法的收斂性分析[D];浙江大學(xué);2013年

4 張曉偉;全局優(yōu)化的若干隨機(jī)性算法[D];西安電子科技大學(xué);2008年

相關(guān)碩士學(xué)位論文 前10條

1 馬英鈞;基于人工蜂群算法的約束優(yōu)化問題研究[D];華中師范大學(xué);2015年

2 張忠正;基于核心區(qū)域擴(kuò)展的重疊社區(qū)發(fā)現(xiàn)算法研究[D];北京理工大學(xué);2016年

3 王淑靖;非重疊社區(qū)發(fā)現(xiàn)中近鄰傳播算法的研究與應(yīng)用[D];中國(guó)礦業(yè)大學(xué);2016年

4 宋慧;預(yù)處理Householder-GMRES(m)算法研究[D];燕山大學(xué);2013年

5 閆濤紅;預(yù)處理加權(quán)GMRES(m)算法研究[D];燕山大學(xué);2014年

6 張慧;E-變換GMRES(m)算法的研究與應(yīng)用[D];燕山大學(xué);2014年

7 楊艷;人工螢火蟲優(yōu)化算法在數(shù)值計(jì)算中的應(yīng)用[D];廣西民族大學(xué);2011年

8 劉丙花;分裂可行問題及其拓展問題的算法研究[D];曲阜師范大學(xué);2014年

9 孔維鎮(zhèn);不精確Newton-GMRES方法的全局算法[D];浙江大學(xué);2012年

10 王平;基于凸優(yōu)化的矩陣重建問題算法的研究[D];海南師范大學(xué);2014年



本文編號(hào):1577643

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/yysx/1577643.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e6f9d***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
国产亚洲精品岁国产微拍精品| 久久这里只精品免费福利| 男人和女人干逼的视频| 欧美黑人黄色一区二区| 亚洲欧美一二区日韩高清在线| 成人亚洲国产精品一区不卡| 国产精品尹人香蕉综合网| 日韩特级黄色大片在线观看| 99久久精品免费看国产高清| 免费观看日韩一级黄色大片| 99久久人妻中文字幕| 国产三级欧美三级日韩三级 | 国产亚洲精品久久久优势| 大尺度剧情国产在线视频| 黄片三级免费在线观看| 欧美同性视频免费观看| 日本精品最新字幕视频播放| 97人摸人人澡人人人超碰| 精品人妻一区二区四区| 国产综合一区二区三区av| 97人妻精品一区二区三区免| 91插插插外国一区二区| 99久免费精品视频在线观| 亚洲中文字幕人妻系列| 最新国产欧美精品91| 国产伦精品一区二区三区精品视频| 丝袜人妻夜夜爽一区二区三区| 好吊色欧美一区二区三区顽频| 国产一区二区三中文字幕| 亚洲熟女一区二区三四区| 美女激情免费在线观看| 欧美大粗爽一区二区三区| 国产成人精品国产亚洲欧洲| 国产精品日韩欧美一区二区| 中文字幕一二区在线观看| 欧美日韩亚洲国产综合网| 日韩在线视频精品视频| 日韩精品毛片视频免费看| 国产午夜精品美女露脸视频| 国产成人精品在线播放| 日本不卡片一区二区三区|