天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

概率近似正確的強(qiáng)化學(xué)習(xí)算法解決連續(xù)狀態(tài)空間控制問題

發(fā)布時(shí)間:2017-07-07 20:17

  本文關(guān)鍵詞:概率近似正確的強(qiáng)化學(xué)習(xí)算法解決連續(xù)狀態(tài)空間控制問題


  更多相關(guān)文章: 強(qiáng)化學(xué)習(xí) 概率近似正確 kd樹 雙連桿機(jī)械臂


【摘要】:在線學(xué)習(xí)時(shí)長(zhǎng)是強(qiáng)化學(xué)習(xí)算法的一個(gè)重要指標(biāo).傳統(tǒng)在線強(qiáng)化學(xué)習(xí)算法如Q學(xué)習(xí)、狀態(tài) 動(dòng)作 獎(jiǎng)勵(lì) 狀態(tài) 動(dòng)作(state-action-reward-state-action,SARSA)等算法不能從理論分析角度給出定量的在線學(xué)習(xí)時(shí)長(zhǎng)上界.本文引入概率近似正確(probably approximately correct,PAC)原理,為連續(xù)時(shí)間確定性系統(tǒng)設(shè)計(jì)基于數(shù)據(jù)的在線強(qiáng)化學(xué)習(xí)算法.這類算法有效記錄在線數(shù)據(jù),同時(shí)考慮強(qiáng)化學(xué)習(xí)算法對(duì)狀態(tài)空間探索的需求,能夠在有限在線學(xué)習(xí)時(shí)間內(nèi)輸出近似最優(yōu)的控制.我們提出算法的兩種實(shí)現(xiàn)方式,分別使用狀態(tài)離散化和kd樹(k-dimensional樹)技術(shù),存儲(chǔ)數(shù)據(jù)和計(jì)算在線策略.最后我們將提出的兩個(gè)算法應(yīng)用在雙連桿機(jī)械臂運(yùn)動(dòng)控制上,觀察算法的效果并進(jìn)行比較.
【作者單位】: 中國(guó)科學(xué)院自動(dòng)化研究所復(fù)雜系統(tǒng)管理與控制國(guó)家重點(diǎn)實(shí)驗(yàn)室;
【關(guān)鍵詞】強(qiáng)化學(xué)習(xí) 概率近似正確 kd樹 雙連桿機(jī)械臂
【基金】:國(guó)家自然科學(xué)基金項(xiàng)目(61273136,61573353,61533017,61603382) 復(fù)雜系統(tǒng)管理與控制國(guó)家重點(diǎn)實(shí)驗(yàn)室優(yōu)秀人才基金項(xiàng)目資助~~
【分類號(hào)】:TP18;TP273
【正文快照】: 1引言(Introduction)強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)[1 4]通過在線學(xué)習(xí)的方式,與被控系統(tǒng)或環(huán)境進(jìn)行交互,調(diào)整策略使系統(tǒng)獲得盡可能高的累加獎(jiǎng)勵(lì).這類方法在解決模型未知系統(tǒng)的控制問題時(shí)有著顯著的意義.但是傳統(tǒng)RL[5 6]具有數(shù)據(jù)利用率低、探索效率差的缺點(diǎn),算法沒有

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 李春貴,劉永信,陳波;多步截?cái)嘈袆?dòng)—評(píng)價(jià)強(qiáng)化學(xué)習(xí)算法[J];內(nèi)蒙古大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年02期

2 鄭宇;羅四維;呂子昂;;基于模型的層次化強(qiáng)化學(xué)習(xí)算法[J];北京交通大學(xué)學(xué)報(bào);2006年05期

3 周如益;高陽(yáng);;一種基于性能勢(shì)的無(wú)折扣強(qiáng)化學(xué)習(xí)算法[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年04期

4 高陽(yáng);周如益;王皓;曹志新;;平均獎(jiǎng)賞強(qiáng)化學(xué)習(xí)算法研究[J];計(jì)算機(jī)學(xué)報(bào);2007年08期

5 何源;張文生;;基于核方法的強(qiáng)化學(xué)習(xí)算法[J];微計(jì)算機(jī)信息;2008年04期

6 楊旭東;劉全;李瑾;;一種基于資格跡的并行強(qiáng)化學(xué)習(xí)算法[J];蘇州大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年01期

7 劉夢(mèng)婷;牟永敏;趙剛;歐陽(yáng)騰飛;;基于強(qiáng)化學(xué)習(xí)算法的供應(yīng)鏈管理訂單策略研究[J];數(shù)據(jù)通信;2013年01期

8 王學(xué)寧,賀漢根,徐昕;求解部分可觀測(cè)馬氏決策過程的強(qiáng)化學(xué)習(xí)算法[J];控制與決策;2004年11期

9 李春貴;劉永信;王萌;;集成規(guī)劃的行動(dòng)-自適應(yīng)評(píng)價(jià)強(qiáng)化學(xué)習(xí)算法[J];內(nèi)蒙古大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年03期

10 孟偉;韓學(xué)東;;并行強(qiáng)化學(xué)習(xí)算法及其應(yīng)用研究[J];計(jì)算機(jī)工程與應(yīng)用;2009年34期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前2條

1 陳宗海;段家慶;任皴;羅楊宇;李成榮;;針對(duì)機(jī)器人覓食任務(wù)的強(qiáng)化學(xué)習(xí)算法及其仿真研究[A];'2008系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2008年

2 孟祥萍;苑全德;皮玉珍;;基于量子理論的多Agent系統(tǒng)強(qiáng)化學(xué)習(xí)研究[A];'2006系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)交流會(huì)論文集[C];2006年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條

1 陳興國(guó);基于值函數(shù)估計(jì)的強(qiáng)化學(xué)習(xí)算法研究[D];南京大學(xué);2013年

2 鄭宇;分層強(qiáng)化學(xué)習(xí)算法及其應(yīng)用研究[D];北京交通大學(xué);2009年

3 李?yuàn)?基于視覺聽覺語(yǔ)義相干性的強(qiáng)化學(xué)習(xí)系統(tǒng)的研究[D];太原理工大學(xué);2012年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 宋拴;結(jié)合演示數(shù)據(jù)的強(qiáng)化學(xué)習(xí)與排序算法研究[D];南京大學(xué);2014年

2 馬朋委;Q_learning強(qiáng)化學(xué)習(xí)算法的改進(jìn)及應(yīng)用研究[D];安徽理工大學(xué);2016年

3 許志鵬;基于動(dòng)作抽象的分層強(qiáng)化學(xué)習(xí)算法研究[D];蘇州大學(xué);2016年

4 房東陽(yáng);基于模糊強(qiáng)化學(xué)習(xí)的柔性結(jié)構(gòu)控制方法研究[D];西安電子科技大學(xué);2015年

5 張曉艷;連續(xù)時(shí)間分層強(qiáng)化學(xué)習(xí)算法[D];合肥工業(yè)大學(xué);2010年

6 蘇浩銘;基于模型知識(shí)的大空間強(qiáng)化學(xué)習(xí)算法的研究與實(shí)現(xiàn)[D];合肥工業(yè)大學(xué);2008年

7 楊宛璐;基于性能勢(shì)的改進(jìn)平均獎(jiǎng)賞強(qiáng)化學(xué)習(xí)算法研究[D];廣東工業(yè)大學(xué);2014年

8 宋超峰;基于平均型強(qiáng)化學(xué)習(xí)算法的動(dòng)態(tài)調(diào)度方法的研究[D];天津大學(xué);2006年

9 袁姣紅;基于模型的動(dòng)態(tài)分層強(qiáng)化學(xué)習(xí)算法研究[D];中南大學(xué);2011年

10 褚建華;Q-learning強(qiáng)化學(xué)習(xí)算法改進(jìn)及其應(yīng)用研究[D];北京化工大學(xué);2009年

,

本文編號(hào):531683

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/531683.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶690cd***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com