基于改進ELM的遞歸最小二乘時序差分強化學習算法及其應用
本文關(guān)鍵詞:基于改進ELM的遞歸最小二乘時序差分強化學習算法及其應用 出處:《化工學報》2017年03期 論文類型:期刊論文
更多相關(guān)文章: 強化學習 激活函數(shù) 遞歸最小二乘算法 函數(shù)逼近 廣義Hop-world問題
【摘要】:針對值函數(shù)逼近算法對精度及計算時間等要求,提出了一種基于改進極限學習機的遞歸最小二乘時序差分強化學習算法。首先,將遞推方法引入到最小二乘時序差分強化學習算法中消去最小二乘中的矩陣求逆過程,形成遞推最小二乘時序差分強化學習算法,減少算法的復雜度及其計算量。其次,考慮到LSTD(0)算法收斂速度慢,加入資格跡增加樣本利用率提高收斂速度的算法,形成LSTD(λ)算法,以保證在經(jīng)歷過相同數(shù)量的軌跡后能收斂于真實值。同時,考慮到大部分強化學習問題的值函數(shù)是單調(diào)的,而傳統(tǒng)ELM方法通常運用具有雙側(cè)抑制特性的Sigmoid激活函數(shù),增大了計算成本,提出采用具有單側(cè)抑制特性的Softplus激活函數(shù)代替?zhèn)鹘y(tǒng)Sigmoid函數(shù),以減少計算量提高運算速度,使得該算法在提高精度的同時提高了計算速度。通過與傳統(tǒng)基于徑向基函數(shù)的最小二乘強化學習算法和基于極限學習機的最小二乘TD算法在廣義Hop-world問題的對比實驗,比較結(jié)果證明了所提出算法在滿足精度的條件下有效提高了計算速度,甚至某些條件下精度比其他兩種算法更高。
[Abstract]:According to the value of algorithm on the accuracy and computational time requirements of function approximation, and proposes an improved extreme learning machine differential sequential recursive least squares algorithm based on reinforcement learning. First, the recursive method is introduced into the least squares temporal difference reinforcement learning algorithm in the least squares matrix elimination in the inverse process, the formation of the recursive least squares temporal difference the reinforcement learning algorithm to reduce the complexity of the algorithm and computation. Secondly, considering the LSTD (0) the slow convergence of the algorithm, adding eligibility rate of increase to improve the convergence speed of the algorithm by using the sample, the formation of LSTD (lambda) algorithm, to ensure that experienced in the same number of trajectories can converge to the true value. At the same time. Taking into account the most intensive value function learning problem is monotone, while the traditional ELM method is usually used with bilateral inhibition of Sigmoid activation function, increases the computation cost, mining equipment Unilateral suppression Softplus activation function to replace the traditional Sigmoid function, to reduce the amount of computation and improve the speed, so that the algorithm can improve the accuracy and speed of calculation is improved. Compared with the traditional least squares based on radial basis function and reinforcement learning algorithm based on least square algorithm TD limit experiment machine learning in the generalized Hop-world problem. The comparison results show that the proposed algorithm can meet the precision in calculation speed under the condition improved, even under certain conditions with greater accuracy than the other two algorithms.
【作者單位】: 北京化工大學信息科學與技術(shù)學院;
【基金】:國家自然科學基金項目(61573051,61472021) 軟件開發(fā)環(huán)境國家重點實驗室開放課題(SKLSDE-2015KF-01) 中央高校基本科研業(yè)務費專項資金項目(PT1613-05)~~
【分類號】:TP181
【正文快照】: 引言強化學習是由Watkins等[1-3]提出的基于心理學的一種全新的機器學習算法,其主要思想是通過智能體與環(huán)境的交互與試錯,以環(huán)境的反饋信號作為輸入實現(xiàn)策略的優(yōu)化。實現(xiàn)策略優(yōu)化需要正確的策略評價和策略迭代技術(shù),而如何正確地估計函數(shù)值是策略評價的一個中心問題。強化學習
【相似文獻】
相關(guān)期刊論文 前10條
1 李春貴,劉永信,陳波;多步截斷行動—評價強化學習算法[J];內(nèi)蒙古大學學報(自然科學版);2005年02期
2 鄭宇;羅四維;呂子昂;;基于模型的層次化強化學習算法[J];北京交通大學學報;2006年05期
3 周如益;高陽;;一種基于性能勢的無折扣強化學習算法[J];廣西師范大學學報(自然科學版);2006年04期
4 高陽;周如益;王皓;曹志新;;平均獎賞強化學習算法研究[J];計算機學報;2007年08期
5 何源;張文生;;基于核方法的強化學習算法[J];微計算機信息;2008年04期
6 楊旭東;劉全;李瑾;;一種基于資格跡的并行強化學習算法[J];蘇州大學學報(自然科學版);2012年01期
7 劉夢婷;牟永敏;趙剛;歐陽騰飛;;基于強化學習算法的供應鏈管理訂單策略研究[J];數(shù)據(jù)通信;2013年01期
8 王學寧,賀漢根,徐昕;求解部分可觀測馬氏決策過程的強化學習算法[J];控制與決策;2004年11期
9 李春貴;劉永信;王萌;;集成規(guī)劃的行動-自適應評價強化學習算法[J];內(nèi)蒙古大學學報(自然科學版);2008年03期
10 孟偉;韓學東;;并行強化學習算法及其應用研究[J];計算機工程與應用;2009年34期
相關(guān)會議論文 前2條
1 陳宗海;段家慶;任皴;羅楊宇;李成榮;;針對機器人覓食任務的強化學習算法及其仿真研究[A];'2008系統(tǒng)仿真技術(shù)及其應用學術(shù)會議論文集[C];2008年
2 孟祥萍;苑全德;皮玉珍;;基于量子理論的多Agent系統(tǒng)強化學習研究[A];'2006系統(tǒng)仿真技術(shù)及其應用學術(shù)交流會論文集[C];2006年
相關(guān)博士學位論文 前3條
1 陳興國;基于值函數(shù)估計的強化學習算法研究[D];南京大學;2013年
2 鄭宇;分層強化學習算法及其應用研究[D];北京交通大學;2009年
3 李妼;基于視覺聽覺語義相干性的強化學習系統(tǒng)的研究[D];太原理工大學;2012年
相關(guān)碩士學位論文 前10條
1 宋拴;結(jié)合演示數(shù)據(jù)的強化學習與排序算法研究[D];南京大學;2014年
2 馬朋委;Q_learning強化學習算法的改進及應用研究[D];安徽理工大學;2016年
3 許志鵬;基于動作抽象的分層強化學習算法研究[D];蘇州大學;2016年
4 房東陽;基于模糊強化學習的柔性結(jié)構(gòu)控制方法研究[D];西安電子科技大學;2015年
5 張曉艷;連續(xù)時間分層強化學習算法[D];合肥工業(yè)大學;2010年
6 蘇浩銘;基于模型知識的大空間強化學習算法的研究與實現(xiàn)[D];合肥工業(yè)大學;2008年
7 楊宛璐;基于性能勢的改進平均獎賞強化學習算法研究[D];廣東工業(yè)大學;2014年
8 宋超峰;基于平均型強化學習算法的動態(tài)調(diào)度方法的研究[D];天津大學;2006年
9 袁姣紅;基于模型的動態(tài)分層強化學習算法研究[D];中南大學;2011年
10 褚建華;Q-learning強化學習算法改進及其應用研究[D];北京化工大學;2009年
,本文編號:1431238
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1431238.html