貝葉斯強化學習中策略迭代算法研究
本文選題:貝葉斯強化學習 + 策略迭代。 參考:《蘇州大學》2016年碩士論文
【摘要】:貝葉斯強化學習是基于貝葉斯技術,利用概率分布對值函數(shù)、策略和環(huán)境模型等參數(shù)進行建模,求解強化學習相關任務,其主要思想是利用先驗分布估計未知參數(shù)的不確定性,然后通過獲得的觀察信息計算后驗分布來學習知識;诖,本文以策略迭代方法為框架,提出三種改進的基于貝葉斯推理和策略迭代的強化學習算法:(1)針對傳統(tǒng)的貝葉斯強化學習算法在學習未知的環(huán)境模型時,不能動態(tài)地控制環(huán)境模型學習次數(shù)的缺陷,提出一種基于貝葉斯智能模型學習的策略迭代算法。一方面,算法在模型學習部分利用Dirichlet分布方差閾值決定是否需要繼續(xù)學習模型,既保證模型學習的充分性,又降低模型學習的無效率。另一方面,算法在策略學習時利用探索激勵因子為選取探索動作提供保障,同時,也使得模型學習能夠遍歷所有狀態(tài)動作對,確保算法收斂。模型學習和策略學習相輔相成,使得算法收斂到最優(yōu)策略。(2)針對傳統(tǒng)的強化學習算法無法高效地解決動作探索與利用的平衡問題,提出一種基于動作值函數(shù)(Q值函數(shù))概率估計的異步策略迭代算法。在策略評估部分,利用高斯伽瑪分布對Q值函數(shù)進行建模,基于先驗分布和觀察的數(shù)據(jù)求解Q值函數(shù)后驗,評估策略好壞。在策略改進部分,基于Q值函數(shù)后驗分布,利用Myopic-VPI求解最優(yōu)動作,保證動作探索與利用達到平衡。最后,算法采用異步更新方法,傾向于計算與策略相關的動作值函數(shù),提高算法收斂速度。(3)針對傳統(tǒng)的策略迭代算法無法高效地解決狀態(tài)連續(xù)的且環(huán)境模型未知的MDP問題,提出一種基于高斯過程時間差分的在線策略迭代算法。主要利用高斯過程和時間差分公式對動作值函數(shù)進行建模,結(jié)合貝葉斯推理,求解值函數(shù)空間的后驗分布。在學習過程中,依據(jù)在線學習算法的特性及時評估改進后的策略,邊學習邊改進。在一定程度上,所提算法可以完成連續(xù)狀態(tài)空間下強化學習任務且收斂速度較快。
[Abstract]:Bayesian reinforcement learning is based on Bayesian technology, using probability distribution to model value function, strategy and environment model, and solving reinforcement learning related tasks. The main idea of Bayesian reinforcement learning is to use prior distribution to estimate the uncertainty of unknown parameters. Then the knowledge is learned by calculating the posteriori distribution of the observed information. Based on this, three improved reinforcement learning algorithms based on Bayesian reasoning and strategy iteration are proposed in this paper. (1) for the traditional Bayesian reinforcement learning algorithm, when learning unknown environment model, This paper presents a strategy iterative algorithm based on Bayesian intelligent model learning, which can not control the learning times of environment model dynamically. On the one hand, in the part of model learning, the threshold of Dirichlet distribution variance is used to determine whether to continue learning the model, which not only guarantees the adequacy of model learning, but also reduces the inefficiency of model learning. On the other hand, the search incentive factor is used to guarantee the selection of the exploration action in the strategy learning process. At the same time, the model learning can traverse all state action pairs to ensure the convergence of the algorithm. Model learning and strategy learning complement each other, which makes the algorithm converge to the optimal strategy. (2) the traditional reinforcement learning algorithm can not effectively solve the balance problem of action exploration and utilization. An asynchronous strategy iterative algorithm based on the probability estimation of action value function (Q valued function) is proposed. In the part of strategy evaluation, the Q value function is modeled by Gao Si gamma distribution, and the posteriori of Q value function is solved based on the prior distribution and observation data, and the evaluation strategy is good or bad. In the part of strategy improvement, based on the posteriori distribution of Q value function, Myopic-VPI is used to solve the optimal action to ensure the balance between the exploration and utilization of the action. Finally, the algorithm adopts asynchronous updating method, which tends to calculate the action value function related to the strategy, and improves the convergence speed of the algorithm. (3) the traditional strategy iterative algorithm can not efficiently solve the MDP problem with continuous state and unknown environment model. An online policy iterative algorithm based on Gao Si process time difference is proposed. The action value function is modeled by Gao Si process and time difference formula, and the posteriori distribution of value function space is solved by combining Bayesian reasoning. In the process of learning, the improved strategy is evaluated according to the characteristics of the online learning algorithm. To some extent, the proposed algorithm can accomplish reinforcement learning tasks in continuous state space and converge faster.
【學位授予單位】:蘇州大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP181
【相似文獻】
相關期刊論文 前10條
1 周興銘;張民選;;倒數(shù)迭代算法的理論分析與方案探討[J];計算機工程與科學;1980年02期
2 周興銘,張民選;倒數(shù)迭代算法的理論分析與方案探討[J];計算機學報;1981年05期
3 楊泰澄;一種求解局部實現(xiàn)問題的迭代算法[J];信息與控制;1984年06期
4 張銘,吳士達;最大似然陣處理的迭代算法[J];聲學與電子工程;1991年03期
5 姜亞健;劉停戰(zhàn);劉偉;;一族具有四階收斂的迭代算法[J];中國傳媒大學學報(自然科學版);2010年03期
6 楊軍一;;方程求根的逆校正加速迭代算法[J];計算機工程與科學;1987年03期
7 張培琨,李育林,劉繼芳,喬學光,忽滿利;隨機相位光學防偽中的前向迭代算法[J];激光雜志;1999年04期
8 張民選;;平方根迭代算法及其初值選擇[J];計算機工程與科學;1987年02期
9 黃正良;萬百五;韓崇昭;;大規(guī)模工業(yè)過程穩(wěn)態(tài)優(yōu)化控制新方法——自適應雙迭代算法[J];控制與決策;1992年06期
10 凌燮亭,潘明德,林華;電路容差分析的區(qū)間迭代算法[J];電子學報;1989年03期
相關會議論文 前7條
1 劉立振;;BPT算法的分辨力與應用前景[A];1990年中國地球物理學會第六屆學術年會論文集[C];1990年
2 胡光華;殷英;李世云;;即時差分策略迭代算法[A];中國運籌學會第七屆學術交流會論文集(下卷)[C];2004年
3 劉曉龍;李峻宏;高建波;劉榮燈;劉蘊韜;陳東風;;基于Levenberg-Marquardt算法的衍射峰形擬合[A];中國原子能科學研究院年報 2009[C];2010年
4 唐杰;;變分迭代算法在非線性微分方程中的應用[A];第七屆全國非線性動力學學術會議和第九屆全國非線性振動學術會議論文集[C];2004年
5 代榮獲;張繁昌;劉漢卿;;基于快速閾值收斂迭代算法的基追蹤地震信號分解[A];2014年中國地球科學聯(lián)合學術年會——專題13:計算地震學論文集[C];2014年
6 王在華;;求時滯系統(tǒng)Hopf分岔周期解的迭代算法[A];第二屆全國動力學與控制青年學者研討會論文摘要集[C];2008年
7 何志明;張迪生;;《一類廣義L.Q.最優(yōu)控制模型的狀態(tài)迭代算法與并行處理》[A];1991年控制理論及其應用年會論文集(上)[C];1991年
相關博士學位論文 前3條
1 吳樹林;分裂——迭代算法的理論分析及應用[D];華中科技大學;2010年
2 武文佳;邊值問題的四階緊有限差分方法及單調(diào)迭代算法[D];華東師范大學;2012年
3 周小建;求解非線性方程重根的迭代算法[D];南京師范大學;2013年
相關碩士學位論文 前10條
1 李晨;基于MapReduce的多維迭代算法的研究與實現(xiàn)[D];東北大學;2014年
2 尤樹華;貝葉斯強化學習中策略迭代算法研究[D];蘇州大學;2016年
3 李枝枝;一類復線性系統(tǒng)的乘積型三角分裂迭代算法[D];蘭州大學;2016年
4 郭丹;Markov跳躍It?隨機系統(tǒng)中的耦合Lyapunov方程的快速迭代算法[D];哈爾濱工業(yè)大學;2016年
5 王玉;線性隨機系統(tǒng)中的RICCATI方程加速迭代算法[D];哈爾濱工業(yè)大學;2016年
6 丁可;一類廣義協(xié)相補問題組的解的存在性以及迭代算法[D];四川大學;2004年
7 李程;M-矩陣及其‖A~(-1)‖_∞計算的迭代算法[D];電子科技大學;2004年
8 王濤;兩類線性系統(tǒng)的迭代算法[D];安徽大學;2013年
9 雷坤;美式期權(quán)最優(yōu)實施邊界的單調(diào)迭代算法及其在定價計算中的應用[D];華東師范大學;2013年
10 宇斌彬;基于數(shù)據(jù)劃分的迭代算法的并行與優(yōu)化[D];中國科學技術大學;2015年
,本文編號:2112699
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2112699.html