正則化快速最小二乘時(shí)域差分算法的研究
本文關(guān)鍵詞:正則化快速最小二乘時(shí)域差分算法的研究
更多相關(guān)文章: 強(qiáng)化學(xué)習(xí) 策略評價(jià) 正則化 增量式最小二乘時(shí)域差分學(xué)習(xí) 極限學(xué)習(xí)機(jī)
【摘要】:策略評價(jià)與策略改進(jìn)是強(qiáng)化學(xué)習(xí)中兩大子問題,其中,策略評價(jià)問題也稱為學(xué)習(xí)預(yù)測問題,為策略改進(jìn)以求得最優(yōu)策略提供基礎(chǔ)。在眾多策略評價(jià)算法之中,時(shí)域差分學(xué)習(xí)是強(qiáng)化學(xué)習(xí)中應(yīng)用最普遍的方法,同時(shí)也為求解學(xué)習(xí)控制問題的方法提供強(qiáng)有力的基礎(chǔ)。正則化是一種能夠?qū)⑾闰?yàn)知識加入目標(biāo)函數(shù)之中,以克服值函數(shù)逼近器過擬合樣本的有效方法。該方法通過對基函數(shù)進(jìn)行選擇,使得值函數(shù)逼近器產(chǎn)生稀疏解。因此,逼近器的結(jié)構(gòu)得到簡化、逼近器的泛化能力得到提升。增量式技術(shù)是一種能夠在不影響樣本利用率的前提下,顯著降低策略評價(jià)算法的算法復(fù)雜度的方法。目前這兩種方法在經(jīng)典的時(shí)域差分算法中得到了應(yīng)用,而對于最近出現(xiàn)的一些最小二乘時(shí)域差分算法中的研究仍有待完善。本課題在前人的研究基礎(chǔ)上,針對最小二乘時(shí)域差分算法中的正則化問題和降低算法復(fù)雜度的問題展開進(jìn)一步研究。首先,針對極限學(xué)習(xí)機(jī)作為值函數(shù)逼近器中由于隨機(jī)初始化輸入層參數(shù)引起的性能不穩(wěn)定的問題,提出了一種基于正則化極限學(xué)習(xí)機(jī)的最小二乘時(shí)域差分算法。該方法能夠有效的克服極限學(xué)習(xí)機(jī)隨機(jī)初始化帶來的影響,能夠更好地逼近值函數(shù)真值。然后,針對帶有梯度修正項(xiàng)的最小二乘時(shí)域差分算法中的l1正則化問題,提出了基于最小角度回歸的帶有梯度修正項(xiàng)的最小二乘時(shí)域差分算法。該算法能夠得到策略評價(jià)問題的稀疏解,進(jìn)行有效的基函數(shù)選擇,避免過擬合現(xiàn)象的發(fā)生。最后,為了解決帶有梯度修正項(xiàng)的最小二乘時(shí)域差分算法的計(jì)算復(fù)雜度高的問題,引入了增量式技術(shù),并提出了帶有梯度修正項(xiàng)的增量最小二乘時(shí)域差分算法。該算法將一階算法的算法復(fù)雜度低和基于最小二乘技術(shù)的算法的樣本利用率高的優(yōu)點(diǎn)結(jié)合在一起,具有更好的解決實(shí)際問題的能力。
【關(guān)鍵詞】:強(qiáng)化學(xué)習(xí) 策略評價(jià) 正則化 增量式最小二乘時(shí)域差分學(xué)習(xí) 極限學(xué)習(xí)機(jī)
【學(xué)位授予單位】:北京化工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP18
【目錄】:
- 摘要4-6
- ABSTRACT6-13
- 第一章 緒論13-19
- 1.1 引言13-14
- 1.2 前人研究成果14-17
- 1.3 本論文研究的內(nèi)容17-19
- 第二章 策略評價(jià)基礎(chǔ)理論與算法19-25
- 2.1 引言19
- 2.2 馬爾可夫決策過程與多步學(xué)習(xí)預(yù)測問題19-21
- 2.2.1 馬爾可夫決策過程19-20
- 2.2.2 策略和值函數(shù)20-21
- 2.3 最小二乘時(shí)域差分算法21-23
- 2.3.1 多步時(shí)域差分學(xué)習(xí)21-22
- 2.3.2 多步最小二乘時(shí)域差分學(xué)習(xí)22-23
- 2.4 本章小結(jié)23-25
- 第三章 基于正則化極限學(xué)習(xí)機(jī)的量小二乘時(shí)域差分學(xué)習(xí)25-37
- 3.1 引言25
- 3.2 極限學(xué)習(xí)機(jī)的基礎(chǔ)理論25-28
- 3.2.1 極限學(xué)習(xí)機(jī)的原理及結(jié)構(gòu)25-27
- 3.2.2 極限學(xué)習(xí)機(jī)的改進(jìn)27-28
- 3.3 基于RELM-LSTD(λ)的策略評價(jià)28-36
- 3.3.1 基于RELM-LSTD(λ)的策略評價(jià)算法28-30
- 3.3.2 基于RELM-LSTD(λ)的學(xué)習(xí)預(yù)測仿真實(shí)驗(yàn)30-36
- 3.4 本章小結(jié)36-37
- 第四章 正則化量小二乘時(shí)域差分學(xué)習(xí)37-49
- 4.1 引言37
- 4.2 帶有梯度修正項(xiàng)的最小二乘時(shí)域差分學(xué)習(xí)37-39
- 4.3 基于LARS-TDC的策略評價(jià)39-46
- 4.3.1 最小角度回歸算法39-40
- 4.3.2 基于LARS-TDC的策略評價(jià)算法40-42
- 4.3.3 LARS-TDC的學(xué)習(xí)預(yù)測仿真42-46
- 4.4 本章小結(jié)46-49
- 第五章 增量最小二乘時(shí)域差分學(xué)習(xí)49-59
- 5.1 引言49
- 5.2 理論基礎(chǔ)49-51
- 5.3 基于iLSTDC的策略評價(jià)51-57
- 5.3.1 基于iLSTDC的策略評價(jià)算法52-54
- 5.3.2 iLSTDC的學(xué)習(xí)預(yù)測仿真54-57
- 5.4 本章小結(jié)57-59
- 第六章 總結(jié)與展望59-61
- 6.1 總結(jié)59
- 6.2 展望59-61
- 參考文獻(xiàn)61-67
- 致謝67-69
- 研究成果及發(fā)表的學(xué)術(shù)論文69-71
- 導(dǎo)師和作者簡介71-73
- 附件73-74
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前5條
1 De-Rong Liu;Hong-Liang Li;Ding Wang;;Feature Selection and Feature Learning for High-dimensional Batch Reinforcement Learning: A Survey[J];International Journal of Automation and Computing;2015年03期
2 朱美強(qiáng);程玉虎;李明;王雪松;馮渙婷;;一類基于譜方法的強(qiáng)化學(xué)習(xí)混合遷移算法[J];自動化學(xué)報(bào);2012年11期
3 程玉虎;馮渙婷;王雪松;;基于狀態(tài)-動作圖測地高斯基的策略迭代強(qiáng)化學(xué)習(xí)[J];自動化學(xué)報(bào);2011年01期
4 徐昕;賀漢根;;基于變尺度編碼CMAC的增強(qiáng)學(xué)習(xí)控制器及其應(yīng)用[J];模式識別與人工智能;2002年03期
5 蔣國飛,吳滄浦;基于Q學(xué)習(xí)算法和BP神經(jīng)網(wǎng)絡(luò)的倒立擺控制[J];自動化學(xué)報(bào);1998年05期
,本文編號:607148
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/607148.html