回報函數(shù)驅(qū)動的高效探索研究
發(fā)布時間:2020-12-11 13:11
探索與利用的均衡一直是強化學習研究的重點之一。探索幫助智能體進一步了解環(huán)境來做出更優(yōu)決策;而利用幫助智能體根據(jù)其當前對于環(huán)境的認知來做出當前最優(yōu)決策。強化學習通過與環(huán)境交互生成訓練數(shù)據(jù)進而評估并更新所學策略,而非根據(jù)正確的策略指導學習過程,因此強化學習在學習過程中需要高效的探索。強化學習與環(huán)境交互獲得回報,進而通過最大化累積回報來學習最優(yōu)策略,因此環(huán)境中的回報函數(shù)直接影響強化學習的學習結(jié)果。當環(huán)境中回報稠密時,傳統(tǒng)探索方法例如Optimistic Initial Values,Upper-Confidence-Bound Action Selection,Thompson Sampling等,通過衡量基于值函數(shù)的強化學習算法中值函數(shù)學習過程的不確定性,可極大提升算法的探索效率,且有充分的理論證明。但它們僅適用于離散狀態(tài)空間,當狀態(tài)空間很大甚至連續(xù)時,這些算法并不適用。當環(huán)境中回報稀疏時,強化學習算法與環(huán)境交互時難以獲得正向回報,會導致性能低下。后視經(jīng)驗回放算法(Hindsight Experience Replay,HER)通過在每一回合結(jié)束時回放除原始目標狀態(tài)之外的一部分新目標狀態(tài)以...
【文章來源】:山西大學山西省
【文章頁數(shù)】:65 頁
【學位級別】:碩士
【部分圖文】:
k值對算法的影響
回報函數(shù)驅(qū)動的高效探索研究28(c)InvertedPendulum圖3.5兩種算法實驗對比結(jié)果圖表3.1為在各自最優(yōu)參數(shù)下本算法與采用Tilecoding編碼的Sarsa()算法回報、點數(shù)以及收斂所需回合數(shù)的比較。表3.1兩種算法對比實驗結(jié)果算法實驗結(jié)果實驗環(huán)境MountainCarCartPoleInvertedPendulumTilecoding5Sarsa()回報-13388-3.01點數(shù)400x5160000x58000x5收斂所需回合數(shù)45050080Tilecoding10Sarsa()回報-11360-0.68點數(shù)400x10160000x108000x10收斂所需回合數(shù)40050025Tilecoding20Sarsa()回報-14688-1.75點數(shù)400x20160000x208000x20收斂所需回合數(shù)330500100RMAX-KNN回報-83200-0.26點數(shù)2392201016收斂所需回合數(shù)2812512從表中可以看出,在回報方面,本算法在MountainCar、CartPole、InvertedPendulum環(huán)境下所得回報均大于對比算法所得回報,回報越高,則算法性能越好;在狀態(tài)空間表示點數(shù)目方面,本算法在三個實驗環(huán)境下達到實驗目標所需狀態(tài)空間表示點數(shù)目均遠遠小于對比算法,點數(shù)越少則算法空間復雜度越低;在收
回報函數(shù)驅(qū)動的高效探索研究34圖4.4多目標稀疏回報環(huán)境下原始HER的流程示例圖圖4.4中,假設狀態(tài)空間介于0到10之間并且原始目標狀態(tài)空間介于8到10之間,Agent旨在學習從初始狀態(tài)0處到達原始目標狀態(tài)空間的目標約束策略。圖4.4(a)展示了當目標狀態(tài)空間等同于狀態(tài)空間時Agent對于不同[state,goal]應該執(zhí)行的動作。Agent旨在學習合適的動作來從初始狀態(tài)到達目標狀態(tài),如圖4.4(d)所示。當用原始HER對數(shù)據(jù)進行處理時,回放生成的新目標狀態(tài)大多處于0到8之間,之后Agent學習合適的動作來從初始狀態(tài)到達0到8之間的目標狀態(tài),如圖4.4(b)所示。Agent根據(jù)其到達與原始目標狀態(tài)空間相近的目標狀態(tài)時所采用的動作序列進而學習到達原始目標狀態(tài)空間的策略。換言之,圖4.4(d)中的策略是根據(jù)圖4.4(b)和圖4.4(d)之間的相似性從圖4.4(b)泛化所得。但當原始目標狀態(tài)空間難以到達時,原始HER回放生成的新目標狀態(tài)將會局限于與原始目標狀態(tài)空間距離較遠的環(huán)境狀態(tài)空間的某一特定子空間內(nèi),如圖4.4(c)所示。此時,回放生成的新目標狀態(tài)與原始目標狀態(tài)關(guān)聯(lián)性較差進而導致原始HER無法幫助Agent學習到達原始目標狀態(tài)空間的目標約束策略。圖4.5多階段后視經(jīng)驗回放流程示意圖本文所提多階段后視經(jīng)驗回放算法通過形成一種比原始HER更加明確的課程學習形式來解決此問題。圖4.5展示了多階段后視經(jīng)驗回放算法的流程示意圖。圖4.5(a)和(d)與圖4.4意義相同,不同之處在于多階段后視經(jīng)驗回放算法從各階段給定目標狀態(tài)區(qū)域中采樣得到每一階段目標狀態(tài)并在各階段中利用HER回放生成新目標狀態(tài)。通過這種方式Agent首先學習到達階段0中介于0到3.3之間的目標狀態(tài),如圖4.5(b)所示。之后Agent以同樣方式學習到達階段1中介于0到6.6之間目標狀態(tài),如圖4.5(c)所示。最終Agent根據(jù)圖4.5(
本文編號:2910588
【文章來源】:山西大學山西省
【文章頁數(shù)】:65 頁
【學位級別】:碩士
【部分圖文】:
k值對算法的影響
回報函數(shù)驅(qū)動的高效探索研究28(c)InvertedPendulum圖3.5兩種算法實驗對比結(jié)果圖表3.1為在各自最優(yōu)參數(shù)下本算法與采用Tilecoding編碼的Sarsa()算法回報、點數(shù)以及收斂所需回合數(shù)的比較。表3.1兩種算法對比實驗結(jié)果算法實驗結(jié)果實驗環(huán)境MountainCarCartPoleInvertedPendulumTilecoding5Sarsa()回報-13388-3.01點數(shù)400x5160000x58000x5收斂所需回合數(shù)45050080Tilecoding10Sarsa()回報-11360-0.68點數(shù)400x10160000x108000x10收斂所需回合數(shù)40050025Tilecoding20Sarsa()回報-14688-1.75點數(shù)400x20160000x208000x20收斂所需回合數(shù)330500100RMAX-KNN回報-83200-0.26點數(shù)2392201016收斂所需回合數(shù)2812512從表中可以看出,在回報方面,本算法在MountainCar、CartPole、InvertedPendulum環(huán)境下所得回報均大于對比算法所得回報,回報越高,則算法性能越好;在狀態(tài)空間表示點數(shù)目方面,本算法在三個實驗環(huán)境下達到實驗目標所需狀態(tài)空間表示點數(shù)目均遠遠小于對比算法,點數(shù)越少則算法空間復雜度越低;在收
回報函數(shù)驅(qū)動的高效探索研究34圖4.4多目標稀疏回報環(huán)境下原始HER的流程示例圖圖4.4中,假設狀態(tài)空間介于0到10之間并且原始目標狀態(tài)空間介于8到10之間,Agent旨在學習從初始狀態(tài)0處到達原始目標狀態(tài)空間的目標約束策略。圖4.4(a)展示了當目標狀態(tài)空間等同于狀態(tài)空間時Agent對于不同[state,goal]應該執(zhí)行的動作。Agent旨在學習合適的動作來從初始狀態(tài)到達目標狀態(tài),如圖4.4(d)所示。當用原始HER對數(shù)據(jù)進行處理時,回放生成的新目標狀態(tài)大多處于0到8之間,之后Agent學習合適的動作來從初始狀態(tài)到達0到8之間的目標狀態(tài),如圖4.4(b)所示。Agent根據(jù)其到達與原始目標狀態(tài)空間相近的目標狀態(tài)時所采用的動作序列進而學習到達原始目標狀態(tài)空間的策略。換言之,圖4.4(d)中的策略是根據(jù)圖4.4(b)和圖4.4(d)之間的相似性從圖4.4(b)泛化所得。但當原始目標狀態(tài)空間難以到達時,原始HER回放生成的新目標狀態(tài)將會局限于與原始目標狀態(tài)空間距離較遠的環(huán)境狀態(tài)空間的某一特定子空間內(nèi),如圖4.4(c)所示。此時,回放生成的新目標狀態(tài)與原始目標狀態(tài)關(guān)聯(lián)性較差進而導致原始HER無法幫助Agent學習到達原始目標狀態(tài)空間的目標約束策略。圖4.5多階段后視經(jīng)驗回放流程示意圖本文所提多階段后視經(jīng)驗回放算法通過形成一種比原始HER更加明確的課程學習形式來解決此問題。圖4.5展示了多階段后視經(jīng)驗回放算法的流程示意圖。圖4.5(a)和(d)與圖4.4意義相同,不同之處在于多階段后視經(jīng)驗回放算法從各階段給定目標狀態(tài)區(qū)域中采樣得到每一階段目標狀態(tài)并在各階段中利用HER回放生成新目標狀態(tài)。通過這種方式Agent首先學習到達階段0中介于0到3.3之間的目標狀態(tài),如圖4.5(b)所示。之后Agent以同樣方式學習到達階段1中介于0到6.6之間目標狀態(tài),如圖4.5(c)所示。最終Agent根據(jù)圖4.5(
本文編號:2910588
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2910588.html
最近更新
教材專著