基于樣本優(yōu)選與演示的深度強(qiáng)化學(xué)習(xí)
發(fā)布時(shí)間:2021-04-13 17:22
經(jīng)過多年發(fā)展,深度強(qiáng)化學(xué)習(xí)的理論研究已經(jīng)逐步成熟,在解決高維原始輸入數(shù)據(jù)問題和控制決策問題上表現(xiàn)得尤為突出。但是面對復(fù)雜的環(huán)境,深度強(qiáng)化學(xué)習(xí)算法在網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí)需要耗費(fèi)大量的時(shí)間,從而導(dǎo)致算法效率不高。針對這一問題,本文的主要研究內(nèi)容為:第一,針對隨機(jī)選擇樣本進(jìn)行經(jīng)驗(yàn)回放而導(dǎo)致智能體訓(xùn)練效率低下的問題,提出了基于樣本優(yōu)選的優(yōu)先經(jīng)驗(yàn)回放算法。首先,根據(jù)預(yù)訓(xùn)練網(wǎng)絡(luò)生成樣本選擇的閾值,選取優(yōu)先級較高的樣本進(jìn)入優(yōu)先回放單元;其次,在訓(xùn)練過程中,通過優(yōu)先級更新的方法,加大優(yōu)先級高的樣本被挑選的概率,使得智能體更快地學(xué)習(xí)到最終目標(biāo);最后,采用了部分獎勵重塑的方法,對最終目標(biāo)的前幾步給予一個額外的獎賞,使智能體在最后探索時(shí)能朝著最終目標(biāo)更快的學(xué)習(xí)。第二,針對在已有演示樣本的實(shí)驗(yàn)環(huán)境中,如何利用演示樣本提高智能體訓(xùn)練效率的問題,提出了基于演示樣本的深度逆強(qiáng)化學(xué)習(xí)算法。首先,通過預(yù)訓(xùn)練網(wǎng)絡(luò)使智能體盡可能的模仿演示樣本;其次,通過深度學(xué)徒學(xué)習(xí)網(wǎng)絡(luò)重新構(gòu)建演示樣本的回報(bào)函數(shù),輸出演示樣本中動作的策略分布,并且通過逆強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)重新構(gòu)建隨機(jī)探索樣本的回報(bào)函數(shù);最后,利用重構(gòu)的回報(bào)函數(shù)與動作的策略分布構(gòu)建深度正...
【文章來源】:中國礦業(yè)大學(xué)江蘇省 211工程院校 教育部直屬院校
【文章頁數(shù)】:75 頁
【學(xué)位級別】:碩士
【部分圖文】:
深度強(qiáng)化學(xué)習(xí)的各種應(yīng)用
離散Figure3-2Discreteexp
碩士學(xué)位論文34(a)Acrobot-v1(b)MountainCar-v0(c)Riverraid-v0(d)Breakout-v0圖3-3回報(bào)曲線Figure3-3Returncurve圖3-3給出了三種算法在四個離散動作空間上的回報(bào)曲線。在Acrobot-v1與MountainCar-v0中,與原始DQN相比,基于樣本優(yōu)選的優(yōu)先經(jīng)驗(yàn)回放DQN能更快的學(xué)習(xí)到最終目標(biāo),且回報(bào)也更好。由圖3-3中的(a)可知,基于樣本優(yōu)選的優(yōu)先經(jīng)驗(yàn)回放在實(shí)驗(yàn)起始時(shí)間段與DQN算法、優(yōu)先經(jīng)驗(yàn)回放DQN算法的回報(bào)值相差不大,并且三種算法的回報(bào)曲線初始時(shí)刻都有十分明顯的波動,這是因?yàn)槌跏紩r(shí)刻的狀態(tài)時(shí)隨機(jī)從環(huán)境中獲取的,且剛開始訓(xùn)練的過程中,智能體探索的動作要比利用更大一些,所以回報(bào)曲線的起伏會很大。隨著訓(xùn)練時(shí)間的延長,探索的動作所占比例會越來越小,回報(bào)曲線也會逐漸趨于穩(wěn)定。同樣,在圖3-3中(b)的回報(bào)曲線中,也會發(fā)現(xiàn)同樣的情況。最初的300步中,基于樣本優(yōu)選的優(yōu)先經(jīng)驗(yàn)回放在實(shí)驗(yàn)起始時(shí)間段與DQN算法、優(yōu)先經(jīng)驗(yàn)回放DQN算法的回報(bào)值都具有波動大、回報(bào)值不穩(wěn)定的特點(diǎn)。但相較于優(yōu)先經(jīng)驗(yàn)回放DQN,基于樣本優(yōu)選的優(yōu)先經(jīng)驗(yàn)回放算法的回報(bào)提升的不明顯。究其原因,可能是Acrobot-v1與MountainCar-v0環(huán)境中動作空間相對簡單,狀態(tài)數(shù)較少,在Acrobot-v1中,只有智能體超過上方的黑線時(shí)才能得到回報(bào),而在MountainCar-v0中,只有當(dāng)小車到達(dá)山頂之后,才能獲得有效回報(bào)。所以在這兩個環(huán)境中,樣本的狀態(tài)數(shù)少,回報(bào)更為稀疏,而基于樣本優(yōu)選的優(yōu)先經(jīng)驗(yàn)回放DQN主要是針對樣本進(jìn)行優(yōu)化從而提高智能體獲得的回報(bào)值,所以與優(yōu)先經(jīng)驗(yàn)回放DQN相比,回報(bào)有所提高,但
【參考文獻(xiàn)】:
期刊論文
[1]機(jī)器學(xué)習(xí)的主要策略綜述[J]. 閆友彪,陳元琰. 計(jì)算機(jī)應(yīng)用研究. 2004(07)
本文編號:3135709
【文章來源】:中國礦業(yè)大學(xué)江蘇省 211工程院校 教育部直屬院校
【文章頁數(shù)】:75 頁
【學(xué)位級別】:碩士
【部分圖文】:
深度強(qiáng)化學(xué)習(xí)的各種應(yīng)用
離散Figure3-2Discreteexp
碩士學(xué)位論文34(a)Acrobot-v1(b)MountainCar-v0(c)Riverraid-v0(d)Breakout-v0圖3-3回報(bào)曲線Figure3-3Returncurve圖3-3給出了三種算法在四個離散動作空間上的回報(bào)曲線。在Acrobot-v1與MountainCar-v0中,與原始DQN相比,基于樣本優(yōu)選的優(yōu)先經(jīng)驗(yàn)回放DQN能更快的學(xué)習(xí)到最終目標(biāo),且回報(bào)也更好。由圖3-3中的(a)可知,基于樣本優(yōu)選的優(yōu)先經(jīng)驗(yàn)回放在實(shí)驗(yàn)起始時(shí)間段與DQN算法、優(yōu)先經(jīng)驗(yàn)回放DQN算法的回報(bào)值相差不大,并且三種算法的回報(bào)曲線初始時(shí)刻都有十分明顯的波動,這是因?yàn)槌跏紩r(shí)刻的狀態(tài)時(shí)隨機(jī)從環(huán)境中獲取的,且剛開始訓(xùn)練的過程中,智能體探索的動作要比利用更大一些,所以回報(bào)曲線的起伏會很大。隨著訓(xùn)練時(shí)間的延長,探索的動作所占比例會越來越小,回報(bào)曲線也會逐漸趨于穩(wěn)定。同樣,在圖3-3中(b)的回報(bào)曲線中,也會發(fā)現(xiàn)同樣的情況。最初的300步中,基于樣本優(yōu)選的優(yōu)先經(jīng)驗(yàn)回放在實(shí)驗(yàn)起始時(shí)間段與DQN算法、優(yōu)先經(jīng)驗(yàn)回放DQN算法的回報(bào)值都具有波動大、回報(bào)值不穩(wěn)定的特點(diǎn)。但相較于優(yōu)先經(jīng)驗(yàn)回放DQN,基于樣本優(yōu)選的優(yōu)先經(jīng)驗(yàn)回放算法的回報(bào)提升的不明顯。究其原因,可能是Acrobot-v1與MountainCar-v0環(huán)境中動作空間相對簡單,狀態(tài)數(shù)較少,在Acrobot-v1中,只有智能體超過上方的黑線時(shí)才能得到回報(bào),而在MountainCar-v0中,只有當(dāng)小車到達(dá)山頂之后,才能獲得有效回報(bào)。所以在這兩個環(huán)境中,樣本的狀態(tài)數(shù)少,回報(bào)更為稀疏,而基于樣本優(yōu)選的優(yōu)先經(jīng)驗(yàn)回放DQN主要是針對樣本進(jìn)行優(yōu)化從而提高智能體獲得的回報(bào)值,所以與優(yōu)先經(jīng)驗(yàn)回放DQN相比,回報(bào)有所提高,但
【參考文獻(xiàn)】:
期刊論文
[1]機(jī)器學(xué)習(xí)的主要策略綜述[J]. 閆友彪,陳元琰. 計(jì)算機(jī)應(yīng)用研究. 2004(07)
本文編號:3135709
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3135709.html
最近更新
教材專著