面向信息物理系統(tǒng)的高效深度強化學(xué)習(xí)算法
發(fā)布時間:2021-11-08 04:10
強化學(xué)習(xí)算法是機器學(xué)習(xí)的一個重要分支,主要研究如何利用智能體與外界環(huán)境的交互數(shù)據(jù)學(xué)習(xí)完成特定任務(wù)的控制策略。由于強化學(xué)習(xí)算法要求模型能夠表征高度復(fù)雜的策略,因此利用表現(xiàn)力極強的深度神經(jīng)網(wǎng)絡(luò)作為策略表征的深度強化學(xué)習(xí)算法逐漸成為主流。雖然深度神經(jīng)網(wǎng)絡(luò)較大的參數(shù)空間使得深度強化學(xué)習(xí)算法掌握高度復(fù)雜的技能成為可能,但是這也使其學(xué)習(xí)過程需要大量的交互數(shù)據(jù)才能夠達到良好的學(xué)習(xí)效果。深度強化學(xué)習(xí)算法的采樣低效問題在信息物理系統(tǒng)中尤為嚴(yán)重。在信息物理系統(tǒng)中,智能體與環(huán)境的交互速度十分緩慢。同時,在訓(xùn)練過程中,次優(yōu)的策略所做出的隨機性較大的動作可能損壞機體。因此,信息物理系統(tǒng)中的交互數(shù)據(jù)是十分昂貴的。文主要研究如何提高強化學(xué)習(xí)算法的采樣效率,進而減少強化學(xué)習(xí)算法對交互數(shù)據(jù)的高度依賴。文將深度強化學(xué)習(xí)算法與傳統(tǒng)的最優(yōu)控制理論結(jié)合,在避免傳統(tǒng)方法的局限性的同時,提高深度強化學(xué)習(xí)算法的采樣效率。具體而言,文從提出新的初始化策略與目標(biāo)任務(wù)分解這兩個思路來嘗試得到高效的深度強化學(xué)習(xí)算法。在第一個工作中,我們提出一種基于模型預(yù)測控制器的初始化策略。模型預(yù)測控制器質(zhì)上是一個有約束的最優(yōu)化問題,可以被理解為一個隱式的...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【部分圖文】:
狀態(tài)空間的劃分
a) Pendulum b) Quadcopter Navigation圖 3-3 DDPG, MPC, SP+DDPG, PLCBC, DPPO 的性能(y 軸表示累積獎勵)相對于迭代次數(shù)(x 軸表示迭代次數(shù)) 的變化情況。對于倒立擺實驗環(huán)境,我們將最大訓(xùn)練迭代次數(shù)設(shè)置為 M = 200,每一次迭代的最大訓(xùn)練步數(shù)為 T = 200,性能指標(biāo)為 T 步內(nèi)的累積獎勵。圖. 3-3 顯示了每一次迭代算法所獲得的累積獎勵。從圖中可以看出, PLCBC 在沒有進行任何訓(xùn)練的情況下就可以達到較好的控制效果,并且控制效果隨著迭代次數(shù)逐步提高。相比之下,DDPG 必須經(jīng)歷很多次失敗,并且需要很多次的迭代才能夠收斂。除此之外,如圖. 3-3(b) 所示,DDPG 傾向于收斂到較差的局部最優(yōu)解。作為一種常用的技巧,SP+DDPG 利用 MPC 提供的訓(xùn)練樣 對神經(jīng)網(wǎng)絡(luò)進行預(yù)訓(xùn)練。但是,在這個實驗環(huán)境中 SP+DDPG 無法顯著提高 DDPG 的訓(xùn)練效率,其原因是監(jiān)督學(xué)習(xí)難以泛化到在訓(xùn)練過程中沒有遇到過的狀態(tài),這個問題在連續(xù)控制問題中尤為嚴(yán)重
a) Pendulum b) Quadcopter Navigation-3 DDPG, MPC, SP+DDPG, PLCBC, DPPO 的性能(y 軸表示累積獎勵)相對于迭代(x 軸表示迭代次數(shù)) 的變化情況。對于倒立擺實驗環(huán)境,我們將最大訓(xùn)練迭代次數(shù)設(shè)置為 M = 200,每一最大訓(xùn)練步數(shù)為 T = 200,性能指標(biāo)為 T 步內(nèi)的累積獎勵。圖. 3-3 顯示迭代算法所獲得的累積獎勵。從圖中可以看出, PLCBC 在沒有進行任何況下就可以達到較好的控制效果,并且控制效果隨著迭代次數(shù)逐步提高下,DDPG 必須經(jīng)歷很多次失敗,并且需要很多次的迭代才能夠收斂。除如圖. 3-3(b) 所示,DDPG 傾向于收斂到較差的局部最優(yōu)解。作為一種常,SP+DDPG 利用 MPC 提供的訓(xùn)練樣 對神經(jīng)網(wǎng)絡(luò)進行預(yù)訓(xùn)練。但是,驗環(huán)境中 SP+DDPG 無法顯著提高 DDPG 的訓(xùn)練效率,其原因是監(jiān)督學(xué)化到在訓(xùn)練過程中沒有遇到過的狀態(tài),這個問題在連續(xù)控制問題中尤為
本文編號:3482976
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【部分圖文】:
狀態(tài)空間的劃分
a) Pendulum b) Quadcopter Navigation圖 3-3 DDPG, MPC, SP+DDPG, PLCBC, DPPO 的性能(y 軸表示累積獎勵)相對于迭代次數(shù)(x 軸表示迭代次數(shù)) 的變化情況。對于倒立擺實驗環(huán)境,我們將最大訓(xùn)練迭代次數(shù)設(shè)置為 M = 200,每一次迭代的最大訓(xùn)練步數(shù)為 T = 200,性能指標(biāo)為 T 步內(nèi)的累積獎勵。圖. 3-3 顯示了每一次迭代算法所獲得的累積獎勵。從圖中可以看出, PLCBC 在沒有進行任何訓(xùn)練的情況下就可以達到較好的控制效果,并且控制效果隨著迭代次數(shù)逐步提高。相比之下,DDPG 必須經(jīng)歷很多次失敗,并且需要很多次的迭代才能夠收斂。除此之外,如圖. 3-3(b) 所示,DDPG 傾向于收斂到較差的局部最優(yōu)解。作為一種常用的技巧,SP+DDPG 利用 MPC 提供的訓(xùn)練樣 對神經(jīng)網(wǎng)絡(luò)進行預(yù)訓(xùn)練。但是,在這個實驗環(huán)境中 SP+DDPG 無法顯著提高 DDPG 的訓(xùn)練效率,其原因是監(jiān)督學(xué)習(xí)難以泛化到在訓(xùn)練過程中沒有遇到過的狀態(tài),這個問題在連續(xù)控制問題中尤為嚴(yán)重
a) Pendulum b) Quadcopter Navigation-3 DDPG, MPC, SP+DDPG, PLCBC, DPPO 的性能(y 軸表示累積獎勵)相對于迭代(x 軸表示迭代次數(shù)) 的變化情況。對于倒立擺實驗環(huán)境,我們將最大訓(xùn)練迭代次數(shù)設(shè)置為 M = 200,每一最大訓(xùn)練步數(shù)為 T = 200,性能指標(biāo)為 T 步內(nèi)的累積獎勵。圖. 3-3 顯示迭代算法所獲得的累積獎勵。從圖中可以看出, PLCBC 在沒有進行任何況下就可以達到較好的控制效果,并且控制效果隨著迭代次數(shù)逐步提高下,DDPG 必須經(jīng)歷很多次失敗,并且需要很多次的迭代才能夠收斂。除如圖. 3-3(b) 所示,DDPG 傾向于收斂到較差的局部最優(yōu)解。作為一種常,SP+DDPG 利用 MPC 提供的訓(xùn)練樣 對神經(jīng)網(wǎng)絡(luò)進行預(yù)訓(xùn)練。但是,驗環(huán)境中 SP+DDPG 無法顯著提高 DDPG 的訓(xùn)練效率,其原因是監(jiān)督學(xué)化到在訓(xùn)練過程中沒有遇到過的狀態(tài),這個問題在連續(xù)控制問題中尤為
本文編號:3482976
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3482976.html
最近更新
教材專著