基于DDQN的運載火箭姿態(tài)控制器參數(shù)設(shè)計
【文章頁數(shù)】:6 頁
【部分圖文】:
圖1俯仰通道姿控系統(tǒng)閉環(huán)回路結(jié)構(gòu)圖
要進行火箭姿態(tài)控制器設(shè)計首先要建立姿控系統(tǒng)的頻域分析模型?刂撇呗赃x擇工程上常用的基于“小擾動線性化”的增益預(yù)置法。本文僅考慮俯仰通道,整個姿控系統(tǒng)閉環(huán)回路的結(jié)構(gòu)如圖1所示[9]。
圖2智能體訓(xùn)練算法流程圖
首先初始化記憶回放單元D和兩個網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)θ和θ-,開始進行實驗。每次實驗智能體最多可進行1500次調(diào)參。每次調(diào)參后,頻域分析得到的裕度值作為狀態(tài)st經(jīng)過式(16)預(yù)處理,得到,將其作為當(dāng)前值網(wǎng)絡(luò)的輸入,輸出各動作的狀態(tài)行為值,使用ε-greedy算法選擇動作at并執(zhí)行,得到下....
圖3累計誤差變化隨訓(xùn)練次數(shù)變化曲線
當(dāng)網(wǎng)絡(luò)在一定程度上收斂時結(jié)束智能體訓(xùn)練。訓(xùn)練累計誤差結(jié)果如圖3所示。訓(xùn)練開始時誤差較大,累計變化的斜率很大,隨著訓(xùn)練次數(shù)的增多,誤差減小,斜率放緩。每次實驗的累計回報隨訓(xùn)練次數(shù)的變化曲線如圖4所示,經(jīng)過一定量的實驗后單次實驗的累計回報能相對穩(wěn)定在20左右。由于智能體的探索以及其他....
圖4單次實驗累計回報隨實驗次數(shù)變化曲線
由于火箭姿態(tài)控制器參數(shù)設(shè)計沒有嚴(yán)格意義上的最優(yōu)參數(shù)集合,所以理論上控制器的可行參數(shù)集合有無窮個。訓(xùn)練的目的就是讓智能體模擬人類設(shè)計師的設(shè)計過程,在不斷調(diào)整參數(shù)分析系統(tǒng)性能的過程中,逐漸變得“老道”,從而成為一位優(yōu)秀的控制器“設(shè)計師”。3.2智能體前向測試
本文編號:3999568
本文鏈接:http://sikaile.net/kejilunwen/hangkongsky/3999568.html