基于數(shù)據(jù)驅(qū)動(dòng)Q學(xué)習(xí)的跟蹤控制研究

發(fā)布時(shí)間：2021-08-27 19:14

　　最優(yōu)跟蹤控制問題一直是控制領(lǐng)域的研究熱點(diǎn),致力于優(yōu)化由跟蹤誤差和控制輸入所構(gòu)成的性能指標(biāo)函數(shù),使得目標(biāo)輸出能夠以較優(yōu)的性能成本實(shí)現(xiàn)跟蹤。傳統(tǒng)的求解方法需要預(yù)先知道系統(tǒng)動(dòng)力學(xué)的部分信息甚至是全部信息,對系統(tǒng)動(dòng)力學(xué)信息的依賴性限制了傳統(tǒng)方法的應(yīng)用范圍。自適應(yīng)動(dòng)態(tài)規(guī)劃（adaptive dynamic programming,ADP）是一種具有自學(xué)習(xí)能力和優(yōu)化能力的智能控制算法,已成為有效求解未知?jiǎng)討B(tài)系統(tǒng)最優(yōu)控制問題的一類新方法。在實(shí)際工程應(yīng)用中,系統(tǒng)的狀態(tài)信息一般是難以測量獲得的,這限制了基于狀態(tài)反饋框架的ADP學(xué)習(xí)算法的應(yīng)用范圍。同時(shí),由于探測噪聲的存在,基于值函數(shù)逼近方法的ADP方案存在最優(yōu)控制參數(shù)學(xué)習(xí)值的偏差。因此,本文構(gòu)建含有評價(jià)結(jié)構(gòu)和執(zhí)行結(jié)構(gòu)的Q學(xué)習(xí)方案,用于求解離散時(shí)間未知線性系統(tǒng)的二次型跟蹤（linear quadratic tracking,LQT）控制問題。本文的工作可概述如下:1.針對離散時(shí)間未知線性系統(tǒng),求解最優(yōu)LQT控制問題。首先,將原被控系統(tǒng)與參考軌跡構(gòu)建為增廣系統(tǒng)。其次,利用系統(tǒng)的輸入數(shù)據(jù)序列、輸出數(shù)據(jù)序列以及參考軌跡數(shù)據(jù)序列對增廣系統(tǒng)的狀態(tài)進(jìn)行重構(gòu);基于重構(gòu)后...

【文章來源】：華南理工大學(xué)廣東省 211工程院校 985工程院校教育部直屬院校

【文章頁數(shù)】：100 頁

【學(xué)位級別】：碩士

【部分圖文】：

不同負(fù)載值0R下，基于內(nèi)模原理的的正弦波跟蹤誤差kkyr2）斜波信號

PI算法,跟蹤誤差,成本函數(shù)

第四章基于PI策略的off-policy數(shù)據(jù)驅(qū)動(dòng)Q學(xué)習(xí)55圖4-7Off-policy輸出反饋Q學(xué)習(xí)PI算法在不同負(fù)載值0R下的跟蹤誤差kkyr圖4-8近似成本函數(shù)的比較由圖4-5所示，學(xué)習(xí)算法在第5次迭代時(shí)便收斂到控制器對應(yīng)的最優(yōu)值，圖4-8的黃色曲面描述了從任意初始狀態(tài)開始，被控系統(tǒng)在初始控制策略持續(xù)作用下的成本函數(shù)；對應(yīng)的，藍(lán)色曲面描述了算法在經(jīng)過5次迭代收斂后獲得的最優(yōu)控制器下的成本函數(shù)。該圖體現(xiàn)了經(jīng)過off-policy數(shù)據(jù)驅(qū)動(dòng)Q學(xué)習(xí)PI算法的學(xué)習(xí)，在最優(yōu)學(xué)習(xí)控制器的作用下，被控系統(tǒng)的成本函數(shù)比在初始控制策略下的成本函數(shù)顯著降低。本小節(jié)進(jìn)一步給出仿真情況的比較，用來驗(yàn)證三個(gè)結(jié)論：其一，探測噪聲不會(huì)對算法的學(xué)習(xí)結(jié)果造成偏差；其二，對于不同初始目標(biāo)策略，該算法皆可收斂于最優(yōu)值；其三，off-policy算法對于不同行為策略下的學(xué)習(xí)數(shù)據(jù)，最后都會(huì)收斂于最優(yōu)值。

跟蹤誤差,算法,成本函數(shù),標(biāo)稱值

第五章基于VI策略的on-policy數(shù)據(jù)驅(qū)動(dòng)Q學(xué)習(xí)75表明當(dāng)實(shí)際負(fù)載值遠(yuǎn)離標(biāo)稱值時(shí)，跟蹤性能會(huì)降低，甚至讓系統(tǒng)變的不穩(wěn)定。而從圖5-7可以發(fā)現(xiàn)，當(dāng)負(fù)載值遠(yuǎn)離標(biāo)稱值時(shí)，所提的學(xué)習(xí)算法仍能使系統(tǒng)快速跟蹤上期望參考軌跡，表明本章算法能夠通過在線實(shí)時(shí)學(xué)習(xí)而收斂到控制器參數(shù)對應(yīng)的最優(yōu)值，具有魯棒性以及自適應(yīng)性。圖5-7On-policy輸出反饋Q學(xué)習(xí)VI算法在不同負(fù)載值0R下的跟蹤誤差kkyr圖5-8近似成本函數(shù)的比較由圖5-5所示，學(xué)習(xí)算法經(jīng)過10次迭代便收斂到控制器對應(yīng)的最優(yōu)值，圖5-8的黃色曲面描述了從任意初始狀態(tài)12(x,x)開始，被控系統(tǒng)在初始控制律的作用下的成本函數(shù)；對應(yīng)的，藍(lán)色曲面描述了算法經(jīng)過10次迭代學(xué)習(xí)收斂到最優(yōu)值后，系統(tǒng)在獲得的

【參考文獻(xiàn)】：
期刊論文
[1]基于自適應(yīng)動(dòng)態(tài)規(guī)劃的航空航天飛行器魯棒控制研究綜述[J]. 穆朝絮,張勇,余瑤,孫長銀.  空間控制技術(shù)與應(yīng)用. 2019(04)
[2]Buck型變換器輸出跟蹤的自適應(yīng)動(dòng)態(tài)規(guī)劃算法[J]. 李健,沈艷軍,劉允剛.  控制理論與應(yīng)用. 2017(03)
[3]基于自適應(yīng)動(dòng)態(tài)規(guī)劃的導(dǎo)彈制導(dǎo)律研究綜述[J]. 孫景亮,劉春生.  自動(dòng)化學(xué)報(bào). 2017(07)
[4]基于自適應(yīng)動(dòng)態(tài)規(guī)劃的儲(chǔ)能系統(tǒng)優(yōu)化控制方法[J]. 李相俊,張晶瓊,何宇婷,惠東.  電網(wǎng)技術(shù). 2016(05)
[5]An overview on flight dynamics and control approaches for hypersonic vehicles[J]. XU Bin,SHI ZhongKe.  Science China（Information Sciences）. 2015(07)
[6]自適應(yīng)動(dòng)態(tài)規(guī)劃綜述[J]. 張化光,張欣,羅艷紅,楊珺.  自動(dòng)化學(xué)報(bào). 2013(04)

本文編號：3366934

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/yysx/3366934.html

上一篇：一類具有轉(zhuǎn)換條件且兩端邊界條件帶譜參數(shù)的J-自伴算子
下一篇：數(shù)學(xué)歸納法原理及其在代數(shù)中的若干應(yīng)用

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于數(shù)據(jù)驅(qū)動(dòng)Q學(xué)習(xí)的跟蹤控制研究