天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于數(shù)據(jù)驅(qū)動(dòng)Q學(xué)習(xí)的跟蹤控制研究

發(fā)布時(shí)間:2021-08-27 19:14
  最優(yōu)跟蹤控制問(wèn)題一直是控制領(lǐng)域的研究熱點(diǎn),致力于優(yōu)化由跟蹤誤差和控制輸入所構(gòu)成的性能指標(biāo)函數(shù),使得目標(biāo)輸出能夠以較優(yōu)的性能成本實(shí)現(xiàn)跟蹤。傳統(tǒng)的求解方法需要預(yù)先知道系統(tǒng)動(dòng)力學(xué)的部分信息甚至是全部信息,對(duì)系統(tǒng)動(dòng)力學(xué)信息的依賴(lài)性限制了傳統(tǒng)方法的應(yīng)用范圍。自適應(yīng)動(dòng)態(tài)規(guī)劃(adaptive dynamic programming,ADP)是一種具有自學(xué)習(xí)能力和優(yōu)化能力的智能控制算法,已成為有效求解未知?jiǎng)討B(tài)系統(tǒng)最優(yōu)控制問(wèn)題的一類(lèi)新方法。在實(shí)際工程應(yīng)用中,系統(tǒng)的狀態(tài)信息一般是難以測(cè)量獲得的,這限制了基于狀態(tài)反饋框架的ADP學(xué)習(xí)算法的應(yīng)用范圍。同時(shí),由于探測(cè)噪聲的存在,基于值函數(shù)逼近方法的ADP方案存在最優(yōu)控制參數(shù)學(xué)習(xí)值的偏差。因此,本文構(gòu)建含有評(píng)價(jià)結(jié)構(gòu)和執(zhí)行結(jié)構(gòu)的Q學(xué)習(xí)方案,用于求解離散時(shí)間未知線(xiàn)性系統(tǒng)的二次型跟蹤(linear quadratic tracking,LQT)控制問(wèn)題。本文的工作可概述如下:1.針對(duì)離散時(shí)間未知線(xiàn)性系統(tǒng),求解最優(yōu)LQT控制問(wèn)題。首先,將原被控系統(tǒng)與參考軌跡構(gòu)建為增廣系統(tǒng)。其次,利用系統(tǒng)的輸入數(shù)據(jù)序列、輸出數(shù)據(jù)序列以及參考軌跡數(shù)據(jù)序列對(duì)增廣系統(tǒng)的狀態(tài)進(jìn)行重構(gòu);基于重構(gòu)后... 

【文章來(lái)源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:100 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于數(shù)據(jù)驅(qū)動(dòng)Q學(xué)習(xí)的跟蹤控制研究


不同負(fù)載值0R下,基于內(nèi)模原理的的正弦波跟蹤誤差kkyr2)斜波信號(hào)

PI算法,跟蹤誤差,成本函數(shù)


第四章基于PI策略的off-policy數(shù)據(jù)驅(qū)動(dòng)Q學(xué)習(xí)55圖4-7Off-policy輸出反饋Q學(xué)習(xí)PI算法在不同負(fù)載值0R下的跟蹤誤差kkyr圖4-8近似成本函數(shù)的比較由圖4-5所示,學(xué)習(xí)算法在第5次迭代時(shí)便收斂到控制器對(duì)應(yīng)的最優(yōu)值,圖4-8的黃色曲面描述了從任意初始狀態(tài)開(kāi)始,被控系統(tǒng)在初始控制策略持續(xù)作用下的成本函數(shù);對(duì)應(yīng)的,藍(lán)色曲面描述了算法在經(jīng)過(guò)5次迭代收斂后獲得的最優(yōu)控制器下的成本函數(shù)。該圖體現(xiàn)了經(jīng)過(guò)off-policy數(shù)據(jù)驅(qū)動(dòng)Q學(xué)習(xí)PI算法的學(xué)習(xí),在最優(yōu)學(xué)習(xí)控制器的作用下,被控系統(tǒng)的成本函數(shù)比在初始控制策略下的成本函數(shù)顯著降低。本小節(jié)進(jìn)一步給出仿真情況的比較,用來(lái)驗(yàn)證三個(gè)結(jié)論:其一,探測(cè)噪聲不會(huì)對(duì)算法的學(xué)習(xí)結(jié)果造成偏差;其二,對(duì)于不同初始目標(biāo)策略,該算法皆可收斂于最優(yōu)值;其三,off-policy算法對(duì)于不同行為策略下的學(xué)習(xí)數(shù)據(jù),最后都會(huì)收斂于最優(yōu)值。

跟蹤誤差,算法,成本函數(shù),標(biāo)稱(chēng)值


第五章基于VI策略的on-policy數(shù)據(jù)驅(qū)動(dòng)Q學(xué)習(xí)75表明當(dāng)實(shí)際負(fù)載值遠(yuǎn)離標(biāo)稱(chēng)值時(shí),跟蹤性能會(huì)降低,甚至讓系統(tǒng)變的不穩(wěn)定。而從圖5-7可以發(fā)現(xiàn),當(dāng)負(fù)載值遠(yuǎn)離標(biāo)稱(chēng)值時(shí),所提的學(xué)習(xí)算法仍能使系統(tǒng)快速跟蹤上期望參考軌跡,表明本章算法能夠通過(guò)在線(xiàn)實(shí)時(shí)學(xué)習(xí)而收斂到控制器參數(shù)對(duì)應(yīng)的最優(yōu)值,具有魯棒性以及自適應(yīng)性。圖5-7On-policy輸出反饋Q學(xué)習(xí)VI算法在不同負(fù)載值0R下的跟蹤誤差kkyr圖5-8近似成本函數(shù)的比較由圖5-5所示,學(xué)習(xí)算法經(jīng)過(guò)10次迭代便收斂到控制器對(duì)應(yīng)的最優(yōu)值,圖5-8的黃色曲面描述了從任意初始狀態(tài)12(x,x)開(kāi)始,被控系統(tǒng)在初始控制律的作用下的成本函數(shù);對(duì)應(yīng)的,藍(lán)色曲面描述了算法經(jīng)過(guò)10次迭代學(xué)習(xí)收斂到最優(yōu)值后,系統(tǒng)在獲得的

【參考文獻(xiàn)】:
期刊論文
[1]基于自適應(yīng)動(dòng)態(tài)規(guī)劃的航空航天飛行器魯棒控制研究綜述[J]. 穆朝絮,張勇,余瑤,孫長(zhǎng)銀.  空間控制技術(shù)與應(yīng)用. 2019(04)
[2]Buck型變換器輸出跟蹤的自適應(yīng)動(dòng)態(tài)規(guī)劃算法[J]. 李健,沈艷軍,劉允剛.  控制理論與應(yīng)用. 2017(03)
[3]基于自適應(yīng)動(dòng)態(tài)規(guī)劃的導(dǎo)彈制導(dǎo)律研究綜述[J]. 孫景亮,劉春生.  自動(dòng)化學(xué)報(bào). 2017(07)
[4]基于自適應(yīng)動(dòng)態(tài)規(guī)劃的儲(chǔ)能系統(tǒng)優(yōu)化控制方法[J]. 李相俊,張晶瓊,何宇婷,惠東.  電網(wǎng)技術(shù). 2016(05)
[5]An overview on flight dynamics and control approaches for hypersonic vehicles[J]. XU Bin,SHI ZhongKe.  Science China(Information Sciences). 2015(07)
[6]自適應(yīng)動(dòng)態(tài)規(guī)劃綜述[J]. 張化光,張欣,羅艷紅,楊珺.  自動(dòng)化學(xué)報(bào). 2013(04)



本文編號(hào):3366934

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/yysx/3366934.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)7c8a3***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com