基于深度強化學習的非線性系統(tǒng)自適應優(yōu)化控制

發(fā)布時間：2021-10-05 16:25

　　本文基于深度強化學習技術,研究了一類連續(xù)時間非線性系統(tǒng)的自適應優(yōu)化控制問題。對于復雜或模型未知的非線性系統(tǒng)來說,由于系統(tǒng)模型的復雜性和未知性,很難從模型的角度出發(fā)去設計優(yōu)化控制算法�？紤]到強化學習的決策能力與深度學習的環(huán)境感知能力,本文提出了三種在線求解連續(xù)時間非線性系統(tǒng)的自適應優(yōu)化控制器算法。本文提出的深度強化學習算法最大的優(yōu)點是將深度學習與強化學習相結合。本文的主要工作和貢獻具體如下:首先,針對一類具有輸入時滯的模型部分未知的連續(xù)時間非線性系統(tǒng),研究了一種新的在線自適應優(yōu)化控制器設計方案。利用線性微分包含技術對原系統(tǒng)進行線性化處理,通過在線策略迭代算法得到了線性化系統(tǒng)的自適應優(yōu)化控制器,并證明了所設計的自適應優(yōu)化控制算法的收斂性。最后,通過兩個仿真實例驗證了該方法的有效性。然后,研究了一類模型未知連續(xù)時間非線性系統(tǒng)的自適應優(yōu)化控制器設計問題。結合Q-學習算法和生成式對抗網(wǎng)絡方案,成功地設計了一種新的連續(xù)時間模型未知非線性系統(tǒng)的自適應優(yōu)化控制算法。采用最新的生成式對抗網(wǎng)絡訓練策略來穩(wěn)定系統(tǒng),并證明了所設計的自適應優(yōu)化控制算法的收斂性。最后,通過仿真實例驗證了該方法的有效性,并通過與傳...

【文章來源】：安徽大學安徽省 211工程院校

【文章頁數(shù)】：60 頁

【學位級別】：碩士

【部分圖文】：

Pk的參數(shù)

變化曲線,狀態(tài)軌跡,優(yōu)化控制

變化曲線,優(yōu)化控制,輸入信號,狀態(tài)軌跡

安徽大學碩士學位論文15圖(2.1)為算法隨著迭代過程的代價矩陣參數(shù)變化曲線。代價矩陣參數(shù)經(jīng)過一次迭代就可以收斂。圖2.2系統(tǒng)的狀態(tài)軌跡Figure2.2：Thestatetrajectoryofthesystem.圖(2.2)為所設計的優(yōu)化控制器作用下的狀態(tài)軌跡。圖2.3優(yōu)化控制器的輸入信號Figure2.3：Theinputsignaloftheoptimalcontroller.圖(2.3)為所設計的優(yōu)化控制器輸入。

【參考文獻】：
期刊論文
[1]基于去隨機化方法的Markov跳變系統(tǒng)有限頻段控制[J]. 萬海英,欒小麗,劉飛.  控制理論與應用. 2018(07)
[2]多支路加熱爐分布式平衡與跟蹤控制[J]. 欒小麗,閔鴦,劉飛.  自動化學報. 2017(06)
[3]基于分布式偏差的加熱爐支路溫度一致控制[J]. 閔鴦,欒小麗,劉飛.  化工學報. 2016(12)
[4]跳變系統(tǒng)在給定時間內(nèi)的有限頻段H∞控制[J]. 周超潔,欒小麗,劉飛.  控制理論與應用. 2016(02)
[5]具有噪聲約束的時滯Markov跳變網(wǎng)絡給定時間一致性協(xié)議設計[J]. 閔鴦,欒小麗,劉飛.  控制理論與應用. 2016(01)

本文編號：3420113

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3420113.html

上一篇：SY集團S事業(yè)部智能機床改進項目質(zhì)量管理研究
下一篇：無線傳感器網(wǎng)絡中基于分簇的充電路徑優(yōu)化策略

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度強化學習的非線性系統(tǒng)自適應優(yōu)化控制