基于深度強化學習的非線性系統(tǒng)自適應優(yōu)化控制
發(fā)布時間:2021-10-05 16:25
本文基于深度強化學習技術,研究了一類連續(xù)時間非線性系統(tǒng)的自適應優(yōu)化控制問題。對于復雜或模型未知的非線性系統(tǒng)來說,由于系統(tǒng)模型的復雜性和未知性,很難從模型的角度出發(fā)去設計優(yōu)化控制算法?紤]到強化學習的決策能力與深度學習的環(huán)境感知能力,本文提出了三種在線求解連續(xù)時間非線性系統(tǒng)的自適應優(yōu)化控制器算法。本文提出的深度強化學習算法最大的優(yōu)點是將深度學習與強化學習相結合。本文的主要工作和貢獻具體如下:首先,針對一類具有輸入時滯的模型部分未知的連續(xù)時間非線性系統(tǒng),研究了一種新的在線自適應優(yōu)化控制器設計方案。利用線性微分包含技術對原系統(tǒng)進行線性化處理,通過在線策略迭代算法得到了線性化系統(tǒng)的自適應優(yōu)化控制器,并證明了所設計的自適應優(yōu)化控制算法的收斂性。最后,通過兩個仿真實例驗證了該方法的有效性。然后,研究了一類模型未知連續(xù)時間非線性系統(tǒng)的自適應優(yōu)化控制器設計問題。結合Q-學習算法和生成式對抗網(wǎng)絡方案,成功地設計了一種新的連續(xù)時間模型未知非線性系統(tǒng)的自適應優(yōu)化控制算法。采用最新的生成式對抗網(wǎng)絡訓練策略來穩(wěn)定系統(tǒng),并證明了所設計的自適應優(yōu)化控制算法的收斂性。最后,通過仿真實例驗證了該方法的有效性,并通過與傳...
【文章來源】:安徽大學安徽省 211工程院校
【文章頁數(shù)】:60 頁
【學位級別】:碩士
【部分圖文】:
Pk的參數(shù)
安徽大學碩士學位論文15圖(2.1)為算法隨著迭代過程的代價矩陣參數(shù)變化曲線。代價矩陣參數(shù)經(jīng)過一次迭代就可以收斂。圖2.2系統(tǒng)的狀態(tài)軌跡Figure2.2:Thestatetrajectoryofthesystem.圖(2.2)為所設計的優(yōu)化控制器作用下的狀態(tài)軌跡。圖2.3優(yōu)化控制器的輸入信號Figure2.3:Theinputsignaloftheoptimalcontroller.圖(2.3)為所設計的優(yōu)化控制器輸入。
安徽大學碩士學位論文15圖(2.1)為算法隨著迭代過程的代價矩陣參數(shù)變化曲線。代價矩陣參數(shù)經(jīng)過一次迭代就可以收斂。圖2.2系統(tǒng)的狀態(tài)軌跡Figure2.2:Thestatetrajectoryofthesystem.圖(2.2)為所設計的優(yōu)化控制器作用下的狀態(tài)軌跡。圖2.3優(yōu)化控制器的輸入信號Figure2.3:Theinputsignaloftheoptimalcontroller.圖(2.3)為所設計的優(yōu)化控制器輸入。
【參考文獻】:
期刊論文
[1]基于去隨機化方法的Markov跳變系統(tǒng)有限頻段控制[J]. 萬海英,欒小麗,劉飛. 控制理論與應用. 2018(07)
[2]多支路加熱爐分布式平衡與跟蹤控制[J]. 欒小麗,閔鴦,劉飛. 自動化學報. 2017(06)
[3]基于分布式偏差的加熱爐支路溫度一致控制[J]. 閔鴦,欒小麗,劉飛. 化工學報. 2016(12)
[4]跳變系統(tǒng)在給定時間內(nèi)的有限頻段H∞控制[J]. 周超潔,欒小麗,劉飛. 控制理論與應用. 2016(02)
[5]具有噪聲約束的時滯Markov跳變網(wǎng)絡給定時間一致性協(xié)議設計[J]. 閔鴦,欒小麗,劉飛. 控制理論與應用. 2016(01)
本文編號:3420113
【文章來源】:安徽大學安徽省 211工程院校
【文章頁數(shù)】:60 頁
【學位級別】:碩士
【部分圖文】:
Pk的參數(shù)
安徽大學碩士學位論文15圖(2.1)為算法隨著迭代過程的代價矩陣參數(shù)變化曲線。代價矩陣參數(shù)經(jīng)過一次迭代就可以收斂。圖2.2系統(tǒng)的狀態(tài)軌跡Figure2.2:Thestatetrajectoryofthesystem.圖(2.2)為所設計的優(yōu)化控制器作用下的狀態(tài)軌跡。圖2.3優(yōu)化控制器的輸入信號Figure2.3:Theinputsignaloftheoptimalcontroller.圖(2.3)為所設計的優(yōu)化控制器輸入。
安徽大學碩士學位論文15圖(2.1)為算法隨著迭代過程的代價矩陣參數(shù)變化曲線。代價矩陣參數(shù)經(jīng)過一次迭代就可以收斂。圖2.2系統(tǒng)的狀態(tài)軌跡Figure2.2:Thestatetrajectoryofthesystem.圖(2.2)為所設計的優(yōu)化控制器作用下的狀態(tài)軌跡。圖2.3優(yōu)化控制器的輸入信號Figure2.3:Theinputsignaloftheoptimalcontroller.圖(2.3)為所設計的優(yōu)化控制器輸入。
【參考文獻】:
期刊論文
[1]基于去隨機化方法的Markov跳變系統(tǒng)有限頻段控制[J]. 萬海英,欒小麗,劉飛. 控制理論與應用. 2018(07)
[2]多支路加熱爐分布式平衡與跟蹤控制[J]. 欒小麗,閔鴦,劉飛. 自動化學報. 2017(06)
[3]基于分布式偏差的加熱爐支路溫度一致控制[J]. 閔鴦,欒小麗,劉飛. 化工學報. 2016(12)
[4]跳變系統(tǒng)在給定時間內(nèi)的有限頻段H∞控制[J]. 周超潔,欒小麗,劉飛. 控制理論與應用. 2016(02)
[5]具有噪聲約束的時滯Markov跳變網(wǎng)絡給定時間一致性協(xié)議設計[J]. 閔鴦,欒小麗,劉飛. 控制理論與應用. 2016(01)
本文編號:3420113
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3420113.html
最近更新
教材專著