基于近似動態(tài)規(guī)劃的迭代控制研究及應(yīng)用

發(fā)布時間：2017-06-25 16:14

本文關(guān)鍵詞：基于近似動態(tài)規(guī)劃的迭代控制研究及應(yīng)用，由筆耕文化傳播整理發(fā)布。

【摘要】：近似動態(tài)規(guī)劃已經(jīng)成為求解優(yōu)化控制問題的一種有效方法,是機器學(xué)習(xí)和優(yōu)化控制領(lǐng)域的一個熱門研究方向。近些年來,前人的研究主要是針對離散狀態(tài)空間問題,而實際工業(yè)生產(chǎn)中往往遇到的是大規(guī)模、連續(xù)的狀態(tài)空間問題,對于這些問題的求解,現(xiàn)有的算法研究還沒有得出較好的結(jié)果并且算法的學(xué)習(xí)效率不高。因此論文研究了如何進一步改進近似動態(tài)規(guī)劃算法,改善該算法的學(xué)習(xí)控制性能。我們先是研究如何通過神經(jīng)網(wǎng)絡(luò)來辨識建模,針對航煤干點軟測量問題,我們建立了部分最小二乘(PLS)、徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(RBFN)和PLS-RBFN三個軟測量子模型,通過主元分析法把三個子模型線性加權(quán),建立航煤干點混合軟測量預(yù)測模型,從而驗證了神經(jīng)網(wǎng)絡(luò)建模的可行性,為獲取改進近似動態(tài)規(guī)劃算法所需要的模型信息提供了思路。目前研究的近似動態(tài)規(guī)劃算法中評價網(wǎng)絡(luò)通常采用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)存在著估計精度不夠和經(jīng)驗設(shè)置參數(shù)不足的缺點。我們在最小二乘TD (Temporal Differences)學(xué)習(xí)算法的基礎(chǔ)上,分別采用RLSTD(0)、 RLSTD(λ)、TDC(TD with gradient correction)算法和LSTDC (Least squares temporal difference with gradient correction)算法代替對偶啟發(fā)式動態(tài)規(guī)劃(Dual Heuristic Programming,DHP)算法中評價網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),從而推導(dǎo)出了RLSTD(0)-DHP算法、RLSTD(λ)-DHP算法和本文改進的TDC-DHP算法、LSTDC-DHP算法,這樣我們改進了近似動態(tài)規(guī)劃算法中評價網(wǎng)絡(luò)估計值函數(shù)的逼近方式,優(yōu)化了權(quán)值更新過程,提高了算法的學(xué)習(xí)控制性能。為了驗證所推導(dǎo)改進近似動態(tài)規(guī)劃的有效性,我們對乙醇生產(chǎn)間歇過程這個被控對象進行迭代控制應(yīng)用研究。我們給出了RLSTD(0)-DHP算法、RLSTD(λ)-DHP算法和本文改進的TDC-DHP算法、LSTDC-DHP算法這四種算法的基本算法流程。在生物發(fā)酵間歇過程進行迭代控制仿真實驗研究中,觀測發(fā)酵四個狀態(tài)變量、性能指標(biāo)函數(shù)和進料率軌跡的變化趨勢,比較分析四種算法的實驗結(jié)果。所改進的LSTDC-DHP算法不僅能夠連續(xù)地獲得最優(yōu)進料率軌跡,而且在數(shù)值上獲得最大乙醇產(chǎn)物產(chǎn)量。仿真實驗結(jié)果說明LSTDC-DHP算法能夠有效簡化了權(quán)值調(diào)整過程并提高了評價網(wǎng)絡(luò)的逼近精度,同時也驗證了LSTDC-DHP算法在處理連續(xù)空間問題上的有效性。
【關(guān)鍵詞】：近似動態(tài)規(guī)劃 對偶啟發(fā)式動態(tài)規(guī)劃 神經(jīng)網(wǎng)絡(luò) 間歇過程 生物發(fā)酵 學(xué)習(xí)控制
【學(xué)位授予單位】：北京化工大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2016
【分類號】：O221.3;O231
【目錄】：

摘要4-6
ABSTRACT6-13
第一章緒論13-19
1.1 研究背景及意義13-14
1.2 研究現(xiàn)狀及發(fā)展趨勢14-17
1.2.1 近似動態(tài)規(guī)劃的研究現(xiàn)狀及發(fā)展趨勢14-15
1.2.2 神經(jīng)網(wǎng)絡(luò)建模的研究現(xiàn)狀及發(fā)展趨勢15
1.2.3 間歇過程迭代控制的研究現(xiàn)狀及發(fā)展趨勢15-17
1.3 本文研究的內(nèi)容17
1.4 課題來源17-19
第二章近似動態(tài)規(guī)劃方法和神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)19-33
2.1 近似動態(tài)規(guī)劃理論基礎(chǔ)19-21
2.1.1 馬爾科夫決策過程19-20
2.1.2 動態(tài)規(guī)劃20-21
2.2 近似動態(tài)規(guī)劃算法原理21-29
2.2.1 啟發(fā)式動態(tài)規(guī)劃方法(HDP)21-22
2.2.2 對偶啟發(fā)式動態(tài)規(guī)劃方法(DHP)22-23
2.2.3 全局對偶啟發(fā)式動態(tài)規(guī)劃方法(GDHP)23-29
2.3 神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)29-32
2.3.1 神經(jīng)網(wǎng)絡(luò)原理及結(jié)構(gòu)30-31
2.3.2 神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法31-32
2.4 小結(jié)32-33
第三章神經(jīng)網(wǎng)絡(luò)預(yù)測模型的建立及仿真研究33-43
3.1 航煤干點軟測量問題的描述33-34
3.2 混合預(yù)測模型的建立34-38
3.3 航煤干點軟測量模型預(yù)測效果分析38-41
3.4 小結(jié)41-43
第四章改進的近似動態(tài)規(guī)劃算法實現(xiàn)43-51
4.1 最小二乘TD學(xué)習(xí)算法43-44
4.2 基于RLSTD的DHP算法推導(dǎo)44-46
4.2.1 RLSTD(0)-DHP算法推導(dǎo)44-45
4.2.2 RLSTD(λ)-DHP算法推導(dǎo)45-46
4.3 TDC-DHP算法推導(dǎo)46-47
4.4 LSTDC-DHP算法推導(dǎo)47-49
4.5 小結(jié)49-51
第五章基于ADP算法的生物發(fā)酵間歇過程迭代控制研究51-69
5.1 問題描述51-52
5.2 基于ADP算法的生物發(fā)酵過程迭代控制52-60
5.2.1 RLSTD(0)-DHP算法的迭代控制53-55
5.2.2 RLSTD(λ)-DHP算法的迭代控制55-58
5.2.3 TDC-DHP算法的迭代控制58-60
5.3 基于改進LSTDC-DHP算法的實現(xiàn)60-68
5.3.1 改進LSTDC-DHP算法實現(xiàn)流程60-61
5.3.2 基于LSTDC-DHP算法生物發(fā)酵過程迭代控制的實驗設(shè)置與結(jié)果61-64
5.3.3 實驗結(jié)果對比分析64-68
5.4 小結(jié)68-69
第六章總結(jié)與展望69-71
6.1 總結(jié)69-70
6.2 展望70-71
參考文獻71-75
致謝75-77
研究成果及發(fā)表的學(xué)術(shù)論文77-79
導(dǎo)師和作者簡介79-81
附件81-83

【相似文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 程吉林，，金兆森，沈潔，劉正祥，陳平;高維動態(tài)規(guī)劃的試驗選優(yōu)方法[J];系統(tǒng)工程理論與實踐;1996年02期

2 程吉林，金兆森，沈潔，劉正祥，陳平;多維動態(tài)規(guī)劃的廣義拉氏方法[J];江蘇農(nóng)學(xué)院學(xué)報;1996年02期

3 王俊,張光宇;多約束動態(tài)規(guī)劃問題求解方法的探討[J];經(jīng)濟師;2001年09期

4 馬衛(wèi)民,徐青川;局外k-出租車問題及其動態(tài)規(guī)劃求法[J];系統(tǒng)工程學(xué)報;2001年06期

5 王剛;動態(tài)規(guī)劃的應(yīng)用實例[J];云南財貿(mào)學(xué)院學(xué)報;2001年S1期

6 儲錦林;談動態(tài)規(guī)劃階段狀態(tài)的確定問題[J];安徽教育學(xué)院學(xué)報;2003年03期

7 孫晚華;關(guān)于動態(tài)規(guī)劃順序求解法的教學(xué)探討[J];北京交通大學(xué)學(xué)報(社會科學(xué)版);2004年01期

8 羅黨,劉思峰;灰色動態(tài)規(guī)劃研究[J];系統(tǒng)工程理論與實踐;2004年04期

9 段紅玉;李芳菊;;動態(tài)規(guī)劃在程序設(shè)計中的應(yīng)用[J];中國科技信息;2006年07期

10 焦移山;;稀疏動態(tài)規(guī)劃技術(shù)介紹[J];科技信息(科學(xué)教研);2007年17期

中國重要會議論文全文數(shù)據(jù)庫前10條

1 蔣科林;遲寶山;許云華;刑俊文;;動態(tài)規(guī)劃在裝備計劃生產(chǎn)中的運用[A];2006全國復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會議論文集[C];2006年

2 張釗;裴燕玲;;動態(tài)規(guī)劃的正向遞推方法[A];2005年度山東建筑學(xué)會優(yōu)秀論文集[C];2005年

3 玄一民;趙煥叢;劉宏;;動態(tài)規(guī)劃在多重約束下可靠性選優(yōu)應(yīng)用研究[A];質(zhì)量——持續(xù)發(fā)展的源動力：中國質(zhì)量學(xué)術(shù)與創(chuàng)新論壇論文集（下）[C];2010年

4 曹平;范萌萌;劉克;陳建州;;衛(wèi)星系統(tǒng)通訊路由問題的動態(tài)規(guī)劃建模[A];第十屆中國不確定系統(tǒng)年會、第十四屆中國青年信息與管理學(xué)者大會論文集[C];2012年

5 胡樂群;吳滄浦;;矢量指標(biāo)動態(tài)規(guī)劃的滿意解方法[A];全國青年管理科學(xué)與系統(tǒng)科學(xué)論文集（第1卷）[C];1991年

6 宋紹劍;李勁芝;林小峰;;基于執(zhí)行依賴啟發(fā)式動態(tài)規(guī)劃的三容水槽液位控制[A];第二十七屆中國控制會議論文集[C];2008年

7 海心;;使用Excel求解動態(tài)規(guī)劃問題方法探討[A];2005年中國機械工程學(xué)會年會論文集[C];2005年

8 宋丹丹;鄧志東;;基于模糊動態(tài)規(guī)劃的RNA折疊算法的研究與實現(xiàn)[A];2005年中國智能自動化會議論文集[C];2005年

9 張祥;王曉蕾;楊子賓;王劍;;動態(tài)規(guī)劃理論在雷達(dá)可靠性評估中的應(yīng)用[A];2009第五屆蘇皖兩省大氣探測、環(huán)境遙感與電子技術(shù)學(xué)術(shù)研討會專輯[C];2009年

10 胡鐵松;段國圣;萬永華;馮尚友;;多目標(biāo)動態(tài)規(guī)劃的攝動權(quán)重法[A];1993中國控制與決策學(xué)術(shù)年會論文集[C];1993年

中國重要報紙全文數(shù)據(jù)庫前1條

1 彭舒佳;專家吁建動態(tài)規(guī)劃機制“糾編”用地[N];中國房地產(chǎn)報;2008年

中國博士學(xué)位論文全文數(shù)據(jù)庫前4條

1 王穎;基于仿真的可重入生產(chǎn)系統(tǒng)的神經(jīng)元動態(tài)規(guī)劃調(diào)度研究[D];廈門大學(xué);2007年

2 費蓉;動態(tài)規(guī)劃研究及其在電力市場動態(tài)分區(qū)定價問題中的應(yīng)用[D];西安理工大學(xué);2009年

3 王怡慧;動態(tài)規(guī)劃加速算法和輪廓探測算法[D];復(fù)旦大學(xué);2012年

4 姜琳;過程控制優(yōu)化中的智能方法研究[D];吉林大學(xué);2010年

中國碩士學(xué)位論文全文數(shù)據(jù)庫前10條

1 陳銘;基于動態(tài)規(guī)劃的弱小目標(biāo)檢測前跟蹤（DP-TBD）算法研究[D];電子科技大學(xué);2014年

2 安政帥;基于動態(tài)規(guī)劃的微弱目標(biāo)檢測前跟蹤算法研究[D];西安電子科技大學(xué);2014年

3 程亮;自適應(yīng)動態(tài)規(guī)劃在電力系統(tǒng)中的應(yīng)用研究[D];華中科技大學(xué);2014年

4 喬東欽;基于動態(tài)規(guī)劃技術(shù)的MFI理論在板橋中的應(yīng)用研究[D];湖南大學(xué);2016年

5 蒙寧佳;基于近似動態(tài)規(guī)劃的迭代控制研究及應(yīng)用[D];北京化工大學(xué);2016年

6 張宏偉;數(shù)學(xué)建模中的動態(tài)規(guī)劃問題[D];東北師范大學(xué);2008年

7 鄢長偉;一類動態(tài)規(guī)劃問題的約束指標(biāo)的決策方法[D];遼寧工程技術(shù)大學(xué);2012年

8 張晨;基于近似動態(tài)規(guī)劃的隨機車輛路徑問題研究[D];清華大學(xué);2012年

9 王振興;近似動態(tài)規(guī)劃在供應(yīng)鏈生產(chǎn)環(huán)節(jié)風(fēng)險管理中的應(yīng)用研究[D];清華大學(xué);2009年

10 徐鵬;多階段營銷信息動態(tài)發(fā)送建模與分析[D];南京大學(xué);2013年

本文關(guān)鍵詞：基于近似動態(tài)規(guī)劃的迭代控制研究及應(yīng)用，由筆耕文化傳播整理發(fā)布。

本文編號：482766

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/yysx/482766.html

上一篇：強Baer模和強dual Baer模
下一篇：幾類非線性系統(tǒng)的迭代學(xué)習(xí)控制

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于近似動態(tài)規(guī)劃的迭代控制研究及應(yīng)用