面向飛行器自主著艦問題的行動(dòng)者-評(píng)論家算法模型研究與實(shí)現(xiàn)
【圖文】:
紀(jì)80年代匯集在一起產(chǎn)生了現(xiàn)代強(qiáng)化學(xué)習(xí)領(lǐng)域。逡逑2.2強(qiáng)化學(xué)習(xí)的基本概念逡逑一個(gè)完整的強(qiáng)化學(xué)習(xí)模型如圖2-1所示,在該模型中必備的兩部分是環(huán)境與智逡逑能體。智能體可以觀察環(huán)境,通過觀察到的結(jié)果在某種策略下執(zhí)行動(dòng)作。對(duì)于智能逡逑體來說,在每個(gè)時(shí)間片先觀察狀態(tài)0,,給出執(zhí)行動(dòng)作最后接收獎(jiǎng)勵(lì)信號(hào)及。逡逑對(duì)于環(huán)境來說,,在每個(gè)時(shí)間片接收智能體發(fā)出動(dòng)作岣+1,然后給出下一個(gè)觀察狀態(tài)逡逑0,+1,最后給出獎(jiǎng)勵(lì)信號(hào)&+1。對(duì)于一個(gè)智能體來說通常由以下幾個(gè)部分組成:逡逑(1)
時(shí)刻的狀態(tài),做出決策,同時(shí)獲得環(huán)境的獎(jiǎng)勵(lì),環(huán)境接收智能體發(fā)出的動(dòng)作然后轉(zhuǎn)逡逑移到新的狀態(tài),此過程一直持續(xù)到終止?fàn)顟B(tài),在某些任務(wù)中也可能不存在終止?fàn)顟B(tài)。逡逑馬爾科夫決策過程如圖2-2所示。逡逑在馬爾科夫決策過程中,智能體的目標(biāo)是最大化總回報(bào)其逡逑中折扣因子用來區(qū)分即時(shí)獎(jiǎng)勵(lì)與未來回報(bào)的重要性。當(dāng)7接近于0的時(shí)逡逑候,代表智能體更加看重當(dāng)前的即時(shí)獎(jiǎng)勵(lì);當(dāng)7接近于1時(shí),代表智能體更加注重逡逑未來的獎(jiǎng)勵(lì)來做出決策。當(dāng)智能體遵循某個(gè)策略;r時(shí),狀態(tài)-行動(dòng)值函數(shù)(QValue逡逑Function)和狀態(tài)值函數(shù)(Value邋Function)定義如式(2-3)和(2-4)。逡逑么(5,a)=EJG,邐=a]邐(2-3)逡逑(2-4)逡逑(逡逑n邋'邋i智能體逡逑I邐i邐;邐;邐:逡逑*邐4邐i邐i邐i逡逑B“。mmi邋:w11,41邋-逡逑r,邋wSBSm^m邋r2邐ri邋^WwIWbI邐r^j逡逑l——邐?—_邐逡逑圖2-2強(qiáng)化學(xué)習(xí)的馬爾科夫鏈逡逑Figure邋2-2邋The邋Markov邋chain邋of邋reinforcement邋learning逡逑
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:V271.492;TP301.6
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 李耀宇;朱一凡;楊峰;賈全;;基于逆向強(qiáng)化學(xué)習(xí)的艦載機(jī)甲板調(diào)度優(yōu)化方案生成方法[J];國防科技大學(xué)學(xué)報(bào);2013年04期
2 張濤;吳漢生;;基于神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)倒立擺控制[J];計(jì)算機(jī)仿真;2006年04期
3 高陽,陳世福,陸鑫;強(qiáng)化學(xué)習(xí)研究綜述[J];自動(dòng)化學(xué)報(bào);2004年01期
4 李曉萌,楊煜普,許曉鳴;基于遞階強(qiáng)化學(xué)習(xí)的多智能體AGV調(diào)度系統(tǒng)[J];控制與決策;2002年03期
相關(guān)碩士學(xué)位論文 前4條
1 劉玨;基于逆強(qiáng)化學(xué)習(xí)的艦載機(jī)牽引車路徑規(guī)劃研究[D];哈爾濱工程大學(xué);2017年
2 丁明剛;基于多智能體強(qiáng)化學(xué)習(xí)的足球機(jī)器人決策策略研究[D];合肥工業(yè)大學(xué);2017年
3 胡占雙;無人機(jī)飛行姿態(tài)檢測及控制研究[D];沈陽航空航天大學(xué);2013年
4 邢關(guān)生;基于強(qiáng)化學(xué)習(xí)算法的電梯動(dòng)態(tài)調(diào)度策略的研究[D];天津大學(xué);2005年
本文編號(hào):2705021
本文鏈接:http://sikaile.net/kejilunwen/hangkongsky/2705021.html