天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 航空航天論文 >

面向飛行器自主著艦問題的行動(dòng)者-評(píng)論家算法模型研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2020-06-09 17:34
【摘要】:艦載機(jī)是航空母艦的重要戰(zhàn)斗力量,艦載機(jī)在航母上的安全起降始終都是航母/艦載機(jī)系統(tǒng)順利完成戰(zhàn)斗任務(wù)的重點(diǎn)與難點(diǎn)。我國目前已經(jīng)實(shí)現(xiàn)了艦載機(jī)的人工起降,但是人工起降技術(shù)高度依賴良好的氣象條件,并且著艦指揮官的培養(yǎng)難度較大等因素制約了著艦技術(shù)的發(fā)展。對(duì)于自動(dòng)著艦技術(shù),我國尚處于理論研究階段。艦載機(jī)著艦是一個(gè)順序的決策控制問題,而強(qiáng)化學(xué)習(xí)在最優(yōu)控制與順序決策問題上有著成功應(yīng)用的先例與天然優(yōu)勢。本文為探索強(qiáng)化學(xué)習(xí)在航母艦載機(jī)領(lǐng)域的應(yīng)用,將深度強(qiáng)化學(xué)習(xí)的方法應(yīng)用于自動(dòng)著艦控制,研究了面向著艦問題的行動(dòng)者-評(píng)論家算法。論文主要工作如下:(1)設(shè)計(jì)了面向著艦問題的行動(dòng)者-評(píng)論家算法,針對(duì)艦載機(jī)著艦任務(wù)的特定業(yè)務(wù)背景,在沒有控制模型和動(dòng)力學(xué)模型的情況下,采用行動(dòng)者-評(píng)論家算法和確定性策略梯度思想,對(duì)艦載機(jī)自動(dòng)著艦過程的狀態(tài)空間、動(dòng)作空間以及獎(jiǎng)勵(lì)函數(shù)進(jìn)行了研究,給出了符合問題背景的馬爾科夫決策過程模型。(2)針對(duì)著艦過程中獎(jiǎng)勵(lì)稀疏的問題,本文提出了一個(gè)獎(jiǎng)勵(lì)重塑模型,有效解決了著艦過程中的獎(jiǎng)勵(lì)稀疏問題。首次利用仿真飛行軟件X-Plane作為強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)環(huán)境,以F/A-18型艦載機(jī)為例實(shí)現(xiàn)了平穩(wěn)飛行并成功著艦,形成了一套完整的演示平臺(tái)解決方案。(3)提出了行動(dòng)者-適應(yīng)者-評(píng)論家算法,提高了算法在非穩(wěn)態(tài)環(huán)境下的泛化性。本文在行動(dòng)者-評(píng)論家算法框架的基礎(chǔ)上進(jìn)行了針對(duì)性的改進(jìn),加入的適應(yīng)者能夠?qū)π袆?dòng)者輸出的動(dòng)作給予修正,以適應(yīng)環(huán)境的變化。為了測試算法對(duì)非穩(wěn)態(tài)環(huán)境的適應(yīng)性,本文對(duì)強(qiáng)化學(xué)習(xí)集成環(huán)境中智能體的物理模型進(jìn)行了不同程度的修改,以模擬環(huán)境的變化,在Gym與MoJoCo環(huán)境下的測試結(jié)果驗(yàn)證了本文提出算法的有效性,同時(shí)對(duì)環(huán)境的變化也有較好的適應(yīng)性。此外,本文還將改進(jìn)的算法應(yīng)用于仿真環(huán)境中艦載機(jī)的自動(dòng)著艦任務(wù),也顯示出了一定的適應(yīng)性。本文實(shí)現(xiàn)了以專業(yè)飛行軟件X-plane為仿真環(huán)境的強(qiáng)化學(xué)習(xí)自動(dòng)著艦算法,并且提出了一個(gè)能有效適應(yīng)環(huán)境變化的強(qiáng)化學(xué)習(xí)算法,算法在集成強(qiáng)化學(xué)習(xí)環(huán)境和專業(yè)飛行軟件中進(jìn)行了非穩(wěn)態(tài)環(huán)境的測試,顯示出了良好的環(huán)境適應(yīng)性。
【圖文】:

模型圖,模型,時(shí)間片,環(huán)境


紀(jì)80年代匯集在一起產(chǎn)生了現(xiàn)代強(qiáng)化學(xué)習(xí)領(lǐng)域。逡逑2.2強(qiáng)化學(xué)習(xí)的基本概念逡逑一個(gè)完整的強(qiáng)化學(xué)習(xí)模型如圖2-1所示,在該模型中必備的兩部分是環(huán)境與智逡逑能體。智能體可以觀察環(huán)境,通過觀察到的結(jié)果在某種策略下執(zhí)行動(dòng)作。對(duì)于智能逡逑體來說,在每個(gè)時(shí)間片先觀察狀態(tài)0,,給出執(zhí)行動(dòng)作最后接收獎(jiǎng)勵(lì)信號(hào)及。逡逑對(duì)于環(huán)境來說,,在每個(gè)時(shí)間片接收智能體發(fā)出動(dòng)作岣+1,然后給出下一個(gè)觀察狀態(tài)逡逑0,+1,最后給出獎(jiǎng)勵(lì)信號(hào)&+1。對(duì)于一個(gè)智能體來說通常由以下幾個(gè)部分組成:逡逑(1)

馬爾科夫鏈,終止?fàn)顟B(tài)


時(shí)刻的狀態(tài),做出決策,同時(shí)獲得環(huán)境的獎(jiǎng)勵(lì),環(huán)境接收智能體發(fā)出的動(dòng)作然后轉(zhuǎn)逡逑移到新的狀態(tài),此過程一直持續(xù)到終止?fàn)顟B(tài),在某些任務(wù)中也可能不存在終止?fàn)顟B(tài)。逡逑馬爾科夫決策過程如圖2-2所示。逡逑在馬爾科夫決策過程中,智能體的目標(biāo)是最大化總回報(bào)其逡逑中折扣因子用來區(qū)分即時(shí)獎(jiǎng)勵(lì)與未來回報(bào)的重要性。當(dāng)7接近于0的時(shí)逡逑候,代表智能體更加看重當(dāng)前的即時(shí)獎(jiǎng)勵(lì);當(dāng)7接近于1時(shí),代表智能體更加注重逡逑未來的獎(jiǎng)勵(lì)來做出決策。當(dāng)智能體遵循某個(gè)策略;r時(shí),狀態(tài)-行動(dòng)值函數(shù)(QValue逡逑Function)和狀態(tài)值函數(shù)(Value邋Function)定義如式(2-3)和(2-4)。逡逑么(5,a)=EJG,邐=a]邐(2-3)逡逑(2-4)逡逑(逡逑n邋'邋i智能體逡逑I邐i邐;邐;邐:逡逑*邐4邐i邐i邐i逡逑B“。mmi邋:w11,41邋-逡逑r,邋wSBSm^m邋r2邐ri邋^WwIWbI邐r^j逡逑l——邐?—_邐逡逑圖2-2強(qiáng)化學(xué)習(xí)的馬爾科夫鏈逡逑Figure邋2-2邋The邋Markov邋chain邋of邋reinforcement邋learning逡逑
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:V271.492;TP301.6

【參考文獻(xiàn)】

相關(guān)期刊論文 前4條

1 李耀宇;朱一凡;楊峰;賈全;;基于逆向強(qiáng)化學(xué)習(xí)的艦載機(jī)甲板調(diào)度優(yōu)化方案生成方法[J];國防科技大學(xué)學(xué)報(bào);2013年04期

2 張濤;吳漢生;;基于神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)倒立擺控制[J];計(jì)算機(jī)仿真;2006年04期

3 高陽,陳世福,陸鑫;強(qiáng)化學(xué)習(xí)研究綜述[J];自動(dòng)化學(xué)報(bào);2004年01期

4 李曉萌,楊煜普,許曉鳴;基于遞階強(qiáng)化學(xué)習(xí)的多智能體AGV調(diào)度系統(tǒng)[J];控制與決策;2002年03期

相關(guān)碩士學(xué)位論文 前4條

1 劉玨;基于逆強(qiáng)化學(xué)習(xí)的艦載機(jī)牽引車路徑規(guī)劃研究[D];哈爾濱工程大學(xué);2017年

2 丁明剛;基于多智能體強(qiáng)化學(xué)習(xí)的足球機(jī)器人決策策略研究[D];合肥工業(yè)大學(xué);2017年

3 胡占雙;無人機(jī)飛行姿態(tài)檢測及控制研究[D];沈陽航空航天大學(xué);2013年

4 邢關(guān)生;基于強(qiáng)化學(xué)習(xí)算法的電梯動(dòng)態(tài)調(diào)度策略的研究[D];天津大學(xué);2005年



本文編號(hào):2705021

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/hangkongsky/2705021.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶bdf22***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com