天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

聚焦對象的強(qiáng)化學(xué)習(xí)算法研究

發(fā)布時間:2021-03-20 07:46
  強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域的一個重要分支,它采用學(xué)習(xí)與智能理論的一個基本想法——“通過與環(huán)境互動進(jìn)行學(xué)習(xí)”來求解序列決策問題。由于其獨(dú)特的“試錯式(trialand-error)”學(xué)習(xí)機(jī)制,近年來得到越來越多研究者的關(guān)注。本文嘗試從拓寬算法應(yīng)用范圍、改善學(xué)習(xí)效率等角度對強(qiáng)化學(xué)習(xí)算法進(jìn)行研究,主要工作和創(chuàng)新如下:首先,針對不同馬爾科夫決策過程(Markov Decision Process,MDP)中的相似度量問題,探討了一種改進(jìn)的相似度量算法,避免了先驗(yàn)知識和狀態(tài)空間的約束,拓寬了算法的應(yīng)用范圍。其次,針對聚焦對象Q學(xué)習(xí)算法的復(fù)雜度和穩(wěn)定性問題,探討了一種簡化的聚焦對象Q學(xué)習(xí)算法(Simplified Object Focused Q-learning,SOF-Q),通過采用新的控制策略來規(guī)避忽視狀態(tài)空間帶來的風(fēng)險(xiǎn),仿真結(jié)果表明,SOF-Q算法在計(jì)算量和收斂穩(wěn)定性上都有一定程度的改善。最后,針對OF-Q和SOF-Q中的控制錯覺問題,基于Dyna架構(gòu)改進(jìn)了聚焦對象Q學(xué)習(xí)算法,通過將Dyna架構(gòu)與聚焦對象的馬爾科夫決策過程相結(jié)合來進(jìn)行全局Q值的估計(jì),利用了兩者在狀態(tài)空間探索利用上的優(yōu)勢,仿真結(jié)... 

【文章來源】:東南大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:53 頁

【學(xué)位級別】:碩士

【部分圖文】:

聚焦對象的強(qiáng)化學(xué)習(xí)算法研究


馬爾科夫決策過程中agent與環(huán)境的互動[3]

規(guī)劃過程,優(yōu)策略,空間規(guī)劃,最優(yōu)策略


規(guī)劃過程

采樣式,規(guī)劃方法,單步,表格


圖 2.3 學(xué)習(xí)、規(guī)劃以及動作之間的關(guān)系[3] 中所有的過程,規(guī)劃、動作、模型學(xué)習(xí)以及直采樣式單步表格 Q 規(guī)劃方法。直接強(qiáng)化學(xué)習(xí)是基于表格的,并且假定為確定環(huán)境。每次發(fā)生


本文編號:3090621

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3090621.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2bab9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com