聚焦對象的強(qiáng)化學(xué)習(xí)算法研究

發(fā)布時間：2021-03-20 07:46

　　強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域的一個重要分支,它采用學(xué)習(xí)與智能理論的一個基本想法——“通過與環(huán)境互動進(jìn)行學(xué)習(xí)”來求解序列決策問題。由于其獨(dú)特的“試錯式（trialand-error）”學(xué)習(xí)機(jī)制,近年來得到越來越多研究者的關(guān)注。本文嘗試從拓寬算法應(yīng)用范圍、改善學(xué)習(xí)效率等角度對強(qiáng)化學(xué)習(xí)算法進(jìn)行研究,主要工作和創(chuàng)新如下:首先,針對不同馬爾科夫決策過程（Markov Decision Process,MDP）中的相似度量問題,探討了一種改進(jìn)的相似度量算法,避免了先驗(yàn)知識和狀態(tài)空間的約束,拓寬了算法的應(yīng)用范圍。其次,針對聚焦對象Q學(xué)習(xí)算法的復(fù)雜度和穩(wěn)定性問題,探討了一種簡化的聚焦對象Q學(xué)習(xí)算法（Simplified Object Focused Q-learning,SOF-Q）,通過采用新的控制策略來規(guī)避忽視狀態(tài)空間帶來的風(fēng)險(xiǎn),仿真結(jié)果表明,SOF-Q算法在計(jì)算量和收斂穩(wěn)定性上都有一定程度的改善。最后,針對OF-Q和SOF-Q中的控制錯覺問題,基于Dyna架構(gòu)改進(jìn)了聚焦對象Q學(xué)習(xí)算法,通過將Dyna架構(gòu)與聚焦對象的馬爾科夫決策過程相結(jié)合來進(jìn)行全局Q值的估計(jì),利用了兩者在狀態(tài)空間探索利用上的優(yōu)勢,仿真結(jié)...

【文章來源】：東南大學(xué)江蘇省 211工程院校 985工程院校教育部直屬院校

【文章頁數(shù)】：53 頁

【學(xué)位級別】：碩士

【部分圖文】：

馬爾科夫決策過程中agent與環(huán)境的互動[3]

規(guī)劃過程,優(yōu)策略,空間規(guī)劃,最優(yōu)策略

規(guī)劃過程

采樣式,規(guī)劃方法,單步,表格

圖 2.3 學(xué)習(xí)、規(guī)劃以及動作之間的關(guān)系[3] 中所有的過程，規(guī)劃、動作、模型學(xué)習(xí)以及直采樣式單步表格 Q 規(guī)劃方法。直接強(qiáng)化學(xué)習(xí)是基于表格的，并且假定為確定環(huán)境。每次發(fā)生

本文編號：3090621

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3090621.html

上一篇：面向無人機(jī)通信系統(tǒng)的功率分配關(guān)鍵技術(shù)研究
下一篇：基于DEA算法的VTS性能評估

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

聚焦對象的強(qiáng)化學(xué)習(xí)算法研究