聚焦對象的強(qiáng)化學(xué)習(xí)算法研究
發(fā)布時間:2021-03-20 07:46
強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域的一個重要分支,它采用學(xué)習(xí)與智能理論的一個基本想法——“通過與環(huán)境互動進(jìn)行學(xué)習(xí)”來求解序列決策問題。由于其獨(dú)特的“試錯式(trialand-error)”學(xué)習(xí)機(jī)制,近年來得到越來越多研究者的關(guān)注。本文嘗試從拓寬算法應(yīng)用范圍、改善學(xué)習(xí)效率等角度對強(qiáng)化學(xué)習(xí)算法進(jìn)行研究,主要工作和創(chuàng)新如下:首先,針對不同馬爾科夫決策過程(Markov Decision Process,MDP)中的相似度量問題,探討了一種改進(jìn)的相似度量算法,避免了先驗(yàn)知識和狀態(tài)空間的約束,拓寬了算法的應(yīng)用范圍。其次,針對聚焦對象Q學(xué)習(xí)算法的復(fù)雜度和穩(wěn)定性問題,探討了一種簡化的聚焦對象Q學(xué)習(xí)算法(Simplified Object Focused Q-learning,SOF-Q),通過采用新的控制策略來規(guī)避忽視狀態(tài)空間帶來的風(fēng)險(xiǎn),仿真結(jié)果表明,SOF-Q算法在計(jì)算量和收斂穩(wěn)定性上都有一定程度的改善。最后,針對OF-Q和SOF-Q中的控制錯覺問題,基于Dyna架構(gòu)改進(jìn)了聚焦對象Q學(xué)習(xí)算法,通過將Dyna架構(gòu)與聚焦對象的馬爾科夫決策過程相結(jié)合來進(jìn)行全局Q值的估計(jì),利用了兩者在狀態(tài)空間探索利用上的優(yōu)勢,仿真結(jié)...
【文章來源】:東南大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:53 頁
【學(xué)位級別】:碩士
【部分圖文】:
馬爾科夫決策過程中agent與環(huán)境的互動[3]
規(guī)劃過程
圖 2.3 學(xué)習(xí)、規(guī)劃以及動作之間的關(guān)系[3] 中所有的過程,規(guī)劃、動作、模型學(xué)習(xí)以及直采樣式單步表格 Q 規(guī)劃方法。直接強(qiáng)化學(xué)習(xí)是基于表格的,并且假定為確定環(huán)境。每次發(fā)生
本文編號:3090621
【文章來源】:東南大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:53 頁
【學(xué)位級別】:碩士
【部分圖文】:
馬爾科夫決策過程中agent與環(huán)境的互動[3]
規(guī)劃過程
圖 2.3 學(xué)習(xí)、規(guī)劃以及動作之間的關(guān)系[3] 中所有的過程,規(guī)劃、動作、模型學(xué)習(xí)以及直采樣式單步表格 Q 規(guī)劃方法。直接強(qiáng)化學(xué)習(xí)是基于表格的,并且假定為確定環(huán)境。每次發(fā)生
本文編號:3090621
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3090621.html
最近更新
教材專著