聚焦對(duì)象的強(qiáng)化學(xué)習(xí)算法研究
發(fā)布時(shí)間:2021-03-20 07:46
強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要分支,它采用學(xué)習(xí)與智能理論的一個(gè)基本想法——“通過(guò)與環(huán)境互動(dòng)進(jìn)行學(xué)習(xí)”來(lái)求解序列決策問(wèn)題。由于其獨(dú)特的“試錯(cuò)式(trialand-error)”學(xué)習(xí)機(jī)制,近年來(lái)得到越來(lái)越多研究者的關(guān)注。本文嘗試從拓寬算法應(yīng)用范圍、改善學(xué)習(xí)效率等角度對(duì)強(qiáng)化學(xué)習(xí)算法進(jìn)行研究,主要工作和創(chuàng)新如下:首先,針對(duì)不同馬爾科夫決策過(guò)程(Markov Decision Process,MDP)中的相似度量問(wèn)題,探討了一種改進(jìn)的相似度量算法,避免了先驗(yàn)知識(shí)和狀態(tài)空間的約束,拓寬了算法的應(yīng)用范圍。其次,針對(duì)聚焦對(duì)象Q學(xué)習(xí)算法的復(fù)雜度和穩(wěn)定性問(wèn)題,探討了一種簡(jiǎn)化的聚焦對(duì)象Q學(xué)習(xí)算法(Simplified Object Focused Q-learning,SOF-Q),通過(guò)采用新的控制策略來(lái)規(guī)避忽視狀態(tài)空間帶來(lái)的風(fēng)險(xiǎn),仿真結(jié)果表明,SOF-Q算法在計(jì)算量和收斂穩(wěn)定性上都有一定程度的改善。最后,針對(duì)OF-Q和SOF-Q中的控制錯(cuò)覺(jué)問(wèn)題,基于Dyna架構(gòu)改進(jìn)了聚焦對(duì)象Q學(xué)習(xí)算法,通過(guò)將Dyna架構(gòu)與聚焦對(duì)象的馬爾科夫決策過(guò)程相結(jié)合來(lái)進(jìn)行全局Q值的估計(jì),利用了兩者在狀態(tài)空間探索利用上的優(yōu)勢(shì),仿真結(jié)...
【文章來(lái)源】:東南大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:53 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
馬爾科夫決策過(guò)程中agent與環(huán)境的互動(dòng)[3]
規(guī)劃過(guò)程
圖 2.3 學(xué)習(xí)、規(guī)劃以及動(dòng)作之間的關(guān)系[3] 中所有的過(guò)程,規(guī)劃、動(dòng)作、模型學(xué)習(xí)以及直采樣式單步表格 Q 規(guī)劃方法。直接強(qiáng)化學(xué)習(xí)是基于表格的,并且假定為確定環(huán)境。每次發(fā)生
本文編號(hào):3090621
【文章來(lái)源】:東南大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:53 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
馬爾科夫決策過(guò)程中agent與環(huán)境的互動(dòng)[3]
規(guī)劃過(guò)程
圖 2.3 學(xué)習(xí)、規(guī)劃以及動(dòng)作之間的關(guān)系[3] 中所有的過(guò)程,規(guī)劃、動(dòng)作、模型學(xué)習(xí)以及直采樣式單步表格 Q 規(guī)劃方法。直接強(qiáng)化學(xué)習(xí)是基于表格的,并且假定為確定環(huán)境。每次發(fā)生
本文編號(hào):3090621
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3090621.html
最近更新
教材專(zhuān)著