基于流形學(xué)習(xí)的強(qiáng)化學(xué)習(xí)算法研究
發(fā)布時間:2024-01-29 06:53
如何表示數(shù)據(jù)和怎樣自動發(fā)現(xiàn)options是強(qiáng)化學(xué)習(xí)面臨的兩個巨大挑戰(zhàn)。近年來分層強(qiáng)化學(xué)習(xí)在解決“維數(shù)災(zāi)難”問題方面取得了顯著進(jìn)展,其主要思想是將任務(wù)層次分解為子任務(wù),從而加速智能體的學(xué)習(xí)和規(guī)劃過程。目前的層次化分解方法基本都是根據(jù)先驗知識預(yù)先設(shè)計好的,并不是自動生成的。特別是在動態(tài)變化的復(fù)雜領(lǐng)域,單憑先驗知識預(yù)先設(shè)計層次結(jié)構(gòu),在實際應(yīng)用中很難實現(xiàn)。子任務(wù)的自動發(fā)現(xiàn)問題已經(jīng)成為分層強(qiáng)化學(xué)習(xí)研究領(lǐng)域的熱點。流形學(xué)習(xí)作為一種重要的特征表示和降維技術(shù),在模式識別中得到了廣泛的研究。特征表示不僅對模式識別至關(guān)重要,而且對解決具有大規(guī)模或連續(xù)狀態(tài)空間的序列決策問題也至關(guān)重要。因此,對于強(qiáng)化學(xué)習(xí)算法,非常有必要研究各種具有不同屬性的特征學(xué)習(xí)方法,從而使其在不同的情況下獲得更好的性能。為此,針對目前options發(fā)現(xiàn)方法中仍然存在的一些問題與不足,本文主要從策略構(gòu)建方面和options的構(gòu)造方面展開研究,提出相應(yīng)的改進(jìn)算法。主要研究工作如下:第一,針對options發(fā)現(xiàn)問題,本文提出了一種基于拉普拉斯特征映射的options自動發(fā)現(xiàn)算法。該算法通過PVFs間接定義options來解決options自動...
【文章頁數(shù)】:87 頁
【學(xué)位級別】:碩士
本文編號:3887880
【文章頁數(shù)】:87 頁
【學(xué)位級別】:碩士
圖9面上基金資助率隨申請人年齡的分布
圖1-1論文組織結(jié)構(gòu)
圖2-1強(qiáng)化學(xué)習(xí)模型
圖2-2強(qiáng)化學(xué)習(xí)四要素
本文編號:3887880
本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3887880.html
最近更新
教材專著