天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于流形學(xué)習(xí)的強(qiáng)化學(xué)習(xí)算法研究

發(fā)布時間:2024-01-29 06:53
  如何表示數(shù)據(jù)和怎樣自動發(fā)現(xiàn)options是強(qiáng)化學(xué)習(xí)面臨的兩個巨大挑戰(zhàn)。近年來分層強(qiáng)化學(xué)習(xí)在解決“維數(shù)災(zāi)難”問題方面取得了顯著進(jìn)展,其主要思想是將任務(wù)層次分解為子任務(wù),從而加速智能體的學(xué)習(xí)和規(guī)劃過程。目前的層次化分解方法基本都是根據(jù)先驗知識預(yù)先設(shè)計好的,并不是自動生成的。特別是在動態(tài)變化的復(fù)雜領(lǐng)域,單憑先驗知識預(yù)先設(shè)計層次結(jié)構(gòu),在實際應(yīng)用中很難實現(xiàn)。子任務(wù)的自動發(fā)現(xiàn)問題已經(jīng)成為分層強(qiáng)化學(xué)習(xí)研究領(lǐng)域的熱點。流形學(xué)習(xí)作為一種重要的特征表示和降維技術(shù),在模式識別中得到了廣泛的研究。特征表示不僅對模式識別至關(guān)重要,而且對解決具有大規(guī)模或連續(xù)狀態(tài)空間的序列決策問題也至關(guān)重要。因此,對于強(qiáng)化學(xué)習(xí)算法,非常有必要研究各種具有不同屬性的特征學(xué)習(xí)方法,從而使其在不同的情況下獲得更好的性能。為此,針對目前options發(fā)現(xiàn)方法中仍然存在的一些問題與不足,本文主要從策略構(gòu)建方面和options的構(gòu)造方面展開研究,提出相應(yīng)的改進(jìn)算法。主要研究工作如下:第一,針對options發(fā)現(xiàn)問題,本文提出了一種基于拉普拉斯特征映射的options自動發(fā)現(xiàn)算法。該算法通過PVFs間接定義options來解決options自動...

【文章頁數(shù)】:87 頁

【學(xué)位級別】:碩士

圖9面上基金資助率隨申請人年齡的分布

圖9面上基金資助率隨申請人年齡的分布


圖1-1論文組織結(jié)構(gòu)

圖1-1論文組織結(jié)構(gòu)


圖2-1強(qiáng)化學(xué)習(xí)模型

圖2-1強(qiáng)化學(xué)習(xí)模型


圖2-2強(qiáng)化學(xué)習(xí)四要素

圖2-2強(qiáng)化學(xué)習(xí)四要素



本文編號:3887880

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3887880.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9342a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com