天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動(dòng)化論文 >

基于強(qiáng)化學(xué)習(xí)的稀疏獎(jiǎng)勵(lì)問題研究

發(fā)布時(shí)間:2021-03-12 03:52
  隨著幾年前DeepMind開發(fā)的人工智能圍棋程序的爆炸新聞,以及后續(xù)的AlphaZero在日本將棋上的大放異彩,還有后來OpenAI在電子競技游戲Dota2上取得的驚人成績,相信大家對(duì)于強(qiáng)化學(xué)習(xí)已經(jīng)有了一定的了解。傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法雖然在一些簡單的環(huán)境中可以很好的收斂,但是由于無法面對(duì)復(fù)雜的環(huán)境以及無法處理來自環(huán)境的直接感官數(shù)據(jù),所以應(yīng)用范圍一直很受限制。而隨著深度學(xué)習(xí)算法的大力發(fā)展,人們看到了深度學(xué)習(xí)算法的優(yōu)勢所在,于是一種新的趨勢就是將深度神經(jīng)網(wǎng)絡(luò)技術(shù)與強(qiáng)化學(xué)習(xí)算法相結(jié)合,并且相互結(jié)合之后的深度強(qiáng)化學(xué)習(xí)算法,正在逐漸成為強(qiáng)化學(xué)習(xí)領(lǐng)域非常有意義的研究方向。然而在強(qiáng)化學(xué)習(xí)面對(duì)的實(shí)際問題中,稀疏獎(jiǎng)勵(lì)的問題一直是亟待解決的難題之一,即使是深度強(qiáng)化學(xué)習(xí)算法也無法很好的在獎(jiǎng)勵(lì)稀疏的環(huán)境中學(xué)習(xí)。人們不停的探索,通過人為設(shè)計(jì)獎(jiǎng)勵(lì),課程學(xué)習(xí),好奇心機(jī)制,分層強(qiáng)化學(xué)習(xí)等不同的方法去改善模型,希望能在稀疏獎(jiǎng)勵(lì)環(huán)境中更好的訓(xùn)練。但是效果上并不十分理想,存在很多局限性。本文是基于DQN算法中的經(jīng)驗(yàn)回放技術(shù),通過改進(jìn)經(jīng)驗(yàn)池中狀態(tài)存儲(chǔ)的規(guī)則以及目標(biāo)的設(shè)定,并且通過A3C算法提供的并行思想,設(shè)計(jì)并行化框架,從而使... 

【文章來源】:中國地質(zhì)大學(xué)(北京)北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:59 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于強(qiáng)化學(xué)習(xí)的稀疏獎(jiǎng)勵(lì)問題研究


好奇心機(jī)制結(jié)構(gòu)

基于強(qiáng)化學(xué)習(xí)的稀疏獎(jiǎng)勵(lì)問題研究


機(jī)器設(shè)計(jì)課程圖示(a)

基于強(qiáng)化學(xué)習(xí)的稀疏獎(jiǎng)勵(lì)問題研究


機(jī)器設(shè)計(jì)課程圖示(b)


本文編號(hào):3077632

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3077632.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4cbf3***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com