天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

深度強(qiáng)化學(xué)習(xí)算法及應(yīng)用研究

發(fā)布時(shí)間:2022-12-06 02:56
  目前機(jī)器人技術(shù)的研究已經(jīng)從傳統(tǒng)的機(jī)械動(dòng)力學(xué)開(kāi)始向智能化控制方向進(jìn)行轉(zhuǎn)變,特別是綜合吸收了控制理論、人工神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)等領(lǐng)域的研究成果后,機(jī)器人技術(shù)已經(jīng)逐漸成為了人工智能領(lǐng)域的核心之一。如何賦予機(jī)器人自主學(xué)習(xí)的能力是機(jī)器人技術(shù)發(fā)展的關(guān)鍵之一,也是當(dāng)前機(jī)器人技術(shù)領(lǐng)域研究和關(guān)注的重點(diǎn),機(jī)器人只有具備了自主學(xué)習(xí)能力才能稱(chēng)之為智能機(jī)器人。因此,如何設(shè)計(jì)更好的機(jī)器學(xué)習(xí)算法并用來(lái)提升機(jī)器人智能化水平具有重大與深遠(yuǎn)的意義。強(qiáng)化學(xué)習(xí)作為近年來(lái)機(jī)器學(xué)習(xí)領(lǐng)域中的重要算法之一,其最大的特點(diǎn)是可以在不給定標(biāo)簽訓(xùn)練數(shù)據(jù)的情況下,通過(guò)與環(huán)境的不斷交互自主的進(jìn)行學(xué)習(xí),是提高機(jī)器人智能化水平的核心技術(shù)之一,尤其是近年來(lái)強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)結(jié)合的深度強(qiáng)化學(xué)習(xí)展現(xiàn)了極強(qiáng)的學(xué)習(xí)能力。雖然當(dāng)前深度強(qiáng)化學(xué)習(xí)算法在機(jī)器人智能化提升方面得到了長(zhǎng)足的發(fā)展,并且也獲得了許多成功,但是深度強(qiáng)化學(xué)習(xí)的研究仍然處于初級(jí)階段,在實(shí)際應(yīng)用中仍舊存在著一些問(wèn)題和挑戰(zhàn),比如獎(jiǎng)賞黑客問(wèn)題、數(shù)據(jù)利用效率問(wèn)題和運(yùn)動(dòng)平滑性問(wèn)題等。這些缺點(diǎn)直接影響了強(qiáng)化學(xué)習(xí)在現(xiàn)實(shí)環(huán)境中的性能表現(xiàn),甚至?xí)䦟?duì)智能體帶來(lái)一定的損害。因此,本文以這些問(wèn)題和挑戰(zhàn)作為出發(fā)點(diǎn),對(duì)現(xiàn)有的強(qiáng)... 

【文章頁(yè)數(shù)】:117 頁(yè)

【學(xué)位級(jí)別】:博士

【文章目錄】:
摘要
Abstract
符號(hào)說(shuō)明表
第一章 緒論
    1.1 研究背景和意義
    1.2 強(qiáng)化學(xué)習(xí)研究現(xiàn)狀
        1.2.1 經(jīng)典強(qiáng)化學(xué)習(xí)方法研究現(xiàn)狀
        1.2.2 深度強(qiáng)化學(xué)習(xí)方法研究現(xiàn)狀
        1.2.3 問(wèn)題與挑戰(zhàn)
    1.3 本文主要工作
    1.4 論文組織結(jié)構(gòu)
    1.5 本章小結(jié)
第二章 強(qiáng)化學(xué)習(xí)的原理和常用算法概述
    2.1 引言
    2.2 強(qiáng)化學(xué)習(xí)的原理
        2.2.1 SARSA算法
        2.2.2 Q-learning算法
        2.2.3 確定性策略梯度算法
    2.3 深度強(qiáng)化學(xué)習(xí)原理
        2.3.1 深度Q網(wǎng)絡(luò)算法
        2.3.2 雙重深度Q網(wǎng)絡(luò)算法
        2.3.3 深度確定性策略梯度算法
    2.4 本章小結(jié)
第三章 基于在線策略的多步強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)
    3.1 引言
    3.2 基于在線策略的多步強(qiáng)化學(xué)習(xí)算法
        3.2.1 基于On-Policy的TD強(qiáng)化學(xué)習(xí)算法
        3.2.2 基于On-Policy的多步強(qiáng)化學(xué)習(xí)算法
    3.3 仿真實(shí)驗(yàn)及結(jié)果分析
        3.3.1 貓捉老鼠問(wèn)題
        3.3.2 山地車(chē)爬坡問(wèn)題
    3.4 討論
    3.5 本章小結(jié)
第四章 基于離線策略的多步深度強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)
    4.1 引言
    4.2 基于離線策略的多步深度強(qiáng)化學(xué)習(xí)算法
        4.2.1 基于Off-Policy的TD強(qiáng)化學(xué)習(xí)算法
        4.2.2 基于Off-Policy的多步強(qiáng)化學(xué)習(xí)算法
        4.2.3 多步深度強(qiáng)化學(xué)習(xí)算法
    4.3 仿真實(shí)驗(yàn)及結(jié)果分析
        4.3.1 仿真實(shí)驗(yàn)平臺(tái)設(shè)計(jì)
        4.3.2 仿真實(shí)驗(yàn)參數(shù)設(shè)置
        4.3.3 實(shí)驗(yàn)數(shù)據(jù)分析
        4.3.4 算法擴(kuò)展性分析
    4.4 討論
    4.5 本章小結(jié)
第五章 基于動(dòng)態(tài)運(yùn)動(dòng)基元的深度強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)
    5.1 引言
    5.2 基于動(dòng)態(tài)運(yùn)動(dòng)基元的深度強(qiáng)化學(xué)習(xí)算法
        5.2.1 分層動(dòng)態(tài)運(yùn)動(dòng)基元框架結(jié)構(gòu)設(shè)計(jì)
        5.2.2 低級(jí)控制器學(xué)習(xí)層次結(jié)構(gòu)
        5.2.3 高級(jí)策略學(xué)習(xí)層次結(jié)構(gòu)
    5.3 仿真實(shí)驗(yàn)及結(jié)果分析
        5.3.1 仿真實(shí)驗(yàn)平臺(tái)設(shè)計(jì)
        5.3.2 仿真實(shí)驗(yàn)參數(shù)設(shè)置
        5.3.3 實(shí)驗(yàn)結(jié)果分析
    5.4 討論
    5.5 本章小結(jié)
第六章 總結(jié)與展望
    6.1 論文工作總結(jié)
    6.2 未來(lái)工作展望
附錄1
附錄2
參考文獻(xiàn)
攻讀博士學(xué)位期間取得的研究成果
致謝
附件



本文編號(hào):3710914

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/3710914.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b5370***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com