天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

基于強化學習的機械臂投擲問題研究

發(fā)布時間:2022-10-09 18:55
  當前投擲問題的研究主要著重于對運動軌跡的優(yōu)化,對其釋放動作的研究較少。尤其在使用強化學習方法時,該問題尤為明顯。近年來,強化學習被廣為應(yīng)用在各種領(lǐng)域。然而當某些動作有著特殊限制的情況時,直接使用強化學習算法處理將難以得到有效的結(jié)果。本文研究的投擲問題就有著這類問題的特點。本文研究使用強化學習處理帶釋放動作的機械臂投擲問題。由于釋放動作有著執(zhí)行后會直接結(jié)束本回合的特殊限制,釋放動作會影響策略的學習。本文針對該問題提出了結(jié)合貝葉斯優(yōu)化的強化學習方法,并在實踐中證明該方法的有效性。本文先介紹了當前強化學習的發(fā)展和機械臂控制方面的研究現(xiàn)狀,以及基于強化學習的機械臂控制的研究意義。并發(fā)現(xiàn)眾多基于強化學習的機械臂投擲研究中,對釋放動作的簡化。因此本文將直面該問題,研究如何使用強化學習處理不簡化釋放動作的投擲問題。其次,本文詳細介紹了強化學習的相關(guān)知識。包括強化學習的基礎(chǔ)知識、分類方法等,并對一些主流算法的發(fā)展以及各個算法之間的優(yōu)勢、特點進行介紹。接著,本文研究帶釋放動作的機械臂投擲問題。本文先具體化一個帶釋放動作的機械臂投擲任務(wù),再基于V-REP仿真平臺,構(gòu)建仿真環(huán)境,直接對接強化學習算法進行實驗... 

【文章頁數(shù)】:59 頁

【學位級別】:碩士

【文章目錄】:
摘要
ABSTRACT
第1章 緒論
    1.1 課題背景與研究意義
    1.2 強化學習研究現(xiàn)狀
    1.3 機械臂投擲研究現(xiàn)狀
    1.4 本文主要工作
    1.5 本文組織結(jié)構(gòu)
第2章 深度強化學習
    2.1 強化學習基礎(chǔ)
        2.1.1 馬爾科夫決策過程
        2.1.2 動態(tài)規(guī)劃方法
        2.1.3 蒙特卡羅方法
        2.1.4 時間差分方法
    2.2 強化學習算法分類
        2.2.1 Model-based和Model-free方法
        2.2.2 Value-based、Policy-based和Actor-Critic方法
        2.2.3 On-policy和Off-policy方法
    2.3 深度強化學習算法的發(fā)展
        2.3.1 深度Q網(wǎng)絡(luò)(DQN)算法
        2.3.2 策略梯度(PG)算法
        2.3.3 演員-評論家(AC)算法
        2.3.4 深度確定策略梯度(DDPG)算法
        2.3.5 信賴域策略優(yōu)化(TRPO)算法
        2.3.6 近端策略優(yōu)化(PPO)算法
第3章 基于深度強化學習的投擲控制方法
    3.1 本文的特點與難點
    3.2 選擇強化學習算法
    3.3 選擇貝葉斯優(yōu)化方法
    3.4 結(jié)合貝葉斯優(yōu)化與強化學習方法
第4章 仿真環(huán)境與訓(xùn)練場景
    4.1 V-REP機器人仿真環(huán)境
    4.2 仿真環(huán)境場景模型搭建
    4.3 強化學習場景構(gòu)造
    4.4 對接場景與算法
第5章 實驗結(jié)果分析
    5.1 單純的強化學習方法
    5.2 強制約束釋放時機結(jié)合強化學習方法
    5.3 結(jié)合貝葉斯優(yōu)化的強化學習方法
第6章 結(jié)論與展望
    6.1 結(jié)論
    6.2 展望
致謝
參考文獻



本文編號:3689178

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3689178.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶95bb4***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com