基于強化學習的機械臂投擲問題研究
發(fā)布時間:2022-10-09 18:55
當前投擲問題的研究主要著重于對運動軌跡的優(yōu)化,對其釋放動作的研究較少。尤其在使用強化學習方法時,該問題尤為明顯。近年來,強化學習被廣為應(yīng)用在各種領(lǐng)域。然而當某些動作有著特殊限制的情況時,直接使用強化學習算法處理將難以得到有效的結(jié)果。本文研究的投擲問題就有著這類問題的特點。本文研究使用強化學習處理帶釋放動作的機械臂投擲問題。由于釋放動作有著執(zhí)行后會直接結(jié)束本回合的特殊限制,釋放動作會影響策略的學習。本文針對該問題提出了結(jié)合貝葉斯優(yōu)化的強化學習方法,并在實踐中證明該方法的有效性。本文先介紹了當前強化學習的發(fā)展和機械臂控制方面的研究現(xiàn)狀,以及基于強化學習的機械臂控制的研究意義。并發(fā)現(xiàn)眾多基于強化學習的機械臂投擲研究中,對釋放動作的簡化。因此本文將直面該問題,研究如何使用強化學習處理不簡化釋放動作的投擲問題。其次,本文詳細介紹了強化學習的相關(guān)知識。包括強化學習的基礎(chǔ)知識、分類方法等,并對一些主流算法的發(fā)展以及各個算法之間的優(yōu)勢、特點進行介紹。接著,本文研究帶釋放動作的機械臂投擲問題。本文先具體化一個帶釋放動作的機械臂投擲任務(wù),再基于V-REP仿真平臺,構(gòu)建仿真環(huán)境,直接對接強化學習算法進行實驗...
【文章頁數(shù)】:59 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題背景與研究意義
1.2 強化學習研究現(xiàn)狀
1.3 機械臂投擲研究現(xiàn)狀
1.4 本文主要工作
1.5 本文組織結(jié)構(gòu)
第2章 深度強化學習
2.1 強化學習基礎(chǔ)
2.1.1 馬爾科夫決策過程
2.1.2 動態(tài)規(guī)劃方法
2.1.3 蒙特卡羅方法
2.1.4 時間差分方法
2.2 強化學習算法分類
2.2.1 Model-based和Model-free方法
2.2.2 Value-based、Policy-based和Actor-Critic方法
2.2.3 On-policy和Off-policy方法
2.3 深度強化學習算法的發(fā)展
2.3.1 深度Q網(wǎng)絡(luò)(DQN)算法
2.3.2 策略梯度(PG)算法
2.3.3 演員-評論家(AC)算法
2.3.4 深度確定策略梯度(DDPG)算法
2.3.5 信賴域策略優(yōu)化(TRPO)算法
2.3.6 近端策略優(yōu)化(PPO)算法
第3章 基于深度強化學習的投擲控制方法
3.1 本文的特點與難點
3.2 選擇強化學習算法
3.3 選擇貝葉斯優(yōu)化方法
3.4 結(jié)合貝葉斯優(yōu)化與強化學習方法
第4章 仿真環(huán)境與訓(xùn)練場景
4.1 V-REP機器人仿真環(huán)境
4.2 仿真環(huán)境場景模型搭建
4.3 強化學習場景構(gòu)造
4.4 對接場景與算法
第5章 實驗結(jié)果分析
5.1 單純的強化學習方法
5.2 強制約束釋放時機結(jié)合強化學習方法
5.3 結(jié)合貝葉斯優(yōu)化的強化學習方法
第6章 結(jié)論與展望
6.1 結(jié)論
6.2 展望
致謝
參考文獻
本文編號:3689178
【文章頁數(shù)】:59 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題背景與研究意義
1.2 強化學習研究現(xiàn)狀
1.3 機械臂投擲研究現(xiàn)狀
1.4 本文主要工作
1.5 本文組織結(jié)構(gòu)
第2章 深度強化學習
2.1 強化學習基礎(chǔ)
2.1.1 馬爾科夫決策過程
2.1.2 動態(tài)規(guī)劃方法
2.1.3 蒙特卡羅方法
2.1.4 時間差分方法
2.2 強化學習算法分類
2.2.1 Model-based和Model-free方法
2.2.2 Value-based、Policy-based和Actor-Critic方法
2.2.3 On-policy和Off-policy方法
2.3 深度強化學習算法的發(fā)展
2.3.1 深度Q網(wǎng)絡(luò)(DQN)算法
2.3.2 策略梯度(PG)算法
2.3.3 演員-評論家(AC)算法
2.3.4 深度確定策略梯度(DDPG)算法
2.3.5 信賴域策略優(yōu)化(TRPO)算法
2.3.6 近端策略優(yōu)化(PPO)算法
第3章 基于深度強化學習的投擲控制方法
3.1 本文的特點與難點
3.2 選擇強化學習算法
3.3 選擇貝葉斯優(yōu)化方法
3.4 結(jié)合貝葉斯優(yōu)化與強化學習方法
第4章 仿真環(huán)境與訓(xùn)練場景
4.1 V-REP機器人仿真環(huán)境
4.2 仿真環(huán)境場景模型搭建
4.3 強化學習場景構(gòu)造
4.4 對接場景與算法
第5章 實驗結(jié)果分析
5.1 單純的強化學習方法
5.2 強制約束釋放時機結(jié)合強化學習方法
5.3 結(jié)合貝葉斯優(yōu)化的強化學習方法
第6章 結(jié)論與展望
6.1 結(jié)論
6.2 展望
致謝
參考文獻
本文編號:3689178
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3689178.html
最近更新
教材專著