基于強化學習的物體抓取方法研究
發(fā)布時間:2022-09-30 12:35
當前是智能化的時代,無論是對于傳統(tǒng)的工業(yè)機器人,還是對于目前技術(shù)并不太成熟的服務機器人,都提出了新的挑戰(zhàn)。而作為機器人的一項非常重要的能力,機械臂抓取物體一直是國內(nèi)外研究的熱點。隨著深度學習的不斷發(fā)展,基于計算機視覺的方法雖然已經(jīng)有很高的抓取成功率,但其效率和魯棒性較差。強化學習的抓取方法能夠在物品種類繁多且位姿任意擺放的環(huán)境下,通過自監(jiān)督學習的方式有效的完成抓取任務。首先,闡述了基于計算機視覺的傳統(tǒng)抓取方法和強化學習的基本原理,并且根據(jù)目標策略和行為策略的異同,分為在策略和離策略。在策略只利用目前已知的最優(yōu)選擇,容易收斂到局部最優(yōu)。相反,離策略通過保持探索,得到多樣化的數(shù)據(jù),來到達局部最優(yōu)。基于離策略的TD3算法在Mujoco環(huán)境中有較好的效果,但是卻并不適用于機械臂抓取任務。利用無導數(shù)優(yōu)化方法CEM代替TD3中的確定性策略(CEM-TD3),解決了TD3算法中環(huán)境獎勵稀疏的問題,使其更適用于物體抓取工作。其次,針對CEM-TD3算法中的Q函數(shù)進行網(wǎng)絡結(jié)構(gòu)設計。抓取模型以卷積神經(jīng)網(wǎng)絡為主要結(jié)構(gòu),輸入層分為狀態(tài)和動作,狀態(tài)需要經(jīng)過卷積層提取特征,動作則經(jīng)過全連接層后與其相加,輸出為Q值...
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 基于計算機視覺的抓取物體方法
1.2.2 基于深度強化學習的抓取物體方法
1.3 本文主要研究內(nèi)容和結(jié)構(gòu)安排
1.3.1 主要研究內(nèi)容
1.3.2 論文結(jié)構(gòu)
第2章 機械臂運動規(guī)劃方法
2.1 引言
2.2 基于計算機視覺的物體抓取方法
2.2.1 康奈爾數(shù)據(jù)集
2.2.2 基于計算機視覺的算法模型
2.2.3 基于計算機視覺的算法評估標準
2.3 基于深度強化學習的物體抓取方法
2.3.1 深度強化學習基本原理
2.3.2 基于在策略的PPO算法
2.4 本章小結(jié)
第3章 基于CEM-TD3物體抓取算法
3.1 動機
3.2 基于離策略的TD3算法
3.2.1 DDPG算法
3.2.2 TD3算法
3.3 CEM算法
3.4 基于CEM算法的TD3改進
3.5 算法架構(gòu)
3.6 本章小結(jié)
第4章 物體抓取CEM-TD3算法的網(wǎng)絡設計與實現(xiàn)
4.1 引言
4.2 CEM-TD3算法網(wǎng)絡設計
4.2.1 網(wǎng)絡結(jié)構(gòu)
4.2.2 卷積層
4.2.3 池化層
4.2.4 殘差網(wǎng)絡
4.2.5 損失函數(shù)
4.2.6 激活函數(shù)
4.3 CEM-TD3算法網(wǎng)絡訓練
4.3.1 優(yōu)化方法
4.3.2 防止過擬合
4.4 仿真實驗結(jié)果分析
4.4.1 仿真實驗環(huán)境搭建
4.4.2 仿真實驗設置
4.4.3 實驗結(jié)果與分析
4.5 本章小結(jié)
結(jié)論
參考文獻
攻讀碩士學位期間發(fā)表的論文及其它成果
致謝
【參考文獻】:
期刊論文
[1]基于三級卷積神經(jīng)網(wǎng)絡的物體抓取檢測[J]. 喻群超,尚偉偉,張馳. 機器人. 2018(05)
[2]基于深度學習的機器人抓取位置檢測方法[J]. 閆哲,杜學丹,曹淼,蔡瑩皓,魯濤,王碩. 高技術(shù)通訊. 2018(01)
碩士論文
[1]基于深度強化學習的機器人抓取方法研究[D]. 董貫濤.哈爾濱工業(yè)大學 2019
[2]基于深度圖像和深度學習的機器人抓取檢測算法研究[D]. 王斌.浙江大學 2019
本文編號:3683564
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 基于計算機視覺的抓取物體方法
1.2.2 基于深度強化學習的抓取物體方法
1.3 本文主要研究內(nèi)容和結(jié)構(gòu)安排
1.3.1 主要研究內(nèi)容
1.3.2 論文結(jié)構(gòu)
第2章 機械臂運動規(guī)劃方法
2.1 引言
2.2 基于計算機視覺的物體抓取方法
2.2.1 康奈爾數(shù)據(jù)集
2.2.2 基于計算機視覺的算法模型
2.2.3 基于計算機視覺的算法評估標準
2.3 基于深度強化學習的物體抓取方法
2.3.1 深度強化學習基本原理
2.3.2 基于在策略的PPO算法
2.4 本章小結(jié)
第3章 基于CEM-TD3物體抓取算法
3.1 動機
3.2 基于離策略的TD3算法
3.2.1 DDPG算法
3.2.2 TD3算法
3.3 CEM算法
3.4 基于CEM算法的TD3改進
3.5 算法架構(gòu)
3.6 本章小結(jié)
第4章 物體抓取CEM-TD3算法的網(wǎng)絡設計與實現(xiàn)
4.1 引言
4.2 CEM-TD3算法網(wǎng)絡設計
4.2.1 網(wǎng)絡結(jié)構(gòu)
4.2.2 卷積層
4.2.3 池化層
4.2.4 殘差網(wǎng)絡
4.2.5 損失函數(shù)
4.2.6 激活函數(shù)
4.3 CEM-TD3算法網(wǎng)絡訓練
4.3.1 優(yōu)化方法
4.3.2 防止過擬合
4.4 仿真實驗結(jié)果分析
4.4.1 仿真實驗環(huán)境搭建
4.4.2 仿真實驗設置
4.4.3 實驗結(jié)果與分析
4.5 本章小結(jié)
結(jié)論
參考文獻
攻讀碩士學位期間發(fā)表的論文及其它成果
致謝
【參考文獻】:
期刊論文
[1]基于三級卷積神經(jīng)網(wǎng)絡的物體抓取檢測[J]. 喻群超,尚偉偉,張馳. 機器人. 2018(05)
[2]基于深度學習的機器人抓取位置檢測方法[J]. 閆哲,杜學丹,曹淼,蔡瑩皓,魯濤,王碩. 高技術(shù)通訊. 2018(01)
碩士論文
[1]基于深度強化學習的機器人抓取方法研究[D]. 董貫濤.哈爾濱工業(yè)大學 2019
[2]基于深度圖像和深度學習的機器人抓取檢測算法研究[D]. 王斌.浙江大學 2019
本文編號:3683564
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3683564.html
最近更新
教材專著