針對機器人運動規(guī)劃的深度強化學習方法的研究
發(fā)布時間:2023-03-11 17:08
機器人在工業(yè)制造和人們的生活中發(fā)揮著重要的作用,在全自動化工廠(fullyautomatic factory)和無人駕駛(the driverless car)等領域都離不開機器人和相關機器人技術的支持。近年來,機器人運動規(guī)劃已經成為了機器人學、自動化控制和人工智能等領域的研究熱點之一。不過,機器人運動規(guī)劃大多是基于精確的環(huán)境模型,無法處理不確定條件下的運動規(guī)劃問題。該文針對不確定條件下機器人運動規(guī)劃問題,提出使用深度強化學習的方法進行研究。概述運動規(guī)劃相關知識,并分析傳統(tǒng)運動規(guī)劃方法所存在的問題;介紹強化學習和深度學習,分析強化學習應用在機器人運動規(guī)劃上所存在的問題,并提出將深度學習與強化學習相結合以解決傳統(tǒng)強化學習的高維度問題;分析深度強化學習方法應用在機器人運動規(guī)劃上所存在的關鍵性問題,即獎勵值模型、探索策略和神經網絡結構,并給出相應的解決方法。該文主要內容如下:1.對強化學習中的獎勵值模型進行研究。分析獎勵值模型的影響因素及存在的問題,為更快速的訓練系統(tǒng),該文提出基于系統(tǒng)收斂速度的獎勵值模型,并開展不同獎勵值模型之間的對比實驗。2.對強化學習中探索與開發(fā)的平衡問題進行研究。分析...
【文章頁數】:74 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
注釋表
第1章 緒論
1.1 機器人定義及發(fā)展
1.2 課題背景及意義
1.3 課題研究現狀
1.3.1 運動規(guī)劃的研究現狀
1.3.2 強化學習的研究現狀
1.4 論文的主要內容
1.5 論文的組織結構
第2章 課題相關理論基礎
2.1 運動規(guī)劃概述
2.1.1 構型空間
2.1.2 自由空間
2.1.3 運動規(guī)劃定義
2.1.4 不確定條件下的運動規(guī)劃
2.1.5 約束準則
2.2 強化學習概述
2.2.1 有限馬爾科夫決策過程
2.2.2 動態(tài)規(guī)劃
2.2.3 蒙特卡洛方法
2.2.4 時序差分學習
2.3 深度學習概述
2.3.1 人工神經元
2.3.2 卷積神經網絡組成
2.4 本章小結
第3章 基于深度強化學習的機器人運動規(guī)劃研究
3.1 函數逼近
3.2 深度強化學習
3.3 訓練樣本
3.4 獎勵值模型
3.5 探索策略
3.5.1 ?-greedy
3.5.2 N?-greedy
3.6 神經網絡結構分析與設計
3.7 基于深度強化學習的機器人運動規(guī)劃流程分析
3.8 本章小結
第4章 深度強化學習算法在機器人運動規(guī)劃中的應用研究
4.1 網絡優(yōu)化算法
4.2 算法描述
4.3 實驗結果與分析
4.3.1 實驗環(huán)境
4.3.2 實驗仿真結果
4.3.3 獎勵模型實驗對比
4.3.4 神經網絡結構實驗對比
4.3.5 探索策略實驗對比
4.4 本章小結
第5章 結論與展望
5.1 結論
5.2 展望
參考文獻
致謝
攻讀碩士學位期間從事的科研工作及取得的成果
本文編號:3759911
【文章頁數】:74 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
注釋表
第1章 緒論
1.1 機器人定義及發(fā)展
1.2 課題背景及意義
1.3 課題研究現狀
1.3.1 運動規(guī)劃的研究現狀
1.3.2 強化學習的研究現狀
1.4 論文的主要內容
1.5 論文的組織結構
第2章 課題相關理論基礎
2.1 運動規(guī)劃概述
2.1.1 構型空間
2.1.2 自由空間
2.1.3 運動規(guī)劃定義
2.1.4 不確定條件下的運動規(guī)劃
2.1.5 約束準則
2.2 強化學習概述
2.2.1 有限馬爾科夫決策過程
2.2.2 動態(tài)規(guī)劃
2.2.3 蒙特卡洛方法
2.2.4 時序差分學習
2.3 深度學習概述
2.3.1 人工神經元
2.3.2 卷積神經網絡組成
2.4 本章小結
第3章 基于深度強化學習的機器人運動規(guī)劃研究
3.1 函數逼近
3.2 深度強化學習
3.3 訓練樣本
3.4 獎勵值模型
3.5 探索策略
3.5.1 ?-greedy
3.5.2 N?-greedy
3.6 神經網絡結構分析與設計
3.7 基于深度強化學習的機器人運動規(guī)劃流程分析
3.8 本章小結
第4章 深度強化學習算法在機器人運動規(guī)劃中的應用研究
4.1 網絡優(yōu)化算法
4.2 算法描述
4.3 實驗結果與分析
4.3.1 實驗環(huán)境
4.3.2 實驗仿真結果
4.3.3 獎勵模型實驗對比
4.3.4 神經網絡結構實驗對比
4.3.5 探索策略實驗對比
4.4 本章小結
第5章 結論與展望
5.1 結論
5.2 展望
參考文獻
致謝
攻讀碩士學位期間從事的科研工作及取得的成果
本文編號:3759911
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3759911.html