基于DDPG強(qiáng)化學(xué)習(xí)的移動機(jī)器人路徑規(guī)劃
發(fā)布時(shí)間:2023-03-23 22:42
移動機(jī)器人在未知環(huán)境下的路徑規(guī)劃是機(jī)器人導(dǎo)航的核心問題,也是當(dāng)前眾多學(xué)者研究的熱點(diǎn)。強(qiáng)化學(xué)習(xí)作為基于獎(jiǎng)懲機(jī)制的非監(jiān)督算法,不依賴任何先驗(yàn)知識即可通過與環(huán)境交互選擇最優(yōu)動作,對于未知環(huán)境下的機(jī)器人路徑規(guī)劃具有較強(qiáng)的實(shí)用價(jià)值。路徑規(guī)劃任務(wù)需要輸出連續(xù)的動作空間,而基于Actor-Critic框架的深度確定策略梯度算法(Deep Deterministic Policy Gradient,DDPG)由于經(jīng)過策略直接輸出動作,有效解決了連續(xù)動作空間問題。本文使用DDPG強(qiáng)化學(xué)習(xí)算法研究未知環(huán)境下移動機(jī)器人的路徑規(guī)劃。論文分析了路徑規(guī)劃以及強(qiáng)化學(xué)習(xí)的國內(nèi)外研究現(xiàn)狀,探究了強(qiáng)化學(xué)習(xí)算法的分類以及發(fā)展歷程,并通過對已有多種強(qiáng)化學(xué)習(xí)算法的分析比較,最終選用結(jié)合神經(jīng)網(wǎng)絡(luò)的DDPG強(qiáng)化學(xué)習(xí)算法用于移動機(jī)器人的路徑規(guī)劃。對深度神經(jīng)網(wǎng)絡(luò)以及DDPG算法涉及到的經(jīng)驗(yàn)池回放等相關(guān)背景知識進(jìn)行了詳細(xì)描述,為后續(xù)DDPG算法改良奠定了理論基礎(chǔ)。為搭建DDPG算法路徑規(guī)劃框架,結(jié)合機(jī)器人環(huán)境狀態(tài)、動作空間設(shè)計(jì)了算法所需的神經(jīng)網(wǎng)絡(luò)模型,結(jié)合路徑規(guī)劃任務(wù)設(shè)計(jì)了算法的獎(jiǎng)賞函數(shù)。隨著DDPG算法學(xué)習(xí)能力的提升,固定大小的經(jīng)驗(yàn)池...
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 非智能路徑規(guī)劃研究現(xiàn)狀
1.2.2 智能路徑規(guī)劃研究現(xiàn)狀
1.3 強(qiáng)化學(xué)習(xí)算法研究現(xiàn)狀
1.4 全文內(nèi)容安排
第二章 DDPG路徑規(guī)劃模型
2.1 移動機(jī)器人運(yùn)動學(xué)模型
2.2 深度確定策略梯度(DDPG)算法
2.2.1 DQN算法
2.2.2 DDPG路徑規(guī)劃算法原理
2.2.3 深度神經(jīng)網(wǎng)絡(luò)
2.2.4 經(jīng)驗(yàn)池回放
2.3 本章小結(jié)
第三章 基于學(xué)習(xí)曲線理論的DDPG算法
3.1 獎(jiǎng)賞函數(shù)設(shè)計(jì)
3.2 激活函數(shù)的選擇
3.2.1 Sigmoid函數(shù)
3.2.2 Tanh函數(shù)
3.2.3 ReLU函數(shù)
3.3 神經(jīng)網(wǎng)絡(luò)模型搭建
3.3.1 策略神經(jīng)網(wǎng)絡(luò)
3.3.2 評價(jià)神經(jīng)網(wǎng)絡(luò)
3.4 基于學(xué)習(xí)曲線理論改進(jìn)DDPG算法
3.4.1 學(xué)習(xí)曲線理論概述
3.4.2 算法學(xué)習(xí)效率方程
3.4.3 DDPG-vcep算法
3.5 本章小結(jié)
第四章 路徑規(guī)劃仿真環(huán)境模型搭建
4.1 實(shí)驗(yàn)環(huán)境
4.1.1 開發(fā)環(huán)境
4.1.2 TensorFlow學(xué)習(xí)框架
4.1.3 Pyglet庫
4.2 仿真環(huán)境模型搭建
4.2.1 靜態(tài)圖形搭建
4.2.2 動態(tài)環(huán)境實(shí)現(xiàn)
4.2.3 環(huán)境模型建立
4.3 使用TensorFlow構(gòu)建網(wǎng)絡(luò)模型
4.4 仿真環(huán)境驗(yàn)證
4.5 本章小結(jié)
第五章 基于ROS的移動機(jī)器人路徑規(guī)劃實(shí)驗(yàn)
5.1 實(shí)驗(yàn)平臺簡介
5.1.1 Roch移動機(jī)器人平臺
5.1.2 激光雷達(dá)
5.2 ROS系統(tǒng)
5.2.1 ROS操作系統(tǒng)概述
5.2.2 ROS系統(tǒng)框架
5.3 ROS與 Gazebo聯(lián)合仿真
5.3.1 Gazebo簡介
5.3.2 建立環(huán)境與機(jī)器人仿真模型
5.3.3 激光雷達(dá)數(shù)據(jù)裁切
5.3.4 仿真實(shí)驗(yàn)
5.4 Roch 機(jī)器人實(shí)物實(shí)驗(yàn)
5.5 本章小結(jié)
結(jié)論與展望
參考文獻(xiàn)
致謝
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文及研究成果
個(gè)人簡歷
本文編號:3768896
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 非智能路徑規(guī)劃研究現(xiàn)狀
1.2.2 智能路徑規(guī)劃研究現(xiàn)狀
1.3 強(qiáng)化學(xué)習(xí)算法研究現(xiàn)狀
1.4 全文內(nèi)容安排
第二章 DDPG路徑規(guī)劃模型
2.1 移動機(jī)器人運(yùn)動學(xué)模型
2.2 深度確定策略梯度(DDPG)算法
2.2.1 DQN算法
2.2.2 DDPG路徑規(guī)劃算法原理
2.2.3 深度神經(jīng)網(wǎng)絡(luò)
2.2.4 經(jīng)驗(yàn)池回放
2.3 本章小結(jié)
第三章 基于學(xué)習(xí)曲線理論的DDPG算法
3.1 獎(jiǎng)賞函數(shù)設(shè)計(jì)
3.2 激活函數(shù)的選擇
3.2.1 Sigmoid函數(shù)
3.2.2 Tanh函數(shù)
3.2.3 ReLU函數(shù)
3.3 神經(jīng)網(wǎng)絡(luò)模型搭建
3.3.1 策略神經(jīng)網(wǎng)絡(luò)
3.3.2 評價(jià)神經(jīng)網(wǎng)絡(luò)
3.4 基于學(xué)習(xí)曲線理論改進(jìn)DDPG算法
3.4.1 學(xué)習(xí)曲線理論概述
3.4.2 算法學(xué)習(xí)效率方程
3.4.3 DDPG-vcep算法
3.5 本章小結(jié)
第四章 路徑規(guī)劃仿真環(huán)境模型搭建
4.1 實(shí)驗(yàn)環(huán)境
4.1.1 開發(fā)環(huán)境
4.1.2 TensorFlow學(xué)習(xí)框架
4.1.3 Pyglet庫
4.2 仿真環(huán)境模型搭建
4.2.1 靜態(tài)圖形搭建
4.2.2 動態(tài)環(huán)境實(shí)現(xiàn)
4.2.3 環(huán)境模型建立
4.3 使用TensorFlow構(gòu)建網(wǎng)絡(luò)模型
4.4 仿真環(huán)境驗(yàn)證
4.5 本章小結(jié)
第五章 基于ROS的移動機(jī)器人路徑規(guī)劃實(shí)驗(yàn)
5.1 實(shí)驗(yàn)平臺簡介
5.1.1 Roch移動機(jī)器人平臺
5.1.2 激光雷達(dá)
5.2 ROS系統(tǒng)
5.2.1 ROS操作系統(tǒng)概述
5.2.2 ROS系統(tǒng)框架
5.3 ROS與 Gazebo聯(lián)合仿真
5.3.1 Gazebo簡介
5.3.2 建立環(huán)境與機(jī)器人仿真模型
5.3.3 激光雷達(dá)數(shù)據(jù)裁切
5.3.4 仿真實(shí)驗(yàn)
5.4 Roch 機(jī)器人實(shí)物實(shí)驗(yàn)
5.5 本章小結(jié)
結(jié)論與展望
參考文獻(xiàn)
致謝
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文及研究成果
個(gè)人簡歷
本文編號:3768896
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3768896.html
最近更新
教材專著