面向未知環(huán)境的移動機器人導航方法研究
發(fā)布時間:2024-01-21 14:10
近年來,機器人領(lǐng)域發(fā)展迅速,特別是移動機器人應用越來越廣泛,其中移動機器人導航技術(shù)的發(fā)展也是突飛猛進,基于視覺傳感器的導航算法更是層出不窮。特別是,深度強化學習在某種程度上模仿了人類通過不斷取得進步激勵自己學習的過程,在不斷嘗試中學習在各個狀態(tài)下應該采取的行動。而這一特性與機器人的導航行為有很多接近的地方。本研究課題旨在利用這一思路,針對移動機器人在未知環(huán)境中的導航方法問題,研究基于深度強化學習的機器人導航方法。該方法可通過對深度相機采集的環(huán)境信息進行特征提取并作出決策,最終實現(xiàn)在未知的、復雜的工作環(huán)境中,移動機器人能夠自主完成起始點到目標點的導航任務,并得出最優(yōu)路徑。在課題研究過程中搭建了機器人仿真模擬環(huán)境,進行了 DDPG算法訓練、測評,并在測試環(huán)境中,與傳統(tǒng)Slam導航方法進行了對比實驗。實驗證明,基于深度強化學習的導航算法避免了建立地圖等繁瑣工作,與此同時在導航精度和計算時間上均優(yōu)于基于Slam的導航算法。更能滿足在不同陌生環(huán)境下的導航要求,更符合未來導航算法的發(fā)展方向。
【文章頁數(shù)】:70 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
1. 緒論
1.1. 課題研究背景
1.2. 課題研究實踐意義
1.3. 國內(nèi)外研究現(xiàn)狀
1.3.1. 移動機器人的發(fā)展現(xiàn)狀
1.3.2. 移動機器人導航技術(shù)研究現(xiàn)狀
1.4. 研究內(nèi)容及方法
1.5. 論文結(jié)構(gòu)
1.6. 本章小結(jié)
2. 深度強化學習理論及算法分析
2.1. 深度學習
2.1.1. 深度學習的理論基礎(chǔ)
2.1.2. 深度學習的主要網(wǎng)絡(luò)結(jié)構(gòu)
2.2. 強化學習
2.2.1. 強化學習原理
2.2.2. 馬爾科夫決策過程
2.2.3. Q learning概述
2.3. 基于值函數(shù)的深度Q網(wǎng)絡(luò)
2.3.1. 模型結(jié)構(gòu)
2.3.2. 訓練算法
2.4. 基于策略梯度的深度強化學習
2.4.1. 基于運動評價(Actor-Critic,AC)的深度策略梯度方法
2.4.2. DDPG(Deep Deterministic Policy Gradient, DDPG)網(wǎng)絡(luò)
2.5. DQN與DDPG對比實驗
2.5.1. OpenAI gym測試平臺介紹
2.5.2. DQN及其改進算法與DDPG的對比實驗結(jié)果
2.6. 本章小結(jié)
3. 移動機器人系統(tǒng)設(shè)計及實驗平臺的搭建
3.1. 移動機器人平臺
3.1.1. Turtlebot機器人
3.1.2. Kinect深度相機
3.2. 機器人通訊框架ROS
3.2.1. ROS系統(tǒng)簡介
3.3. 基于ROS與Gazebo的機器人仿真
3.3.1. Gazebo簡介
3.3.2 配置模擬環(huán)境
3.3.3. 實驗平臺展示
3.4. 本章小結(jié)
4. 基于DDPG算法的移動機器人導航控制
4.1. DDPG網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計
4.2. 不同訓練環(huán)境對比實驗
4.2.1. 訓練環(huán)境
4.2.2. 測試場景
4.2.3. 不同訓練環(huán)境下的對比實驗
4.2.4. 實驗總結(jié)分析
4.3. 本章小結(jié)
5. 基于地圖的導航算法介紹及對比實驗
5.1. 基于地圖的導航算法原理
5.1.1. Slam背景介紹
5.1.2. Slam關(guān)鍵技術(shù)概述
5.2. 利用ros系統(tǒng)進行建圖與導航實驗
5.2.1. 重要功能包配置
5.2.2. 基于地圖的導航實驗
5.3. 本章小結(jié)
6. 總結(jié)與展望
6.1. 研究成果總結(jié)
6.2. 未來研究工作展望
參考文獻
個人簡介
導師簡介
致謝
本文編號:3882134
【文章頁數(shù)】:70 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
1. 緒論
1.1. 課題研究背景
1.2. 課題研究實踐意義
1.3. 國內(nèi)外研究現(xiàn)狀
1.3.1. 移動機器人的發(fā)展現(xiàn)狀
1.3.2. 移動機器人導航技術(shù)研究現(xiàn)狀
1.4. 研究內(nèi)容及方法
1.5. 論文結(jié)構(gòu)
1.6. 本章小結(jié)
2. 深度強化學習理論及算法分析
2.1. 深度學習
2.1.1. 深度學習的理論基礎(chǔ)
2.1.2. 深度學習的主要網(wǎng)絡(luò)結(jié)構(gòu)
2.2. 強化學習
2.2.1. 強化學習原理
2.2.2. 馬爾科夫決策過程
2.2.3. Q learning概述
2.3. 基于值函數(shù)的深度Q網(wǎng)絡(luò)
2.3.1. 模型結(jié)構(gòu)
2.3.2. 訓練算法
2.4. 基于策略梯度的深度強化學習
2.4.1. 基于運動評價(Actor-Critic,AC)的深度策略梯度方法
2.4.2. DDPG(Deep Deterministic Policy Gradient, DDPG)網(wǎng)絡(luò)
2.5. DQN與DDPG對比實驗
2.5.1. OpenAI gym測試平臺介紹
2.5.2. DQN及其改進算法與DDPG的對比實驗結(jié)果
2.6. 本章小結(jié)
3. 移動機器人系統(tǒng)設(shè)計及實驗平臺的搭建
3.1. 移動機器人平臺
3.1.1. Turtlebot機器人
3.1.2. Kinect深度相機
3.2. 機器人通訊框架ROS
3.2.1. ROS系統(tǒng)簡介
3.3. 基于ROS與Gazebo的機器人仿真
3.3.1. Gazebo簡介
3.3.2 配置模擬環(huán)境
3.3.3. 實驗平臺展示
3.4. 本章小結(jié)
4. 基于DDPG算法的移動機器人導航控制
4.1. DDPG網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計
4.2. 不同訓練環(huán)境對比實驗
4.2.1. 訓練環(huán)境
4.2.2. 測試場景
4.2.3. 不同訓練環(huán)境下的對比實驗
4.2.4. 實驗總結(jié)分析
4.3. 本章小結(jié)
5. 基于地圖的導航算法介紹及對比實驗
5.1. 基于地圖的導航算法原理
5.1.1. Slam背景介紹
5.1.2. Slam關(guān)鍵技術(shù)概述
5.2. 利用ros系統(tǒng)進行建圖與導航實驗
5.2.1. 重要功能包配置
5.2.2. 基于地圖的導航實驗
5.3. 本章小結(jié)
6. 總結(jié)與展望
6.1. 研究成果總結(jié)
6.2. 未來研究工作展望
參考文獻
個人簡介
導師簡介
致謝
本文編號:3882134
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3882134.html
最近更新
教材專著