基于深度強(qiáng)化學(xué)習(xí)的室內(nèi)移動(dòng)機(jī)器人路徑規(guī)劃研究
發(fā)布時(shí)間:2023-04-02 00:45
為提高機(jī)器人的自主性,目前越來(lái)越多的算法被提出來(lái),作為機(jī)器人導(dǎo)航的關(guān)鍵性算法,路徑規(guī)劃算法顯得格外重要。雖然目前傳統(tǒng)的路徑規(guī)劃算法研究也有取得相關(guān)的成果,但是傳統(tǒng)算法缺少一種環(huán)境感知和環(huán)境學(xué)習(xí)的能力。本文在人工智能相關(guān)技術(shù)理論的背景下,對(duì)實(shí)現(xiàn)機(jī)器人自主路徑規(guī)劃的先進(jìn)算法展開了進(jìn)一步的研究。本文研究的是基于深度強(qiáng)化學(xué)習(xí)的路徑規(guī)劃方法,利用深度學(xué)習(xí)強(qiáng)大的學(xué)習(xí)能力和強(qiáng)化學(xué)習(xí)強(qiáng)大的決策能力,基于深度強(qiáng)化學(xué)習(xí)方法能夠很好地實(shí)現(xiàn)智能化的路徑規(guī)劃。為實(shí)現(xiàn)更加智能的機(jī)器人室內(nèi)環(huán)境路徑規(guī)劃,本文在DDPG(Deep Deterministic Policy Gradient)算法的基礎(chǔ)上做了部分改進(jìn),算法改進(jìn)點(diǎn)如下:(1)在深度強(qiáng)化學(xué)習(xí)DDPG算法的基礎(chǔ)上提出了一種基于多步狀態(tài)值的評(píng)論家網(wǎng)絡(luò)算法改進(jìn),使訓(xùn)練的效果更加穩(wěn)定、出色。(2)在基于深度強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型部分也提出了改進(jìn)的方法,引入Radam算法實(shí)現(xiàn)更加高效的神經(jīng)網(wǎng)絡(luò)參數(shù)訓(xùn)練。(3)借鑒了A3C等相關(guān)理論,在改進(jìn)的DDPG算法基礎(chǔ)上,提出了基于異步的訓(xùn)練方法。(4)在深度學(xué)習(xí)的基礎(chǔ)上,引入具有收斂性更快的遷移學(xué)習(xí)算法,應(yīng)用到改進(jìn)的DDPG算法...
【文章頁(yè)數(shù)】:139 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
致謝
摘要
abstract
變量注釋表
1 緒論
1.1 概述
1.2 機(jī)器人路徑規(guī)劃研究現(xiàn)狀
1.3 本文研究?jī)?nèi)容
2 強(qiáng)化學(xué)習(xí)算法
2.1 強(qiáng)化學(xué)習(xí)八要素
2.2 馬爾科夫決策過(guò)程
2.3 基于值函數(shù)的強(qiáng)化學(xué)習(xí)算法
2.4 基于策略的強(qiáng)化學(xué)習(xí)方法
2.5 本章小結(jié)
3 深度強(qiáng)化學(xué)習(xí)算法
3.1 深度學(xué)習(xí)算法
3.2 深度強(qiáng)化學(xué)習(xí)算法
3.3 本章小結(jié)
4 基于DRL的室內(nèi)路徑規(guī)劃算法改進(jìn)
4.1 深度強(qiáng)化學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)改進(jìn)
4.2 結(jié)合遷移學(xué)習(xí)的DRL算法改進(jìn)
4.3 基于DDPG的目標(biāo)價(jià)值網(wǎng)絡(luò)算法改進(jìn)
4.4 基于異步方法的算法改進(jìn)
4.5 本章小結(jié)
5 基于改進(jìn)算法的實(shí)驗(yàn)過(guò)程
5.1 室內(nèi)仿真環(huán)境搭建
5.2 室內(nèi)機(jī)器人運(yùn)動(dòng)控制
5.3 基于改進(jìn)算法的仿真
5.4 基于改進(jìn)算法的場(chǎng)地測(cè)試
5.5 本章小結(jié)
6 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
作者簡(jiǎn)歷
學(xué)位論文數(shù)據(jù)集
本文編號(hào):3778185
【文章頁(yè)數(shù)】:139 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
致謝
摘要
abstract
變量注釋表
1 緒論
1.1 概述
1.2 機(jī)器人路徑規(guī)劃研究現(xiàn)狀
1.3 本文研究?jī)?nèi)容
2 強(qiáng)化學(xué)習(xí)算法
2.1 強(qiáng)化學(xué)習(xí)八要素
2.2 馬爾科夫決策過(guò)程
2.3 基于值函數(shù)的強(qiáng)化學(xué)習(xí)算法
2.4 基于策略的強(qiáng)化學(xué)習(xí)方法
2.5 本章小結(jié)
3 深度強(qiáng)化學(xué)習(xí)算法
3.1 深度學(xué)習(xí)算法
3.2 深度強(qiáng)化學(xué)習(xí)算法
3.3 本章小結(jié)
4 基于DRL的室內(nèi)路徑規(guī)劃算法改進(jìn)
4.1 深度強(qiáng)化學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)改進(jìn)
4.2 結(jié)合遷移學(xué)習(xí)的DRL算法改進(jìn)
4.3 基于DDPG的目標(biāo)價(jià)值網(wǎng)絡(luò)算法改進(jìn)
4.4 基于異步方法的算法改進(jìn)
4.5 本章小結(jié)
5 基于改進(jìn)算法的實(shí)驗(yàn)過(guò)程
5.1 室內(nèi)仿真環(huán)境搭建
5.2 室內(nèi)機(jī)器人運(yùn)動(dòng)控制
5.3 基于改進(jìn)算法的仿真
5.4 基于改進(jìn)算法的場(chǎng)地測(cè)試
5.5 本章小結(jié)
6 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
作者簡(jiǎn)歷
學(xué)位論文數(shù)據(jù)集
本文編號(hào):3778185
本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3778185.html
最近更新
教材專著