當(dāng)前位置：主頁 > 管理論文 > 領(lǐng)導(dǎo)決策論文 >

基于深度強(qiáng)化學(xué)習(xí)的室內(nèi)移動機(jī)器人路徑規(guī)劃研究

發(fā)布時間：2023-04-02 00:45

　　為提高機(jī)器人的自主性,目前越來越多的算法被提出來,作為機(jī)器人導(dǎo)航的關(guān)鍵性算法,路徑規(guī)劃算法顯得格外重要。雖然目前傳統(tǒng)的路徑規(guī)劃算法研究也有取得相關(guān)的成果,但是傳統(tǒng)算法缺少一種環(huán)境感知和環(huán)境學(xué)習(xí)的能力。本文在人工智能相關(guān)技術(shù)理論的背景下,對實現(xiàn)機(jī)器人自主路徑規(guī)劃的先進(jìn)算法展開了進(jìn)一步的研究。本文研究的是基于深度強(qiáng)化學(xué)習(xí)的路徑規(guī)劃方法,利用深度學(xué)習(xí)強(qiáng)大的學(xué)習(xí)能力和強(qiáng)化學(xué)習(xí)強(qiáng)大的決策能力,基于深度強(qiáng)化學(xué)習(xí)方法能夠很好地實現(xiàn)智能化的路徑規(guī)劃。為實現(xiàn)更加智能的機(jī)器人室內(nèi)環(huán)境路徑規(guī)劃,本文在DDPG(Deep Deterministic Policy Gradient)算法的基礎(chǔ)上做了部分改進(jìn),算法改進(jìn)點如下:(1)在深度強(qiáng)化學(xué)習(xí)DDPG算法的基礎(chǔ)上提出了一種基于多步狀態(tài)值的評論家網(wǎng)絡(luò)算法改進(jìn),使訓(xùn)練的效果更加穩(wěn)定、出色。(2)在基于深度強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型部分也提出了改進(jìn)的方法,引入Radam算法實現(xiàn)更加高效的神經(jīng)網(wǎng)絡(luò)參數(shù)訓(xùn)練。(3)借鑒了A3C等相關(guān)理論,在改進(jìn)的DDPG算法基礎(chǔ)上,提出了基于異步的訓(xùn)練方法。(4)在深度學(xué)習(xí)的基礎(chǔ)上,引入具有收斂性更快的遷移學(xué)習(xí)算法,應(yīng)用到改進(jìn)的DDPG算法...

【文章頁數(shù)】：139 頁

【學(xué)位級別】：碩士

【文章目錄】：
致謝
摘要
abstract
變量注釋表
1 緒論
    1.1 概述
    1.2 機(jī)器人路徑規(guī)劃研究現(xiàn)狀
    1.3 本文研究內(nèi)容
2 強(qiáng)化學(xué)習(xí)算法
    2.1 強(qiáng)化學(xué)習(xí)八要素
    2.2 馬爾科夫決策過程
    2.3 基于值函數(shù)的強(qiáng)化學(xué)習(xí)算法
    2.4 基于策略的強(qiáng)化學(xué)習(xí)方法
    2.5 本章小結(jié)
3 深度強(qiáng)化學(xué)習(xí)算法
    3.1 深度學(xué)習(xí)算法
    3.2 深度強(qiáng)化學(xué)習(xí)算法
    3.3 本章小結(jié)
4 基于DRL的室內(nèi)路徑規(guī)劃算法改進(jìn)
    4.1 深度強(qiáng)化學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)改進(jìn)
    4.2 結(jié)合遷移學(xué)習(xí)的DRL算法改進(jìn)
    4.3 基于DDPG的目標(biāo)價值網(wǎng)絡(luò)算法改進(jìn)
    4.4 基于異步方法的算法改進(jìn)
    4.5 本章小結(jié)
5 基于改進(jìn)算法的實驗過程
    5.1 室內(nèi)仿真環(huán)境搭建
    5.2 室內(nèi)機(jī)器人運動控制
    5.3 基于改進(jìn)算法的仿真
    5.4 基于改進(jìn)算法的場地測試
    5.5 本章小結(jié)
6 總結(jié)與展望
    6.1 總結(jié)
    6.2 展望
參考文獻(xiàn)
作者簡歷
學(xué)位論文數(shù)據(jù)集

本文編號：3778185

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/lindaojc/3778185.html

上一篇：基于AHP層次分析法建立的開源軟件許可證決策模型
下一篇：嚴(yán)某浩組織、領(lǐng)導(dǎo)黑社會性質(zhì)組織案的刑法學(xué)分析

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度強(qiáng)化學(xué)習(xí)的室內(nèi)移動機(jī)器人路徑規(guī)劃研究