基于深度強化學習的移動機器人導航策略研究
發(fā)布時間:2021-04-24 08:43
針對移動機器人在復雜動態(tài)變化的環(huán)境下導航的局限性,采用了一種將深度學習和強化學習結(jié)合起來的深度強化學習方法;研究以在OpenCV平臺下搭建的仿真環(huán)境的圖像作為輸入數(shù)據(jù),輸入至TensorFlow創(chuàng)建的卷積神經(jīng)網(wǎng)絡(luò)模型中處理,提取其中的機器人的動作狀態(tài)信息,結(jié)合強化學習的決策能力求出最佳導航策略;仿真實驗結(jié)果表明:在經(jīng)過深度強化學習的方法訓練后,移動機器人在環(huán)境發(fā)生了部分場景變化時,依然能夠?qū)崿F(xiàn)隨機起點到隨機終點的高效準確的導航。
【文章來源】:計算機測量與控制. 2019,27(08)
【文章頁數(shù)】:6 頁
【文章目錄】:
0 引言
1 相關(guān)研究
1.1 卷積神經(jīng)網(wǎng)絡(luò)
1.2 強化學習
1.2.1 馬爾科夫模型與貝爾曼方程
1.2.2 策略迭代
1.2.3 值迭代
1.3 深度強化學習
1.3.1 基于值函數(shù)
1.3.2 基于策略梯度
2 基于DQN的移動機器人導航策略研究
2.1 DQN網(wǎng)絡(luò)參數(shù)預處理
2.2 模型結(jié)構(gòu)與圖像處理過程
2.3 DQN算法訓練流程
2.4 搜索與利用平衡策略
3 實驗仿真與分析
3.1 實驗平臺描述
3.2 實驗結(jié)果
3.2.1 初始地圖下的導航
3.2.2 增量環(huán)境下的導航
4 結(jié)束語
【參考文獻】:
期刊論文
[1]強化學習研究綜述[J]. 高陽,陳世福,陸鑫. 自動化學報. 2004(01)
本文編號:3157054
【文章來源】:計算機測量與控制. 2019,27(08)
【文章頁數(shù)】:6 頁
【文章目錄】:
0 引言
1 相關(guān)研究
1.1 卷積神經(jīng)網(wǎng)絡(luò)
1.2 強化學習
1.2.1 馬爾科夫模型與貝爾曼方程
1.2.2 策略迭代
1.2.3 值迭代
1.3 深度強化學習
1.3.1 基于值函數(shù)
1.3.2 基于策略梯度
2 基于DQN的移動機器人導航策略研究
2.1 DQN網(wǎng)絡(luò)參數(shù)預處理
2.2 模型結(jié)構(gòu)與圖像處理過程
2.3 DQN算法訓練流程
2.4 搜索與利用平衡策略
3 實驗仿真與分析
3.1 實驗平臺描述
3.2 實驗結(jié)果
3.2.1 初始地圖下的導航
3.2.2 增量環(huán)境下的導航
4 結(jié)束語
【參考文獻】:
期刊論文
[1]強化學習研究綜述[J]. 高陽,陳世福,陸鑫. 自動化學報. 2004(01)
本文編號:3157054
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3157054.html
最近更新
教材專著