基于強化學習的無地圖導航策略研究
發(fā)布時間:2021-04-09 16:48
導航即機器人從當前位置到達目標姿態(tài),并在這個過程中不與任一障礙物發(fā)生碰撞的能力,是移動機器人的核心功能之一。目前已有的成熟技術都是在已知的環(huán)境地圖上進行規(guī)劃。相比較,包括人在內的動物能夠在知道目標大致方位或特征的基礎上穿過或稀松或稠密的障礙物到達目標點,實現(xiàn)無地圖導航。強化學習是一種智能體從與環(huán)境的不斷交互中學習的算法,適合于連續(xù)決策的任務,是目前無地圖導航的主要研究方向。本文研究了基于強化學習的從記憶到推理兩個層次的移動機器人無地圖導航,所設計的規(guī)劃器以RGB圖像作為視覺輸入、以機器人與目標點的相對位置作為目標信息。提出了使用近端策略優(yōu)化的端到端導航策略;提出了將視覺圖像先壓縮再將壓縮的特征輸入強化學習網絡的導航策略,使得規(guī)劃器的采樣效率顯著提高;設計了堆積長短時記憶結構使得強化學習網絡具有推理能力。為了測試、比較不同的網絡結構和算法,搭建了一系列的基準環(huán)境并提供了環(huán)境接口可快速調用。首先,針對記憶任務提出了基于近端策略優(yōu)化的端到端導航策略,搭建了基準仿真環(huán)境,在該環(huán)境中與經典的基于深度Q網絡的端到端導航策略進行比較。其次,端到端強化學習網絡中用于提取圖像特征的的參數無需從交互中學習...
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數】:80 頁
【學位級別】:碩士
【部分圖文】:
D算法(左圖)與A*算法(右圖)
哈爾濱工業(yè)大學工學碩士學位論文作中,我們設計、制造了一款基于機器人操作系統(tǒng)(Robo的移動機器人平臺 Plantbot[77],并在該平臺上實現(xiàn)了導航 SLAM 系統(tǒng)繪制的,然后機器人在繪制的地圖上通過 Alobal planner)規(guī)劃出全局路徑作為局部規(guī)劃器(local plan收局部成本地圖通過動態(tài)窗法規(guī)劃出運動速度通過節(jié)點制節(jié)點接收到消息后執(zhí)行相應命令,控制機器人朝目標了全局規(guī)劃器規(guī)劃出的路徑(導航),也考慮到了局部更。實驗效果如圖 1-4 所示:
2.1 引言對于基于深度強化學習的移動機器人無地圖導航,目前常到端的,即用神經網絡擬合映射函數,將傳感器的原始數據映標點所需的動作,考慮到輸入的視覺圖像為高維 RGB 圖像,卷積神經網絡(Convolutional Neural Networks, CNN)提取特征組成狀態(tài)(state)輸入深度強化學習網絡,進行端到端訓練。本領域表現(xiàn)突出的近端策略優(yōu)化(Proximal Policy Optimization到端導航策略的更新算法,設計了對應的導航規(guī)劃器,并與基Q-Network, DQN)的端到端導航策略進行了比較。內容上,本化學習的一些基礎和理論,然后給出端到端導航策略的數學度 Q 網絡的端到端導航策略,提出了基于近端策略優(yōu)化的端建了基準仿真環(huán)境,最后將兩策略在基準環(huán)境中進行比較。2.2 機器人無地圖導航問題定義Real time
【參考文獻】:
碩士論文
[1]基于深度強化學習的未知環(huán)境下機器人路徑規(guī)劃的研究[D]. 卜祥津.哈爾濱工業(yè)大學 2018
[2]面向家庭環(huán)境的移動機器人局部路徑規(guī)劃算法研究[D]. 李寧.哈爾濱工業(yè)大學 2018
本文編號:3127973
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數】:80 頁
【學位級別】:碩士
【部分圖文】:
D算法(左圖)與A*算法(右圖)
哈爾濱工業(yè)大學工學碩士學位論文作中,我們設計、制造了一款基于機器人操作系統(tǒng)(Robo的移動機器人平臺 Plantbot[77],并在該平臺上實現(xiàn)了導航 SLAM 系統(tǒng)繪制的,然后機器人在繪制的地圖上通過 Alobal planner)規(guī)劃出全局路徑作為局部規(guī)劃器(local plan收局部成本地圖通過動態(tài)窗法規(guī)劃出運動速度通過節(jié)點制節(jié)點接收到消息后執(zhí)行相應命令,控制機器人朝目標了全局規(guī)劃器規(guī)劃出的路徑(導航),也考慮到了局部更。實驗效果如圖 1-4 所示:
2.1 引言對于基于深度強化學習的移動機器人無地圖導航,目前常到端的,即用神經網絡擬合映射函數,將傳感器的原始數據映標點所需的動作,考慮到輸入的視覺圖像為高維 RGB 圖像,卷積神經網絡(Convolutional Neural Networks, CNN)提取特征組成狀態(tài)(state)輸入深度強化學習網絡,進行端到端訓練。本領域表現(xiàn)突出的近端策略優(yōu)化(Proximal Policy Optimization到端導航策略的更新算法,設計了對應的導航規(guī)劃器,并與基Q-Network, DQN)的端到端導航策略進行了比較。內容上,本化學習的一些基礎和理論,然后給出端到端導航策略的數學度 Q 網絡的端到端導航策略,提出了基于近端策略優(yōu)化的端建了基準仿真環(huán)境,最后將兩策略在基準環(huán)境中進行比較。2.2 機器人無地圖導航問題定義Real time
【參考文獻】:
碩士論文
[1]基于深度強化學習的未知環(huán)境下機器人路徑規(guī)劃的研究[D]. 卜祥津.哈爾濱工業(yè)大學 2018
[2]面向家庭環(huán)境的移動機器人局部路徑規(guī)劃算法研究[D]. 李寧.哈爾濱工業(yè)大學 2018
本文編號:3127973
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3127973.html
最近更新
教材專著