基于深度強化學習和遷移學習的反應式避障方法研究
發(fā)布時間:2024-03-01 06:09
近幾年來,計算機軟硬件飛速提升,以無人汽車、無人機為代表的智能移動機器人越來越貼近人們的生活。移動機器人在場景中執(zhí)行任務時,它們所需的一個最基礎的能力就是避障。對于傳統(tǒng)的非機器學習類的避障算法,有的算法需要開發(fā)者構建場景的三維結構而有的算法不需要構建三維模型,但是需要手動調整大量的參數,且機器人在避障的過程中不能利用避障經驗進行自我迭代。對于大部分基于卷積神經網絡的算法,將避障問題建模成一個基于監(jiān)督學習的分類問題,但需對每個樣本的標簽進行手動標注,既費時又費力。而基于深度強化學習的避障算法不需要對復雜的場景進行三維重建,直接將避障問題建模成一個決策過程,實現一個端到端的輸出,但對于陌生場景依然存在泛化能力不足的問題,并且在陌生場景下微調網絡需要花費很長的時間。本文致力于研究一個可以快速準確且能同時應用于不同場景的反應式避障系統(tǒng)。在反應式避障方面,本文首先提出了基于機器人自我動態(tài)空間轉換(Ego Dynamic Space Transform,EDST)的改進算法,利用單目深度估計的深度圖作為輸入,選擇出下一時刻最優(yōu)的航點,同時本文運用深度強化學習中的Double Deep Q Netw...
【文章頁數】:57 頁
【學位級別】:碩士
【部分圖文】:
本文編號:3915537
【文章頁數】:57 頁
【學位級別】:碩士
【部分圖文】:
圖1-1反應式避障技術的應用
如何解決利用深度強化學習算法在避障任務中的穩(wěn)定學習以及利用遷移學習實現模型快速遷移是本文算法旨在解決的問題。圖1-1反應式避障技術的應用1.2研究現狀1.2.1基于非機器學習的避障算法機器人的避障算法研究要追溯到上個世紀。傳統(tǒng)的避障算法大致分為三個部分,障礙物檢測、可通行區(qū)....
圖1-2基于非機器學習避障算法流程圖
2圖1-2基于非機器學習避障算法流程圖,傳統(tǒng)的非機器學習類的避障算法首先利用機器人攜者激光雷達檢測出場景中的障礙物,然后計算出機器域可能存在多個,因此需要通過定義的最優(yōu)代價函數
圖2-1馬爾科夫決策過程
2強化學習和遷移學習算法要是闡述強化學習和遷移學習涉及的基礎理論和相體的算法和實現方法進行介紹,并分析它們的優(yōu)劣算法應式避障問題可以看作為一個馬爾科夫決策過程,即,決策出接下來需要執(zhí)行的動作,根據機器人的控制節(jié)將介紹馬爾科夫決策過程的原理、基于馬爾科夫決于策略梯度的算法原理,并....
圖2-2Q-learning框架圖
的非線性性來替換之前的Q表。圖2-2Q-learning框架圖圖2-2為Q-learning算法的框架圖,輸入的狀態(tài)經過神經網絡編碼之后映射成離散的Q值,每個Q值對應一個動作,同樣地,根據貝爾曼最優(yōu)方程來選取執(zhí)行動作。然后通過反向傳播(BackProp....
本文編號:3915537
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3915537.html