基于深度強化學習和遷移學習的反應式避障方法研究

發(fā)布時間：2024-03-01 06:09

　　近幾年來,計算機軟硬件飛速提升,以無人汽車、無人機為代表的智能移動機器人越來越貼近人們的生活。移動機器人在場景中執(zhí)行任務時,它們所需的一個最基礎的能力就是避障。對于傳統(tǒng)的非機器學習類的避障算法,有的算法需要開發(fā)者構建場景的三維結構而有的算法不需要構建三維模型,但是需要手動調整大量的參數,且機器人在避障的過程中不能利用避障經驗進行自我迭代。對于大部分基于卷積神經網絡的算法,將避障問題建模成一個基于監(jiān)督學習的分類問題,但需對每個樣本的標簽進行手動標注,既費時又費力。而基于深度強化學習的避障算法不需要對復雜的場景進行三維重建,直接將避障問題建模成一個決策過程,實現一個端到端的輸出,但對于陌生場景依然存在泛化能力不足的問題,并且在陌生場景下微調網絡需要花費很長的時間。本文致力于研究一個可以快速準確且能同時應用于不同場景的反應式避障系統(tǒng)。在反應式避障方面,本文首先提出了基于機器人自我動態(tài)空間轉換(Ego Dynamic Space Transform,EDST)的改進算法,利用單目深度估計的深度圖作為輸入,選擇出下一時刻最優(yōu)的航點,同時本文運用深度強化學習中的Double Deep Q Netw...

【文章頁數】：57 頁

【學位級別】：碩士

【部分圖文】：

圖1-1反應式避障技術的應用

如何解決利用深度強化學習算法在避障任務中的穩(wěn)定學習以及利用遷移學習實現模型快速遷移是本文算法旨在解決的問題。圖1-1反應式避障技術的應用1.2研究現狀1.2.1基于非機器學習的避障算法機器人的避障算法研究要追溯到上個世紀。傳統(tǒng)的避障算法大致分為三個部分，障礙物檢測、可通行區(qū)....

圖1-2基于非機器學習避障算法流程圖

2圖1-2基于非機器學習避障算法流程圖，傳統(tǒng)的非機器學習類的避障算法首先利用機器人攜者激光雷達檢測出場景中的障礙物，然后計算出機器域可能存在多個，因此需要通過定義的最優(yōu)代價函數

圖2-1馬爾科夫決策過程

2強化學習和遷移學習算法要是闡述強化學習和遷移學習涉及的基礎理論和相體的算法和實現方法進行介紹，并分析它們的優(yōu)劣算法應式避障問題可以看作為一個馬爾科夫決策過程，即，決策出接下來需要執(zhí)行的動作，根據機器人的控制節(jié)將介紹馬爾科夫決策過程的原理、基于馬爾科夫決于策略梯度的算法原理，并....

圖2-2Q-learning框架圖

的非線性性來替換之前的Q表。圖2-2Q-learning框架圖圖2-2為Q-learning算法的框架圖，輸入的狀態(tài)經過神經網絡編碼之后映射成離散的Q值，每個Q值對應一個動作，同樣地，根據貝爾曼最優(yōu)方程來選取執(zhí)行動作。然后通過反向傳播（BackProp....

本文編號：3915537

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3915537.html

上一篇：基于聲矢量的近場源參數估計研究
下一篇：基于字典學習的腫瘤基因表達譜分類算法研究

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度強化學習和遷移學習的反應式避障方法研究