天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 管理論文 > 領導決策論文 >

基于深度強化學習的室內(nèi)無人機避障

發(fā)布時間:2021-12-30 20:35
  無人機能代替人類完成許多困難的任務,其自主導航一直是無人機領域的一個研究難題。傳統(tǒng)基于模型的無人機導航方法的有效性需要依賴于無人機自身對周圍的環(huán)境信息進行精確建模,這也就導致了傳統(tǒng)的無人機導航算法對于陌生環(huán)境的適應能力大大降低。另一方面,自然界生物進化時,展現(xiàn)出對于環(huán)境的不確定性有著很強的自適應能力,因此本文從生物強化學習的角度考察無人機在室內(nèi)環(huán)境下自適應導航這一問題。基于強化學習的無人機導航存在強化學習策略的訓練和強化學習策略遷移的兩方面關鍵問題。特別的,本次工作用到的傳感器為單目攝像頭,這對于有行人的室內(nèi)環(huán)境目前仍是個難題。本工作對這三個問題加以深入探討。針對強化學習策略的訓練的問題,本文提出一種基于深度確定性策略梯度(DDPG)的深度強化學習模型的改進模型,以提高現(xiàn)有無人機自主導航策略對環(huán)境的適應能力以及學習速度。該模型包含三個部分:首先,僅利用激光雷達數(shù)據(jù)作為狀態(tài)輸入狀,用以感知環(huán)境信息;其次,設計合理的回報函數(shù)用以激勵策略更快、更好地學習;最后,設計合理的動作空間使得無人機流暢決策。經(jīng)過在仿真環(huán)境下的強化學習訓練,裝載有單線激光雷達的室內(nèi)小型無人機能夠在仿真環(huán)境下進行穩(wěn)定避障... 

【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】:96 頁

【學位級別】:碩士

【部分圖文】:

基于深度強化學習的室內(nèi)無人機避障


某次任務中無人機避障示意圖

樹形圖,求解策略,貝爾,貝爾曼


最優(yōu)貝爾開始求解策略評估

示意圖,蒙特卡洛,示意圖,狀態(tài)值


哈爾濱工業(yè)大學工學碩士學位論文-21-中瓶頸比較明顯。圖2-8蒙特卡洛采樣示意圖蒙特卡洛控制的示意圖如圖2-9所示。圖2-9蒙特卡控制示意圖2.1.5基于值估計的強化學習方法:Q-Learning由2.1.4部分可以得知,基于無模型的蒙特卡羅法估計狀態(tài)值函數(shù)利用的是大數(shù)定理,對同一個狀態(tài)進行重復采樣并且記錄該狀態(tài)下的回報值。最終對同一狀態(tài)下的所有采樣回報值進行求取平均值,得出狀態(tài)值函數(shù)的估計值,因此該過程表達成數(shù)學形式如式子(2-17)所示。其中kβ表示在第k次迭代時的狀態(tài)值函數(shù)的估計值,y為針對當前狀態(tài)下所采集的所有的回報值。經(jīng)過展開和化簡,可以得到式子(2-17)所示的最終的狀態(tài)值函數(shù)的增量式更新形式。在式子(2-17)中,1/k為一個隨著樣本總數(shù)增加而變化的系數(shù),表征狀態(tài)值函數(shù)在增量式更新過程中的更新步長。為了方便研究和簡化計算,在這里將更新步長1/k替換成

【參考文獻】:
期刊論文
[1]遙感圖像中飛機的改進YOLOv3實時檢測算法[J]. 戴偉聰,金龍旭,李國寧,鄭志強.  光電工程. 2018(12)



本文編號:3558926

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3558926.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶a7077***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com