當(dāng)前位置：主頁 > 管理論文 > 領(lǐng)導(dǎo)決策論文 >

基于深度強(qiáng)化學(xué)習(xí)的室內(nèi)無人機(jī)避障

發(fā)布時間：2021-12-30 20:35

　　無人機(jī)能代替人類完成許多困難的任務(wù),其自主導(dǎo)航一直是無人機(jī)領(lǐng)域的一個研究難題。傳統(tǒng)基于模型的無人機(jī)導(dǎo)航方法的有效性需要依賴于無人機(jī)自身對周圍的環(huán)境信息進(jìn)行精確建模,這也就導(dǎo)致了傳統(tǒng)的無人機(jī)導(dǎo)航算法對于陌生環(huán)境的適應(yīng)能力大大降低。另一方面,自然界生物進(jìn)化時,展現(xiàn)出對于環(huán)境的不確定性有著很強(qiáng)的自適應(yīng)能力,因此本文從生物強(qiáng)化學(xué)習(xí)的角度考察無人機(jī)在室內(nèi)環(huán)境下自適應(yīng)導(dǎo)航這一問題�；趶�(qiáng)化學(xué)習(xí)的無人機(jī)導(dǎo)航存在強(qiáng)化學(xué)習(xí)策略的訓(xùn)練和強(qiáng)化學(xué)習(xí)策略遷移的兩方面關(guān)鍵問題。特別的,本次工作用到的傳感器為單目攝像頭,這對于有行人的室內(nèi)環(huán)境目前仍是個難題。本工作對這三個問題加以深入探討。針對強(qiáng)化學(xué)習(xí)策略的訓(xùn)練的問題,本文提出一種基于深度確定性策略梯度（DDPG）的深度強(qiáng)化學(xué)習(xí)模型的改進(jìn)模型,以提高現(xiàn)有無人機(jī)自主導(dǎo)航策略對環(huán)境的適應(yīng)能力以及學(xué)習(xí)速度。該模型包含三個部分:首先,僅利用激光雷達(dá)數(shù)據(jù)作為狀態(tài)輸入狀,用以感知環(huán)境信息;其次,設(shè)計(jì)合理的回報函數(shù)用以激勵策略更快、更好地學(xué)習(xí);最后,設(shè)計(jì)合理的動作空間使得無人機(jī)流暢決策。經(jīng)過在仿真環(huán)境下的強(qiáng)化學(xué)習(xí)訓(xùn)練,裝載有單線激光雷達(dá)的室內(nèi)小型無人機(jī)能夠在仿真環(huán)境下進(jìn)行穩(wěn)定避障...

【文章來源】：哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】：96 頁

【學(xué)位級別】：碩士

【部分圖文】：

某次任務(wù)中無人機(jī)避障示意圖

樹形圖,求解策略,貝爾,貝爾曼

最優(yōu)貝爾開始求解策略評估

示意圖,蒙特卡洛,示意圖,狀態(tài)值

哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-21-中瓶頸比較明顯。圖2-8蒙特卡洛采樣示意圖蒙特卡洛控制的示意圖如圖2-9所示。圖2-9蒙特卡控制示意圖2.1.5基于值估計(jì)的強(qiáng)化學(xué)習(xí)方法：Q-Learning由2.1.4部分可以得知，基于無模型的蒙特卡羅法估計(jì)狀態(tài)值函數(shù)利用的是大數(shù)定理，對同一個狀態(tài)進(jìn)行重復(fù)采樣并且記錄該狀態(tài)下的回報值。最終對同一狀態(tài)下的所有采樣回報值進(jìn)行求取平均值，得出狀態(tài)值函數(shù)的估計(jì)值，因此該過程表達(dá)成數(shù)學(xué)形式如式子(2-17)所示。其中kβ表示在第k次迭代時的狀態(tài)值函數(shù)的估計(jì)值，y為針對當(dāng)前狀態(tài)下所采集的所有的回報值。經(jīng)過展開和化簡，可以得到式子(2-17)所示的最終的狀態(tài)值函數(shù)的增量式更新形式。在式子(2-17)中，1/k為一個隨著樣本總數(shù)增加而變化的系數(shù)，表征狀態(tài)值函數(shù)在增量式更新過程中的更新步長。為了方便研究和簡化計(jì)算，在這里將更新步長1/k替換成

【參考文獻(xiàn)】：
期刊論文
[1]遙感圖像中飛機(jī)的改進(jìn)YOLOv3實(shí)時檢測算法[J]. 戴偉聰,金龍旭,李國寧,鄭志強(qiáng). 光電工程. 2018(12)

本文編號：3558926

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/lindaojc/3558926.html

上一篇：新時代民營企業(yè)職工思想政治教育的路徑研究
下一篇：追隨力對員工工作投入的影響：情感承諾的中介作用和領(lǐng)導(dǎo)組織化身的調(diào)節(jié)作用

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度強(qiáng)化學(xué)習(xí)的室內(nèi)無人機(jī)避障