天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

基于深度強化學習的全向移動機器人導航算法

發(fā)布時間:2021-11-10 16:47
  導航是智能機器人系統(tǒng)的核心技術,已成為當今眾多學者的研究熱點。深度強化學習作為提高移動機器人自適應能力的有效算法,在移動機器人自主導航領域有廣泛的應用前景。本文以深度強化學習中的DDQN算法為核心,研究移動機器人在未知環(huán)境中的運動策略學習問題。論文首先分析了移動機器人導航算法與深度強化學習算法的國內外研究現(xiàn)狀,對深度強化學習的基本原理、利用與探索問題、獎勵值、經驗回放機制與梯度下降等問題做出詳盡描述。論文設計了以DDQN算法為核心的全向移動機器人導航理論框架,根據導航任務制定了一種距離導向獎勵值,確定了DDQN的神經網絡結構與算法訓練流程?紤]到DDQN算法在前期收集訓練數(shù)據時多采用隨機策略,會限制算法收斂速度,論文采用了定向探索策略與玻爾茲曼探索策略對?-貪婪策略進行改進,以提高移動機器人前期探索的導向性,盡量獲取高獎勵值的訓練數(shù)據。論文建立了Gym-ROS-Gazebo聯(lián)合仿真環(huán)境,通過仿真實驗訓練基于DDQN的導航策略,驗證算法的有效性。實驗表明,論文定義的獎勵值模型能夠幫助機器人完成導航任務,改進后的動作選擇策略能夠在前期的探索中獲取更高的獎勵值,縮短完成訓練所耗費的訓練輪數(shù),... 

【文章來源】:青島科技大學山東省

【文章頁數(shù)】:72 頁

【學位級別】:碩士

【部分圖文】:

基于深度強化學習的全向移動機器人導航算法


多層感知器模型

結構圖,卷積,神經網絡,結構圖


青島科技大學研究生學位論文11元的連接權值,f為激活函數(shù)。對于神經網絡的訓練通常使用反向傳播算法[61](backpropagationalgorithm,BP)進行網絡參數(shù)的更新,該算法的核心理念是通過梯度下降來降低網絡的誤差函數(shù)。該算法分為兩步執(zhí)行,分別為前向傳播和反向傳播兩步,前向傳播,則是信號由輸入層傳入,經過多層隱藏層后與輸出層的結果進行比較,判斷該結果是否滿足預期,若誤差函數(shù)過大則進行反向傳播,將該誤差信號層層傳遞到輸入層,并通過梯度下降法對流經每層的神經元進行權值更新,最后使得該網絡達到預期的輸出結果,則在反向傳播中損失函數(shù)為(2-4)所示:21)(),,(hjjljlhlEtyyyE4-2)(其中,第l層為輸出層,jt為輸出層第j個神經元的期望值。通過對損失函數(shù)進行一階求導,獲得網絡參數(shù)的更新公式(2-5)111limlimlimE5-2)(其中,為學習率。2.1.2卷積神經網絡在深度神經網絡中由于網絡結構復雜,所訓練的參數(shù)過多,而導致無法得到有效的訓練,這時需要卷積網絡中的卷積和池化來降低參數(shù)的個數(shù)。卷積神經網絡(convolutionalneuralnetwork,CNN)作為一種前饋人工神經網絡,在圖像分類與處理方面有著廣泛的應用。該網絡最早是由Hubel和Wiesel在研究貓腦皮層神經元中得到啟發(fā),進而提出的。在前一節(jié)多層感知器中幾經介紹了全連接層的相關計算。所在本節(jié)利用卷積神經網絡中最為經典的卷積網絡lenet-5,如圖2-3所示,對于卷積原理,卷積層,池化層進行詳細的介紹。圖2-3Lenet-5卷積神經網絡結構圖Fig.2-3Lenet-5Convolutionalneuralnetworkstructurediagram

二維圖,卷積,二維,特征圖


基于深度強化學習的全向移動機器人導航算法12(1)二維卷積原理卷積核的計算的用如下簡圖2-4所示,灰色底表為一個卷積過程。圖2-4二維卷積圖Fig.2-4Two-dimensionalconvolutiondiagram輸入的圖片為二維數(shù)組,使用二維卷積核由左到右對原圖像進行卷積操作,當該行像素計算完成后切換到下一行,完成對整個圖片的卷積操作。二維卷積公式如(2-6)所示:mnKIjiSjmiIinnmKj),(),(),)(*(),(6-2)(其中nmK),(為輸入的二維卷積核,I(i+m,j+n)為輸入的二維像素矩陣。(2)卷積層卷積層是通過卷積核對輸入的圖像進行特征學習,得到高層次的特征圖。在lenet網絡中,共有C1、C3、C5三層卷積層。通過輸入層輸入一張32x32像素大小的圖片,通過C1層對輸入的圖片進行卷積操作(即二維卷積原理),利用5X5的卷積核進行卷積操作后,將輸入圖像變成28x28像素的特征圖,從輸入層到C1層,供使用了6個不同卷積核進行卷積操作,不同的卷積核獲得一張?zhí)卣鲌D,所以在C1層共有6張?zhí)卣鲌D。在池化層S2中有6個特征圖,這些特征圖通過對應的卷積核卷積得到C3卷積層中得到16個特征圖。在C3卷積層中每個圖層都有一個偏置,對于卷積層的計算可用如下公式(2-7)所示:)*(1liMjlijljlibkxfxj7-2)(其中,ljx表示第l層中的第j個特征圖。lijk表示池化層中第j個特征圖連接到卷積層第k個特征圖的卷積核,lib為該卷積層的偏置,f為所設置的激活函數(shù)。在C5即第三層卷積層的計算與C3層一致,通過池化層S4后得到120個特征圖,每個特征圖與前一層的池化層S4中16張?zhí)卣鲌D相連。后面為最全連接層,輸出最后的結果。(3)池化層池化層用于降低特征圖的維度,對特征圖中的有用信息進行二次提齲在

【參考文獻】:
期刊論文
[1]改進蟻群算法在移動機器人避障中的應用[J]. 王雷,石鑫.  南京航空航天大學學報. 2019(05)
[2]基于改進快速擴展隨機樹算法的移動機器人路徑規(guī)劃[J]. 孫欽鵬,李猛,王中華.  濟南大學學報(自然科學版). 2019(05)
[3]基于混合策略的移動機器人避障算法探究[J]. 張倩倩,余道洋,李民強.  控制工程. 2019(07)
[4]改進勢場蟻群法的機器人避障及路徑規(guī)劃[J]. 任彥,趙海波,肖永健.  電光與控制. 2019(11)
[5]基于激光雷達信息的無人機避障控制研究[J]. 王海群,王水滿,張怡.  激光雜志. 2019(12)
[6]基于Double-DQN的中央空調系統(tǒng)節(jié)能優(yōu)化運行[J]. 閆軍威,黃琪,周璇.  華南理工大學學報(自然科學版). 2019(01)
[7]基于改進蟻群算法的移動機器人路徑規(guī)劃研究[J]. 王志中.  機械設計與制造. 2018(01)
[8]深度強化學習進展:從AlphaGo到AlphaGo Zero[J]. 唐振韜,邵坤,趙冬斌,朱圓恒.  控制理論與應用. 2017(12)
[9]基于改進人工勢場的礦井導航裝置路徑規(guī)劃[J]. 田子建,高學浩,張夢霞.  煤炭學報. 2016(S2)
[10]基于強化學習的農業(yè)移動機器人視覺導航[J]. 周俊,陳欽,梁泉.  農業(yè)機械學報. 2014(02)



本文編號:3487593

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3487593.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶9c3bc***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com