天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

基于記憶優(yōu)化機制的改進DQN算法研究

發(fā)布時間:2021-10-20 23:59
  科學技術的進步推動著人工智能的快速發(fā)展,強化學習作為人工智能重要分支領域的研究越來越被廣泛應用,特別是在解決智能移動機器人導航與探索問題方面。移動機器人導航技術是基礎也是機器人完成任務規(guī)劃的重要保障,例如無人駕駛技術,智能無人機,智能空天一體化技術等都離不開導航技術的發(fā)展,而路徑規(guī)劃作為移動導航技術的基礎備受廣大學者的關注。由于智能移動機器人所面臨的環(huán)境復雜且多變,傳統(tǒng)的路徑規(guī)劃方法已不能滿足現(xiàn)有的要求,更加智能化的路徑規(guī)劃算法亟待研究,目前將強化學習與移動機器人導航技術相結(jié)合是路徑規(guī)劃算法智能化研究的重要方向之一。鑒于此,針對未知環(huán)境下的智能移動路徑規(guī)劃問題,本文提出了一種基于強化學習的機器人路徑規(guī)劃算法,該算法在強化學習框架下開展了路徑規(guī)劃的深入研究,通過機器人“試錯”的方式智能探索路徑,達到了學習與規(guī)劃同步完成,滿足并適用各種復雜的環(huán)境。本文研究內(nèi)容如下:1、改進傳統(tǒng)規(guī)劃算法在未知環(huán)境下距離優(yōu)化問題,本文提出一種基于啟發(fā)式報酬函數(shù)的DQN(Deep Q_learning Network)算法。該算法在A*最短路徑思想基礎上,設計一種以距離作為評判標準的啟發(fā)式報酬函數(shù),通過當前執(zhí)行... 

【文章來源】:河南大學河南省

【文章頁數(shù)】:71 頁

【學位級別】:碩士

【部分圖文】:

基于記憶優(yōu)化機制的改進DQN算法研究


簡單環(huán)境下訓練300回合路徑圖

路徑圖,路徑圖,環(huán)境,算法


29(2)實驗驗證為了充分說明基于啟發(fā)式報酬函數(shù)的DQN算法的性能,本文從時間和距離兩方面,分別與傳統(tǒng)算法A*、RRT以及智能算法DQN、DDPG進行實驗對比實驗結(jié)果如下:(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法圖3-7簡單環(huán)境下訓練300回合路徑圖(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法圖3-8簡單環(huán)境下500回合最優(yōu)路徑圖(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法圖3-9簡單環(huán)境下800回合最優(yōu)路徑圖表3-2簡單環(huán)境路徑表A*HF-DQN算法DDPG算法DQN算法A*算法RRT算法300回合282929失敗29500回合272927失敗29800回合202730失敗29圖3-7是訓練300回合后分別采用5種算法輸出的最優(yōu)路徑圖,結(jié)合表3-2可知:機器人在簡單環(huán)境下采用DQN算法訓練300回合規(guī)劃出來的路徑需要29步;采用DDPG算法需要29步;采用A*HF-DQN算法需要28步,采用A*算法不能規(guī)劃出路徑;第3章基于啟發(fā)式報酬函數(shù)的DQN算法

路徑圖,路徑圖,環(huán)境,算法


29(2)實驗驗證為了充分說明基于啟發(fā)式報酬函數(shù)的DQN算法的性能,本文從時間和距離兩方面,分別與傳統(tǒng)算法A*、RRT以及智能算法DQN、DDPG進行實驗對比實驗結(jié)果如下:(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法圖3-7簡單環(huán)境下訓練300回合路徑圖(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法圖3-8簡單環(huán)境下500回合最優(yōu)路徑圖(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法圖3-9簡單環(huán)境下800回合最優(yōu)路徑圖表3-2簡單環(huán)境路徑表A*HF-DQN算法DDPG算法DQN算法A*算法RRT算法300回合282929失敗29500回合272927失敗29800回合202730失敗29圖3-7是訓練300回合后分別采用5種算法輸出的最優(yōu)路徑圖,結(jié)合表3-2可知:機器人在簡單環(huán)境下采用DQN算法訓練300回合規(guī)劃出來的路徑需要29步;采用DDPG算法需要29步;采用A*HF-DQN算法需要28步,采用A*算法不能規(guī)劃出路徑;第3章基于啟發(fā)式報酬函數(shù)的DQN算法

【參考文獻】:
期刊論文
[1]基于改進A-Star算法的AGV全局路徑規(guī)劃[J]. 卞永明,馬逍陽,高飛,周怡和.  機電一體化. 2019(06)
[2]Application of the asynchronous advantage actor–critic machine learning algorithm to real-time accelerator tuning[J]. Yun Zou,Qing-Zi Xing,Bai-Chuan Wang,Shu-Xin Zheng,Cheng Cheng,Zhong-Ming Wang,Xue-Wu Wang.  Nuclear Science and Techniques. 2019(10)
[3]基于改進DDPG算法的車輛低速跟馳行為決策研究[J]. 羅穎,秦文虎,翟金鳳.  測控技術. 2019(09)
[4]基于改進A*算法的移動機器人路徑規(guī)劃研究[J]. 吳鵬,桑成軍,陸忠華,余雙,方臨陽,張屹.  計算機工程與應用. 2019(21)
[5]新型樹啟發(fā)式搜索算法的機器人路徑規(guī)劃[J]. 胡曉敏,梁天毅,王明豐,李敏.  計算機工程與應用. 2020(11)
[6]改進蟻群算法在AGV全局路徑規(guī)劃中的研究[J]. 胡慶朋,王濤,張如偉.  信息技術與信息化. 2019(03)
[7]基于最小二乘策略迭代的無人機航跡規(guī)劃方法[J]. 陳曉倩,劉瑞祥.  計算機工程與應用. 2020(01)
[8]基于改進人工勢場法的巡航導彈自主避障技術[J]. 范世鵬,祁琪,路坤鋒,吳廣,李伶.  北京理工大學學報. 2018(08)
[9]基于改進遺傳算法的倉儲路徑智能控制研究[J]. 馮晨鐘,宋世創(chuàng),李慕航.  山西電子技術. 2018(03)
[10]基于改進優(yōu)先經(jīng)驗重放算法的游戲控制研究[J]. 趙文倉,吳建輝.  甘肅科學學報. 2018(02)

碩士論文
[1]面向家庭環(huán)境的移動機器人局部路徑規(guī)劃算法研究[D]. 李寧.哈爾濱工業(yè)大學 2018
[2]基于分層強化學習的AUV路徑規(guī)劃方法研究[D]. 冉祥瑞.哈爾濱工程大學 2017
[3]基于自由空間法的航跡規(guī)劃方法研究[D]. 邱杰.華中科技大學 2015



本文編號:3447844

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3447844.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶7f320***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com