基于記憶優(yōu)化機制的改進DQN算法研究

發(fā)布時間：2021-10-20 23:59

　　科學技術的進步推動著人工智能的快速發(fā)展,強化學習作為人工智能重要分支領域的研究越來越被廣泛應用,特別是在解決智能移動機器人導航與探索問題方面。移動機器人導航技術是基礎也是機器人完成任務規(guī)劃的重要保障,例如無人駕駛技術,智能無人機,智能空天一體化技術等都離不開導航技術的發(fā)展,而路徑規(guī)劃作為移動導航技術的基礎備受廣大學者的關注。由于智能移動機器人所面臨的環(huán)境復雜且多變,傳統(tǒng)的路徑規(guī)劃方法已不能滿足現(xiàn)有的要求,更加智能化的路徑規(guī)劃算法亟待研究,目前將強化學習與移動機器人導航技術相結(jié)合是路徑規(guī)劃算法智能化研究的重要方向之一。鑒于此,針對未知環(huán)境下的智能移動路徑規(guī)劃問題,本文提出了一種基于強化學習的機器人路徑規(guī)劃算法,該算法在強化學習框架下開展了路徑規(guī)劃的深入研究,通過機器人“試錯”的方式智能探索路徑,達到了學習與規(guī)劃同步完成,滿足并適用各種復雜的環(huán)境。本文研究內(nèi)容如下:1、改進傳統(tǒng)規(guī)劃算法在未知環(huán)境下距離優(yōu)化問題,本文提出一種基于啟發(fā)式報酬函數(shù)的DQN（Deep Q＿learning Network）算法。該算法在A*最短路徑思想基礎上,設計一種以距離作為評判標準的啟發(fā)式報酬函數(shù),通過當前執(zhí)行...

【文章來源】：河南大學河南省

【文章頁數(shù)】：71 頁

【學位級別】：碩士

【部分圖文】：

簡單環(huán)境下訓練300回合路徑圖

路徑圖,路徑圖,環(huán)境,算法

29（2）實驗驗證為了充分說明基于啟發(fā)式報酬函數(shù)的DQN算法的性能，本文從時間和距離兩方面，分別與傳統(tǒng)算法A*、RRT以及智能算法DQN、DDPG進行實驗對比實驗結(jié)果如下：(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法（e）RRT算法圖3-7簡單環(huán)境下訓練300回合路徑圖(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法（e）RRT算法圖3-8簡單環(huán)境下500回合最優(yōu)路徑圖(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法（e）RRT算法圖3-9簡單環(huán)境下800回合最優(yōu)路徑圖表3-2簡單環(huán)境路徑表A*HF-DQN算法DDPG算法DQN算法A*算法RRT算法300回合282929失敗29500回合272927失敗29800回合202730失敗29圖3-7是訓練300回合后分別采用5種算法輸出的最優(yōu)路徑圖，結(jié)合表3-2可知：機器人在簡單環(huán)境下采用DQN算法訓練300回合規(guī)劃出來的路徑需要29步；采用DDPG算法需要29步；采用A*HF-DQN算法需要28步，采用A*算法不能規(guī)劃出路徑；第3章基于啟發(fā)式報酬函數(shù)的DQN算法

【參考文獻】：
期刊論文
[1]基于改進A-Star算法的AGV全局路徑規(guī)劃[J]. 卞永明,馬逍陽,高飛,周怡和.  機電一體化. 2019(06)
[2]Application of the asynchronous advantage actor–critic machine learning algorithm to real-time accelerator tuning[J]. Yun Zou,Qing-Zi Xing,Bai-Chuan Wang,Shu-Xin Zheng,Cheng Cheng,Zhong-Ming Wang,Xue-Wu Wang.  Nuclear Science and Techniques. 2019(10)
[3]基于改進DDPG算法的車輛低速跟馳行為決策研究[J]. 羅穎,秦文虎,翟金鳳.  測控技術. 2019(09)
[4]基于改進A*算法的移動機器人路徑規(guī)劃研究[J]. 吳鵬,桑成軍,陸忠華,余雙,方臨陽,張屹.  計算機工程與應用. 2019(21)
[5]新型樹啟發(fā)式搜索算法的機器人路徑規(guī)劃[J]. 胡曉敏,梁天毅,王明豐,李敏.  計算機工程與應用. 2020(11)
[6]改進蟻群算法在AGV全局路徑規(guī)劃中的研究[J]. 胡慶朋,王濤,張如偉.  信息技術與信息化. 2019(03)
[7]基于最小二乘策略迭代的無人機航跡規(guī)劃方法[J]. 陳曉倩,劉瑞祥.  計算機工程與應用. 2020(01)
[8]基于改進人工勢場法的巡航導彈自主避障技術[J]. 范世鵬,祁琪,路坤鋒,吳廣,李伶.  北京理工大學學報. 2018(08)
[9]基于改進遺傳算法的倉儲路徑智能控制研究[J]. 馮晨鐘,宋世創(chuàng),李慕航.  山西電子技術. 2018(03)
[10]基于改進優(yōu)先經(jīng)驗重放算法的游戲控制研究[J]. 趙文倉,吳建輝.  甘肅科學學報. 2018(02)

碩士論文
[1]面向家庭環(huán)境的移動機器人局部路徑規(guī)劃算法研究[D]. 李寧.哈爾濱工業(yè)大學 2018
[2]基于分層強化學習的AUV路徑規(guī)劃方法研究[D]. 冉祥瑞.哈爾濱工程大學 2017
[3]基于自由空間法的航跡規(guī)劃方法研究[D]. 邱杰.華中科技大學 2015

本文編號：3447844

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3447844.html

上一篇：基于先驅(qū)體陶瓷傳感器的12～13GHz射頻測溫系統(tǒng)設計
下一篇：基于深度卷積神經(jīng)網(wǎng)絡的真實場景物體檢測算法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于記憶優(yōu)化機制的改進DQN算法研究