基于記憶優(yōu)化機(jī)制的改進(jìn)DQN算法研究
發(fā)布時間:2021-10-20 23:59
科學(xué)技術(shù)的進(jìn)步推動著人工智能的快速發(fā)展,強(qiáng)化學(xué)習(xí)作為人工智能重要分支領(lǐng)域的研究越來越被廣泛應(yīng)用,特別是在解決智能移動機(jī)器人導(dǎo)航與探索問題方面。移動機(jī)器人導(dǎo)航技術(shù)是基礎(chǔ)也是機(jī)器人完成任務(wù)規(guī)劃的重要保障,例如無人駕駛技術(shù),智能無人機(jī),智能空天一體化技術(shù)等都離不開導(dǎo)航技術(shù)的發(fā)展,而路徑規(guī)劃作為移動導(dǎo)航技術(shù)的基礎(chǔ)備受廣大學(xué)者的關(guān)注。由于智能移動機(jī)器人所面臨的環(huán)境復(fù)雜且多變,傳統(tǒng)的路徑規(guī)劃方法已不能滿足現(xiàn)有的要求,更加智能化的路徑規(guī)劃算法亟待研究,目前將強(qiáng)化學(xué)習(xí)與移動機(jī)器人導(dǎo)航技術(shù)相結(jié)合是路徑規(guī)劃算法智能化研究的重要方向之一。鑒于此,針對未知環(huán)境下的智能移動路徑規(guī)劃問題,本文提出了一種基于強(qiáng)化學(xué)習(xí)的機(jī)器人路徑規(guī)劃算法,該算法在強(qiáng)化學(xué)習(xí)框架下開展了路徑規(guī)劃的深入研究,通過機(jī)器人“試錯”的方式智能探索路徑,達(dá)到了學(xué)習(xí)與規(guī)劃同步完成,滿足并適用各種復(fù)雜的環(huán)境。本文研究內(nèi)容如下:1、改進(jìn)傳統(tǒng)規(guī)劃算法在未知環(huán)境下距離優(yōu)化問題,本文提出一種基于啟發(fā)式報(bào)酬函數(shù)的DQN(Deep Q_learning Network)算法。該算法在A*最短路徑思想基礎(chǔ)上,設(shè)計(jì)一種以距離作為評判標(biāo)準(zhǔn)的啟發(fā)式報(bào)酬函數(shù),通過當(dāng)前執(zhí)行...
【文章來源】:河南大學(xué)河南省
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【部分圖文】:
簡單環(huán)境下訓(xùn)練300回合路徑圖
29(2)實(shí)驗(yàn)驗(yàn)證為了充分說明基于啟發(fā)式報(bào)酬函數(shù)的DQN算法的性能,本文從時間和距離兩方面,分別與傳統(tǒng)算法A*、RRT以及智能算法DQN、DDPG進(jìn)行實(shí)驗(yàn)對比實(shí)驗(yàn)結(jié)果如下:(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法圖3-7簡單環(huán)境下訓(xùn)練300回合路徑圖(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法圖3-8簡單環(huán)境下500回合最優(yōu)路徑圖(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法圖3-9簡單環(huán)境下800回合最優(yōu)路徑圖表3-2簡單環(huán)境路徑表A*HF-DQN算法DDPG算法DQN算法A*算法RRT算法300回合282929失敗29500回合272927失敗29800回合202730失敗29圖3-7是訓(xùn)練300回合后分別采用5種算法輸出的最優(yōu)路徑圖,結(jié)合表3-2可知:機(jī)器人在簡單環(huán)境下采用DQN算法訓(xùn)練300回合規(guī)劃出來的路徑需要29步;采用DDPG算法需要29步;采用A*HF-DQN算法需要28步,采用A*算法不能規(guī)劃出路徑;第3章基于啟發(fā)式報(bào)酬函數(shù)的DQN算法
29(2)實(shí)驗(yàn)驗(yàn)證為了充分說明基于啟發(fā)式報(bào)酬函數(shù)的DQN算法的性能,本文從時間和距離兩方面,分別與傳統(tǒng)算法A*、RRT以及智能算法DQN、DDPG進(jìn)行實(shí)驗(yàn)對比實(shí)驗(yàn)結(jié)果如下:(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法圖3-7簡單環(huán)境下訓(xùn)練300回合路徑圖(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法圖3-8簡單環(huán)境下500回合最優(yōu)路徑圖(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法圖3-9簡單環(huán)境下800回合最優(yōu)路徑圖表3-2簡單環(huán)境路徑表A*HF-DQN算法DDPG算法DQN算法A*算法RRT算法300回合282929失敗29500回合272927失敗29800回合202730失敗29圖3-7是訓(xùn)練300回合后分別采用5種算法輸出的最優(yōu)路徑圖,結(jié)合表3-2可知:機(jī)器人在簡單環(huán)境下采用DQN算法訓(xùn)練300回合規(guī)劃出來的路徑需要29步;采用DDPG算法需要29步;采用A*HF-DQN算法需要28步,采用A*算法不能規(guī)劃出路徑;第3章基于啟發(fā)式報(bào)酬函數(shù)的DQN算法
【參考文獻(xiàn)】:
期刊論文
[1]基于改進(jìn)A-Star算法的AGV全局路徑規(guī)劃[J]. 卞永明,馬逍陽,高飛,周怡和. 機(jī)電一體化. 2019(06)
[2]Application of the asynchronous advantage actor–critic machine learning algorithm to real-time accelerator tuning[J]. Yun Zou,Qing-Zi Xing,Bai-Chuan Wang,Shu-Xin Zheng,Cheng Cheng,Zhong-Ming Wang,Xue-Wu Wang. Nuclear Science and Techniques. 2019(10)
[3]基于改進(jìn)DDPG算法的車輛低速跟馳行為決策研究[J]. 羅穎,秦文虎,翟金鳳. 測控技術(shù). 2019(09)
[4]基于改進(jìn)A*算法的移動機(jī)器人路徑規(guī)劃研究[J]. 吳鵬,桑成軍,陸忠華,余雙,方臨陽,張屹. 計(jì)算機(jī)工程與應(yīng)用. 2019(21)
[5]新型樹啟發(fā)式搜索算法的機(jī)器人路徑規(guī)劃[J]. 胡曉敏,梁天毅,王明豐,李敏. 計(jì)算機(jī)工程與應(yīng)用. 2020(11)
[6]改進(jìn)蟻群算法在AGV全局路徑規(guī)劃中的研究[J]. 胡慶朋,王濤,張如偉. 信息技術(shù)與信息化. 2019(03)
[7]基于最小二乘策略迭代的無人機(jī)航跡規(guī)劃方法[J]. 陳曉倩,劉瑞祥. 計(jì)算機(jī)工程與應(yīng)用. 2020(01)
[8]基于改進(jìn)人工勢場法的巡航導(dǎo)彈自主避障技術(shù)[J]. 范世鵬,祁琪,路坤鋒,吳廣,李伶. 北京理工大學(xué)學(xué)報(bào). 2018(08)
[9]基于改進(jìn)遺傳算法的倉儲路徑智能控制研究[J]. 馮晨鐘,宋世創(chuàng),李慕航. 山西電子技術(shù). 2018(03)
[10]基于改進(jìn)優(yōu)先經(jīng)驗(yàn)重放算法的游戲控制研究[J]. 趙文倉,吳建輝. 甘肅科學(xué)學(xué)報(bào). 2018(02)
碩士論文
[1]面向家庭環(huán)境的移動機(jī)器人局部路徑規(guī)劃算法研究[D]. 李寧.哈爾濱工業(yè)大學(xué) 2018
[2]基于分層強(qiáng)化學(xué)習(xí)的AUV路徑規(guī)劃方法研究[D]. 冉祥瑞.哈爾濱工程大學(xué) 2017
[3]基于自由空間法的航跡規(guī)劃方法研究[D]. 邱杰.華中科技大學(xué) 2015
本文編號:3447844
【文章來源】:河南大學(xué)河南省
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【部分圖文】:
簡單環(huán)境下訓(xùn)練300回合路徑圖
29(2)實(shí)驗(yàn)驗(yàn)證為了充分說明基于啟發(fā)式報(bào)酬函數(shù)的DQN算法的性能,本文從時間和距離兩方面,分別與傳統(tǒng)算法A*、RRT以及智能算法DQN、DDPG進(jìn)行實(shí)驗(yàn)對比實(shí)驗(yàn)結(jié)果如下:(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法圖3-7簡單環(huán)境下訓(xùn)練300回合路徑圖(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法圖3-8簡單環(huán)境下500回合最優(yōu)路徑圖(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法圖3-9簡單環(huán)境下800回合最優(yōu)路徑圖表3-2簡單環(huán)境路徑表A*HF-DQN算法DDPG算法DQN算法A*算法RRT算法300回合282929失敗29500回合272927失敗29800回合202730失敗29圖3-7是訓(xùn)練300回合后分別采用5種算法輸出的最優(yōu)路徑圖,結(jié)合表3-2可知:機(jī)器人在簡單環(huán)境下采用DQN算法訓(xùn)練300回合規(guī)劃出來的路徑需要29步;采用DDPG算法需要29步;采用A*HF-DQN算法需要28步,采用A*算法不能規(guī)劃出路徑;第3章基于啟發(fā)式報(bào)酬函數(shù)的DQN算法
29(2)實(shí)驗(yàn)驗(yàn)證為了充分說明基于啟發(fā)式報(bào)酬函數(shù)的DQN算法的性能,本文從時間和距離兩方面,分別與傳統(tǒng)算法A*、RRT以及智能算法DQN、DDPG進(jìn)行實(shí)驗(yàn)對比實(shí)驗(yàn)結(jié)果如下:(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法圖3-7簡單環(huán)境下訓(xùn)練300回合路徑圖(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法圖3-8簡單環(huán)境下500回合最優(yōu)路徑圖(a)A*HF-DQN算法(b)DDPG算法(c)DQN算法(d)A*算法(e)RRT算法圖3-9簡單環(huán)境下800回合最優(yōu)路徑圖表3-2簡單環(huán)境路徑表A*HF-DQN算法DDPG算法DQN算法A*算法RRT算法300回合282929失敗29500回合272927失敗29800回合202730失敗29圖3-7是訓(xùn)練300回合后分別采用5種算法輸出的最優(yōu)路徑圖,結(jié)合表3-2可知:機(jī)器人在簡單環(huán)境下采用DQN算法訓(xùn)練300回合規(guī)劃出來的路徑需要29步;采用DDPG算法需要29步;采用A*HF-DQN算法需要28步,采用A*算法不能規(guī)劃出路徑;第3章基于啟發(fā)式報(bào)酬函數(shù)的DQN算法
【參考文獻(xiàn)】:
期刊論文
[1]基于改進(jìn)A-Star算法的AGV全局路徑規(guī)劃[J]. 卞永明,馬逍陽,高飛,周怡和. 機(jī)電一體化. 2019(06)
[2]Application of the asynchronous advantage actor–critic machine learning algorithm to real-time accelerator tuning[J]. Yun Zou,Qing-Zi Xing,Bai-Chuan Wang,Shu-Xin Zheng,Cheng Cheng,Zhong-Ming Wang,Xue-Wu Wang. Nuclear Science and Techniques. 2019(10)
[3]基于改進(jìn)DDPG算法的車輛低速跟馳行為決策研究[J]. 羅穎,秦文虎,翟金鳳. 測控技術(shù). 2019(09)
[4]基于改進(jìn)A*算法的移動機(jī)器人路徑規(guī)劃研究[J]. 吳鵬,桑成軍,陸忠華,余雙,方臨陽,張屹. 計(jì)算機(jī)工程與應(yīng)用. 2019(21)
[5]新型樹啟發(fā)式搜索算法的機(jī)器人路徑規(guī)劃[J]. 胡曉敏,梁天毅,王明豐,李敏. 計(jì)算機(jī)工程與應(yīng)用. 2020(11)
[6]改進(jìn)蟻群算法在AGV全局路徑規(guī)劃中的研究[J]. 胡慶朋,王濤,張如偉. 信息技術(shù)與信息化. 2019(03)
[7]基于最小二乘策略迭代的無人機(jī)航跡規(guī)劃方法[J]. 陳曉倩,劉瑞祥. 計(jì)算機(jī)工程與應(yīng)用. 2020(01)
[8]基于改進(jìn)人工勢場法的巡航導(dǎo)彈自主避障技術(shù)[J]. 范世鵬,祁琪,路坤鋒,吳廣,李伶. 北京理工大學(xué)學(xué)報(bào). 2018(08)
[9]基于改進(jìn)遺傳算法的倉儲路徑智能控制研究[J]. 馮晨鐘,宋世創(chuàng),李慕航. 山西電子技術(shù). 2018(03)
[10]基于改進(jìn)優(yōu)先經(jīng)驗(yàn)重放算法的游戲控制研究[J]. 趙文倉,吳建輝. 甘肅科學(xué)學(xué)報(bào). 2018(02)
碩士論文
[1]面向家庭環(huán)境的移動機(jī)器人局部路徑規(guī)劃算法研究[D]. 李寧.哈爾濱工業(yè)大學(xué) 2018
[2]基于分層強(qiáng)化學(xué)習(xí)的AUV路徑規(guī)劃方法研究[D]. 冉祥瑞.哈爾濱工程大學(xué) 2017
[3]基于自由空間法的航跡規(guī)劃方法研究[D]. 邱杰.華中科技大學(xué) 2015
本文編號:3447844
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3447844.html
最近更新
教材專著