基于Q(λ)-learning的移動(dòng)機(jī)器人路徑規(guī)劃改進(jìn)探索方法
發(fā)布時(shí)間:2021-01-24 03:55
強(qiáng)化學(xué)習(xí)算法廣泛的應(yīng)用于路徑規(guī)劃,使移動(dòng)機(jī)器人能夠與環(huán)境交互并實(shí)現(xiàn)自主避障、獲取最優(yōu)路徑。傳統(tǒng)Q(λ)-learning算法所采用的探索策略存在探索利用平衡問題,由于收斂過早,往往得不到最優(yōu)解。本文提出一種動(dòng)態(tài)調(diào)整探索因子的探索方法,以探索成功率判斷機(jī)器人對(duì)環(huán)境的熟悉程度,指導(dǎo)探索過程,從而找到最優(yōu)路徑;采用柵格法建立地圖。通過仿真和對(duì)比試驗(yàn)證明了該方法可以得到全局最優(yōu)策略。
【文章來源】:自動(dòng)化與儀表. 2019,34(11)
【文章頁數(shù)】:4 頁
【文章目錄】:
1 基于Q(λ)-learning的改進(jìn)探索方法
2 仿真試驗(yàn)與結(jié)果分析
3 結(jié)語
【參考文獻(xiàn)】:
期刊論文
[1]結(jié)合神經(jīng)網(wǎng)絡(luò)和Q(λ)-learning的路徑規(guī)劃方法[J]. 王健,張平陸,趙忠英,程曉鵬. 自動(dòng)化與儀表. 2019(09)
[2]基于神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)在避障中的應(yīng)用[J]. 喬俊飛,侯占軍,阮曉鋼. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2008(S2)
[3]基于模糊邏輯的機(jī)器人路徑規(guī)劃[J]. 畢盛,朱金輝,閔華清,鐘漢如. 機(jī)電產(chǎn)品開發(fā)與創(chuàng)新. 2006(01)
碩士論文
[1]Qlearning強(qiáng)化學(xué)習(xí)算法的改進(jìn)及應(yīng)用研究[D]. 馬朋委.安徽理工大學(xué) 2016
[2]基于增強(qiáng)學(xué)習(xí)的移動(dòng)機(jī)器人動(dòng)態(tài)路徑規(guī)劃算法研究[D]. 李斯定.國(guó)防科學(xué)技術(shù)大學(xué) 2015
本文編號(hào):2996524
【文章來源】:自動(dòng)化與儀表. 2019,34(11)
【文章頁數(shù)】:4 頁
【文章目錄】:
1 基于Q(λ)-learning的改進(jìn)探索方法
2 仿真試驗(yàn)與結(jié)果分析
3 結(jié)語
【參考文獻(xiàn)】:
期刊論文
[1]結(jié)合神經(jīng)網(wǎng)絡(luò)和Q(λ)-learning的路徑規(guī)劃方法[J]. 王健,張平陸,趙忠英,程曉鵬. 自動(dòng)化與儀表. 2019(09)
[2]基于神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)在避障中的應(yīng)用[J]. 喬俊飛,侯占軍,阮曉鋼. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2008(S2)
[3]基于模糊邏輯的機(jī)器人路徑規(guī)劃[J]. 畢盛,朱金輝,閔華清,鐘漢如. 機(jī)電產(chǎn)品開發(fā)與創(chuàng)新. 2006(01)
碩士論文
[1]Qlearning強(qiáng)化學(xué)習(xí)算法的改進(jìn)及應(yīng)用研究[D]. 馬朋委.安徽理工大學(xué) 2016
[2]基于增強(qiáng)學(xué)習(xí)的移動(dòng)機(jī)器人動(dòng)態(tài)路徑規(guī)劃算法研究[D]. 李斯定.國(guó)防科學(xué)技術(shù)大學(xué) 2015
本文編號(hào):2996524
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2996524.html
最近更新
教材專著