基于深度強(qiáng)化學(xué)習(xí)的路徑規(guī)劃算法研究
發(fā)布時(shí)間:2023-03-11 05:18
針對(duì)現(xiàn)有的路徑規(guī)劃算法效率低的問題,根據(jù)獎(jiǎng)勵(lì)函數(shù)和多層感知機(jī)提出一種基于深度強(qiáng)化學(xué)習(xí)的路徑規(guī)劃算法?紤]到環(huán)境的復(fù)雜程度,為了降低過擬合的概率,因此神經(jīng)網(wǎng)絡(luò)選擇較優(yōu)的動(dòng)作,提出以多層感知機(jī)為基礎(chǔ)的深度Q網(wǎng)絡(luò)算法(Deep Q-learning Network, DQN)。為了得到動(dòng)態(tài)的獎(jiǎng)勵(lì)值,該算法根據(jù)目標(biāo)的相關(guān)信息改進(jìn)獎(jiǎng)勵(lì)函數(shù),根據(jù)動(dòng)態(tài)的獎(jiǎng)勵(lì)值來區(qū)別不同動(dòng)作的價(jià)值,從而提升神經(jīng)網(wǎng)絡(luò)動(dòng)作選擇的效率。實(shí)驗(yàn)結(jié)果表明,該算法能夠用更少的探索步數(shù)使獎(jiǎng)勵(lì)值趨向平穩(wěn),并且找到較優(yōu)路徑。
【文章頁數(shù)】:7 頁
【文章目錄】:
0 引 言
1 相關(guān)工作
2 相關(guān)知識(shí)
2.1 Q學(xué)習(xí)算法
2.1.1 Q值表更新
2.1.2 獎(jiǎng)勵(lì)函數(shù)
2.2 深度Q網(wǎng)絡(luò)
2.2.1 神經(jīng)網(wǎng)絡(luò)
2.2.2 記憶回放機(jī)制
3 改進(jìn)DQN的路徑規(guī)劃算法
3.1 DQN算法設(shè)計(jì)
3.1.1 多層感知機(jī)
3.1.2 獎(jiǎng)勵(lì)函數(shù)
3.1.3 動(dòng)作選擇機(jī)制
3.2 模型訓(xùn)練
4 實(shí)驗(yàn)仿真與分析
4.1 實(shí)驗(yàn)場景
4.2 實(shí)驗(yàn)參數(shù)
4.3 實(shí)驗(yàn)結(jié)果
5 結(jié) 語
本文編號(hào):3759272
【文章頁數(shù)】:7 頁
【文章目錄】:
0 引 言
1 相關(guān)工作
2 相關(guān)知識(shí)
2.1 Q學(xué)習(xí)算法
2.1.1 Q值表更新
2.1.2 獎(jiǎng)勵(lì)函數(shù)
2.2 深度Q網(wǎng)絡(luò)
2.2.1 神經(jīng)網(wǎng)絡(luò)
2.2.2 記憶回放機(jī)制
3 改進(jìn)DQN的路徑規(guī)劃算法
3.1 DQN算法設(shè)計(jì)
3.1.1 多層感知機(jī)
3.1.2 獎(jiǎng)勵(lì)函數(shù)
3.1.3 動(dòng)作選擇機(jī)制
3.2 模型訓(xùn)練
4 實(shí)驗(yàn)仿真與分析
4.1 實(shí)驗(yàn)場景
4.2 實(shí)驗(yàn)參數(shù)
4.3 實(shí)驗(yàn)結(jié)果
5 結(jié) 語
本文編號(hào):3759272
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3759272.html
最近更新
教材專著