天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于進(jìn)化和強(qiáng)化學(xué)習(xí)算法的動(dòng)態(tài)路徑規(guī)劃研究

發(fā)布時(shí)間:2022-12-08 04:20
  隨著機(jī)器人技術(shù)的日新月異,大量的機(jī)器人被應(yīng)用到軍事、商業(yè)、民生各大領(lǐng)域,機(jī)器人的智能控制問題成為研究熱點(diǎn)。在動(dòng)態(tài)變化路徑規(guī)劃環(huán)境中要求智能體能對(duì)環(huán)境的變化擁有實(shí)時(shí)決策能力,基于深度學(xué)習(xí)的強(qiáng)化學(xué)習(xí)算法在復(fù)雜環(huán)境任務(wù)中有很好的表現(xiàn),F(xiàn)在,深度強(qiáng)化學(xué)習(xí)已經(jīng)廣泛應(yīng)用于解決智能控制問題,但是深度強(qiáng)化學(xué)習(xí)方法通常有三個(gè)核心問題:稀疏回報(bào)環(huán)境下的時(shí)間信用分配,缺乏有效探索,對(duì)超參數(shù)極其敏感的收斂特性。針對(duì)上述問題本文提出了改進(jìn)的群體智能深度強(qiáng)化學(xué)習(xí)算法。群體智能算法評(píng)價(jià)值函數(shù)的設(shè)定能夠直接評(píng)判最終結(jié)果的好壞,在時(shí)間信用分配的問題上有很好表現(xiàn);同時(shí)這種方式也能讓算法收集的經(jīng)驗(yàn)偏向于高長期回報(bào),使得探索經(jīng)驗(yàn)更加便于訓(xùn)練;群體智能算法只需要考慮搜索時(shí)間的問題,能減少算法收斂對(duì)超參數(shù)的依賴。實(shí)驗(yàn)結(jié)果表明,該方法具有一定的理論和實(shí)用價(jià)值。主要研究內(nèi)容:(1)提出一種改進(jìn)的遺傳神經(jīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)算法。在算法中提出了符合強(qiáng)化學(xué)習(xí)特性的適應(yīng)性函數(shù),提出了分段權(quán)重選擇交叉的方法繁衍子代和利用梯度信息加快遺傳算法對(duì)解空間搜索的方法。并在修改的稀疏回報(bào)深度強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)環(huán)境對(duì)算法性能進(jìn)行了實(shí)驗(yàn)驗(yàn)證。(2)根據(jù)群體優(yōu)化的思想,... 

【文章頁數(shù)】:72 頁

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
abstract
第一章 緒論
    1.1 研究背景及意義
    1.2 路徑規(guī)劃算法國內(nèi)外研究現(xiàn)狀
    1.3 強(qiáng)化學(xué)習(xí)算法國內(nèi)外研究現(xiàn)狀
    1.4 論文的研究內(nèi)容
    1.5 論文的主要結(jié)構(gòu)
第二章 關(guān)鍵技術(shù)理論
    2.1 動(dòng)態(tài)路徑規(guī)劃
    2.2 強(qiáng)化學(xué)習(xí)理論基礎(chǔ)
        2.2.1 馬爾科夫決策過程
        2.2.2 值函數(shù)模型
        2.2.3 MDP求解方法
    2.3 傳統(tǒng)強(qiáng)化學(xué)習(xí)算法
        2.3.1 Temporal-Difference Learning
        2.3.2 Q-learning算法
    2.4 深度強(qiáng)化學(xué)習(xí)算法
        2.4.1 Deep Q-Network算法
        2.4.2 Actor-Critic算法
        2.4.3 Deep Deterministic Policy Gradient算法
    2.5 進(jìn)化算法理論基礎(chǔ)
    2.6 本章小結(jié)
第三章 遺傳算法優(yōu)化的強(qiáng)化學(xué)習(xí)算法
    3.1 深度強(qiáng)化學(xué)習(xí)算法的局限性
    3.2 遺傳神經(jīng)網(wǎng)絡(luò)優(yōu)化
    3.3 GDQN算法
    3.4 GDDPG算法
    3.5 實(shí)驗(yàn)驗(yàn)證
        3.5.1 GDQN算法實(shí)驗(yàn)驗(yàn)證
        3.5.2 GDDPG算法實(shí)驗(yàn)驗(yàn)證
    3.6 本章小結(jié)
第四章 粒子群算法優(yōu)化的強(qiáng)化學(xué)習(xí)算法
    4.1 PSO算法優(yōu)勢(shì)簡介
    4.2 PSO神經(jīng)網(wǎng)絡(luò)優(yōu)化結(jié)構(gòu)及原理
    4.3 PSO-DDPG算法
    4.4 實(shí)驗(yàn)驗(yàn)證
    4.5 本章小結(jié)
第五章 PSO-DDPG算法在動(dòng)態(tài)路徑規(guī)劃環(huán)境中的應(yīng)用
    5.1 環(huán)境模型選擇原理
    5.2 環(huán)境設(shè)置
        5.2.1 環(huán)境解析
        5.2.2 實(shí)驗(yàn)設(shè)置
    5.3 實(shí)驗(yàn)結(jié)果分析
        5.3.1 非稀疏回報(bào)環(huán)境下實(shí)驗(yàn)結(jié)果分析
        5.3.2 稀疏回報(bào)環(huán)境下實(shí)驗(yàn)結(jié)果分析
    5.4 本章小結(jié)
第六章 總結(jié)與展望
    6.1 全文總結(jié)
    6.2 后續(xù)工作展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的成果



本文編號(hào):3713539

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3713539.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a7420***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com