天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于強化Q學習和BP神經(jīng)網(wǎng)絡(luò)的移動機器人局部路徑規(guī)劃行為研究

發(fā)布時間:2021-10-27 20:10
  移動機器人導(dǎo)航技術(shù)是當今人工智能領(lǐng)域的研究熱點,包括建立地圖、定位、路徑規(guī)劃等。為了賦予智能移動機器人自主學習的能力,實現(xiàn)和增強移動機器人局部路徑規(guī)劃功能,需要結(jié)合具有學習能力的機器學習方法進行移動機器人的局部路徑規(guī)劃行為研究。本文基于強化Q學習算法和BP神經(jīng)網(wǎng)絡(luò)模型,研究移動機器人局部路徑規(guī)劃行為。根據(jù)路徑規(guī)劃行為的任務(wù)要求,設(shè)計學習策略和控制規(guī)則,針對環(huán)境感知信息,提出了相應(yīng)的控制策略,并進行了仿真驗證。主要研究內(nèi)容包括:基于柵格地圖環(huán)境,提出了基于CM-Q學習的移動機器人局部路徑規(guī)劃算法。該算法首先根據(jù)強化Q學習算法和柵格地圖,設(shè)計了移動機器人狀態(tài)和動作,建立了Q矩陣;其次設(shè)計了一種坐標匹配(CM)的避障控制規(guī)則,以提高移動機器人避障效率;然后針對動作執(zhí)行的評估問題,設(shè)計了回報函數(shù);最后對CM-Q局部路徑規(guī)劃算法的有效性進行實驗驗證。對于規(guī)劃路徑中可能出現(xiàn)的冗余問題,通過增加學習次數(shù)和調(diào)整學習率等措施消除,使移動機器人在離散和連續(xù)障礙物環(huán)境中移動時不再出現(xiàn)冗余現(xiàn)象,運行效果良好;谧杂煽臻g的地圖環(huán)境和BP神經(jīng)網(wǎng)絡(luò)的泛化能力,提出了基于BPNN-Q學習的移動機器人局部路徑規(guī)劃算法... 

【文章來源】:山東理工大學山東省

【文章頁數(shù)】:69 頁

【學位級別】:碩士

【文章目錄】:
摘要
Abstract
第一章 緒論
    1.1 課題研究背景及意義
    1.2 國內(nèi)外研究現(xiàn)狀
        1.2.1 基于強化學習的路徑規(guī)劃研究現(xiàn)狀
        1.2.2 基于神經(jīng)網(wǎng)絡(luò)的路徑規(guī)劃研究現(xiàn)狀
    1.3 論文主要研究內(nèi)容及創(chuàng)新點
        1.3.1 論文主要研究內(nèi)容
        1.3.2 論文主要創(chuàng)新點
    1.4 論文組織結(jié)構(gòu)
第二章 強化學習與神經(jīng)網(wǎng)絡(luò)理論背景知識
    2.1 強化學習理論概述
        2.1.1 馬爾科夫決策過程
        2.1.2 狀態(tài)值函數(shù)與動作值函數(shù)
        2.1.3 探索與利用
    2.2 基于模型的強化學習方法
        2.2.1 策略迭代
        2.2.2 值迭代
    2.3 基于無模型的強化學習方法
        2.3.1 蒙特卡羅方法
        2.3.2 時間差分方法
    2.4 神經(jīng)網(wǎng)絡(luò)理論概述
        2.4.1 神經(jīng)網(wǎng)絡(luò)基本組成
        2.4.2 誤差逆?zhèn)鞑ニ惴?br>    2.5 本章小結(jié)
第三章 基于CM-Q學習的局部路徑規(guī)劃
    3.1 CM算法
    3.2 基于CM-Q學習的路徑規(guī)劃
        3.2.1 柵格地圖的建立
        3.2.2 狀態(tài)和動作設(shè)計
        3.2.3 Q矩陣建立
        3.2.4 回報函數(shù)設(shè)計
        3.2.5 CM避障設(shè)計
        3.2.6 基于柵格地圖的CM-Q算法
    3.3 基于CM-Q學習的移動機器人路徑規(guī)劃仿真實驗
        3.3.1 CM-Q算法有效性驗證
        3.3.2 路徑規(guī)劃冗余問題處理
    3.4 本章小結(jié)
第四章 基于BPNN-Q學習的局部路徑規(guī)劃研究
    4.1 基于BPNN-Q學習的路徑規(guī)劃算法
        4.1.1 環(huán)境和狀態(tài)空間描述
        4.1.2 動作空間描述及動作選擇策略
        4.1.3 三次震蕩后退避障規(guī)則建立
        4.1.4 回報函數(shù)設(shè)計
        4.1.5 基于BPNN的Q值函數(shù)預(yù)測模型設(shè)計
        4.1.6 確定收斂條件
        4.1.7 基于BPNN-Q學習的局部路徑規(guī)劃算法描述及流程
    4.2 仿真實驗與結(jié)果分析
        4.2.1 仿真實驗環(huán)境設(shè)計
        4.2.2 仿真實驗過程及結(jié)果分析
    4.3 本章小結(jié)
第五章 總結(jié)與展望
    5.1 總結(jié)
    5.2 展望
參考文獻
在讀期間取得的科研成果
致謝



本文編號:3462249

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3462249.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5675e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com