基于深度強化學習的機械臂抓捕控制研究

發(fā)布時間：2021-04-23 07:39

　　在軌抓捕技術是世界各航天大國研究的熱門領域。我國空間站即將建成,對空間機械臂的應用也具有很大需求。深度強化學習（Deep Reinforcement Learning,DRL）近年來發(fā)展迅速,能夠在無數(shù)學模型的情況下實現(xiàn)高維原始輸入到輸出的端到端的控制策略。本文以智能機器人和對空間飛行目標進行捕獲追蹤為應用背景,開展了神經網絡激活函數(shù)的選擇、近端策略優(yōu)化算法（Proximal Policy Optimization,PPO）及其改進措施、基于比例導引法的機械臂動目標抓捕軌跡規(guī)劃、多自由度機械臂和多場景任務下的深度強化學習抓捕訓練等方面進行了研究,以期對我國空間機器人實現(xiàn)高度智能化捕捉飛行目標提供參考。針對深度神經網絡的激活函數(shù)梯度消失問題,基于不同激活函數(shù)曲線及其導函數(shù)曲線,對激活函數(shù)特征及選擇方法進行分析,以此作為研究深度強化學習中策略與值函數(shù)擬合的基礎。深度強化學習算法是生成策略的核心。本文研究了深度強化學習過程及原理,基于策略與值函數(shù)兩要素,推導近端策略優(yōu)化算法的目標函數(shù)。針對方差與偏差的平衡問題,提出結合使用泛化優(yōu)勢估計的近端策略優(yōu)化算法的改進措施。通過仿真獲得了合理的置信區(qū)間...

【文章來源】：哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】：76 頁

【學位級別】：碩士

【文章目錄】：
摘要
Abstract
第1章緒論
    1.1 課題背景及研究的目的和意義
    1.2 國內外研究現(xiàn)狀
        1.2.1 空間機器人發(fā)展現(xiàn)狀
        1.2.2 深度強化學習發(fā)展現(xiàn)狀
        1.2.3 深度強化學習在機器人控制中的應用
    1.3 本文的主要研究內容
第2章基于深度強化學習的機械臂控制算法
    2.1 引言
    2.2 機械臂控制的RL過程分析
        2.2.1 機械臂的RL過程
        2.2.2 RL值函數(shù)與最優(yōu)控制策略
    2.3 機械臂控制的DRL網絡模型分析
        2.3.1 全連接網絡模型
        2.3.2 機械臂網絡模型激活函數(shù)的分析與選擇
    2.4 機械臂控制策略的PPO訓練算法
    2.5 PPO改進措施及其在機械臂控制中的驗證分析
        2.5.1 泛化優(yōu)勢估計及仿真
        2.5.2 置信區(qū)間的調試仿真
        2.5.3 置信區(qū)間衰減方案設計及仿真
    2.6 本章小結
第3章基于比例導引法的機械臂抓捕運動規(guī)劃
    3.1 引言
    3.2 抓捕運動規(guī)劃問題
    3.3 機械臂的正逆運動學與雅克比矩陣
    3.4 基于比例導引法的機械臂軌跡規(guī)劃
        3.4.1 二維平面比例導引
        3.4.2 三維空間比例導引
        3.4.3 基于比例導引的機械臂軌跡規(guī)劃
    3.5 仿真分析
        3.5.1 導引系數(shù)對抓捕效果的影響
        3.5.2 抓捕速度對抓捕效果的影響
    3.6 本章小結
第4章基于PPO算法的機械臂抓捕控制研究
    4.1 引言
    4.2 仿真環(huán)境
    4.3 深度強化學習任務建模與仿真
        4.3.1 任務設計
        4.3.2 動作與狀態(tài)空間設計
        4.3.3 獎賞函數(shù)設計
        4.3.4 神經網絡的設置
        4.3.5 訓練與測試
    4.4 比例導引法與PPO算法對比分析
        4.4.1 任務與參數(shù)設置
        4.4.2 仿真結果對比分析
    4.5 本章小結
結論
參考文獻
致謝

【參考文獻】：
期刊論文
[1]非合作目標接近與跟蹤的低復雜度預設性能控制[J]. 殷澤陽,羅建軍,魏才盛,袁建平.  宇航學報. 2017(08)
[2]空間站機械臂關鍵技術研究[J]. 李大明,饒煒,胡成威,王耀兵,唐自新,王友漁.  載人航天. 2014(03)
[3]低速滾轉炮彈的三維衛(wèi)星比例導引控制研究[J]. 戴明祥,何穎,楊新民,易文俊.  彈箭與制導學報. 2013(06)
[4]空間目標在軌捕獲技術研究綜述[J]. 王超,董正宏,尹航,高永明.  裝備學院學報. 2013(04)
[5]國外空間非合作目標抓捕系統(tǒng)研究現(xiàn)狀與關鍵技術分析[J]. 蔡洪亮,高永明,邴啟軍,盧昱.  裝備指揮技術學院學報. 2010(06)
[6]美國“軌道快車”計劃中的自主空間交會對接技術[J]. 林來興.  國際太空. 2005(02)
[7]比例導引法在機器人路徑規(guī)劃中的應用[J]. 鮑平安,陳輝堂.  航天控制. 1997(01)

本文編號：3154922

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/hangkongsky/3154922.html

上一篇：渦輪級非定常氣動性能優(yōu)化研究
下一篇：一種新的星載TDOA/FDOA/AOA聯(lián)合定位算法

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度強化學習的機械臂抓捕控制研究