深度強化學(xué)習(xí)算法及應(yīng)用研究
發(fā)布時間:2022-12-06 02:56
目前機器人技術(shù)的研究已經(jīng)從傳統(tǒng)的機械動力學(xué)開始向智能化控制方向進行轉(zhuǎn)變,特別是綜合吸收了控制理論、人工神經(jīng)網(wǎng)絡(luò)和機器學(xué)習(xí)等領(lǐng)域的研究成果后,機器人技術(shù)已經(jīng)逐漸成為了人工智能領(lǐng)域的核心之一。如何賦予機器人自主學(xué)習(xí)的能力是機器人技術(shù)發(fā)展的關(guān)鍵之一,也是當前機器人技術(shù)領(lǐng)域研究和關(guān)注的重點,機器人只有具備了自主學(xué)習(xí)能力才能稱之為智能機器人。因此,如何設(shè)計更好的機器學(xué)習(xí)算法并用來提升機器人智能化水平具有重大與深遠的意義。強化學(xué)習(xí)作為近年來機器學(xué)習(xí)領(lǐng)域中的重要算法之一,其最大的特點是可以在不給定標簽訓(xùn)練數(shù)據(jù)的情況下,通過與環(huán)境的不斷交互自主的進行學(xué)習(xí),是提高機器人智能化水平的核心技術(shù)之一,尤其是近年來強化學(xué)習(xí)與深度學(xué)習(xí)結(jié)合的深度強化學(xué)習(xí)展現(xiàn)了極強的學(xué)習(xí)能力。雖然當前深度強化學(xué)習(xí)算法在機器人智能化提升方面得到了長足的發(fā)展,并且也獲得了許多成功,但是深度強化學(xué)習(xí)的研究仍然處于初級階段,在實際應(yīng)用中仍舊存在著一些問題和挑戰(zhàn),比如獎賞黑客問題、數(shù)據(jù)利用效率問題和運動平滑性問題等。這些缺點直接影響了強化學(xué)習(xí)在現(xiàn)實環(huán)境中的性能表現(xiàn),甚至?xí)䦟χ悄荏w帶來一定的損害。因此,本文以這些問題和挑戰(zhàn)作為出發(fā)點,對現(xiàn)有的強...
【文章頁數(shù)】:117 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
Abstract
符號說明表
第一章 緒論
1.1 研究背景和意義
1.2 強化學(xué)習(xí)研究現(xiàn)狀
1.2.1 經(jīng)典強化學(xué)習(xí)方法研究現(xiàn)狀
1.2.2 深度強化學(xué)習(xí)方法研究現(xiàn)狀
1.2.3 問題與挑戰(zhàn)
1.3 本文主要工作
1.4 論文組織結(jié)構(gòu)
1.5 本章小結(jié)
第二章 強化學(xué)習(xí)的原理和常用算法概述
2.1 引言
2.2 強化學(xué)習(xí)的原理
2.2.1 SARSA算法
2.2.2 Q-learning算法
2.2.3 確定性策略梯度算法
2.3 深度強化學(xué)習(xí)原理
2.3.1 深度Q網(wǎng)絡(luò)算法
2.3.2 雙重深度Q網(wǎng)絡(luò)算法
2.3.3 深度確定性策略梯度算法
2.4 本章小結(jié)
第三章 基于在線策略的多步強化學(xué)習(xí)算法設(shè)計
3.1 引言
3.2 基于在線策略的多步強化學(xué)習(xí)算法
3.2.1 基于On-Policy的TD強化學(xué)習(xí)算法
3.2.2 基于On-Policy的多步強化學(xué)習(xí)算法
3.3 仿真實驗及結(jié)果分析
3.3.1 貓捉老鼠問題
3.3.2 山地車爬坡問題
3.4 討論
3.5 本章小結(jié)
第四章 基于離線策略的多步深度強化學(xué)習(xí)算法設(shè)計
4.1 引言
4.2 基于離線策略的多步深度強化學(xué)習(xí)算法
4.2.1 基于Off-Policy的TD強化學(xué)習(xí)算法
4.2.2 基于Off-Policy的多步強化學(xué)習(xí)算法
4.2.3 多步深度強化學(xué)習(xí)算法
4.3 仿真實驗及結(jié)果分析
4.3.1 仿真實驗平臺設(shè)計
4.3.2 仿真實驗參數(shù)設(shè)置
4.3.3 實驗數(shù)據(jù)分析
4.3.4 算法擴展性分析
4.4 討論
4.5 本章小結(jié)
第五章 基于動態(tài)運動基元的深度強化學(xué)習(xí)算法設(shè)計
5.1 引言
5.2 基于動態(tài)運動基元的深度強化學(xué)習(xí)算法
5.2.1 分層動態(tài)運動基元框架結(jié)構(gòu)設(shè)計
5.2.2 低級控制器學(xué)習(xí)層次結(jié)構(gòu)
5.2.3 高級策略學(xué)習(xí)層次結(jié)構(gòu)
5.3 仿真實驗及結(jié)果分析
5.3.1 仿真實驗平臺設(shè)計
5.3.2 仿真實驗參數(shù)設(shè)置
5.3.3 實驗結(jié)果分析
5.4 討論
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 論文工作總結(jié)
6.2 未來工作展望
附錄1
附錄2
參考文獻
攻讀博士學(xué)位期間取得的研究成果
致謝
附件
本文編號:3710914
【文章頁數(shù)】:117 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
Abstract
符號說明表
第一章 緒論
1.1 研究背景和意義
1.2 強化學(xué)習(xí)研究現(xiàn)狀
1.2.1 經(jīng)典強化學(xué)習(xí)方法研究現(xiàn)狀
1.2.2 深度強化學(xué)習(xí)方法研究現(xiàn)狀
1.2.3 問題與挑戰(zhàn)
1.3 本文主要工作
1.4 論文組織結(jié)構(gòu)
1.5 本章小結(jié)
第二章 強化學(xué)習(xí)的原理和常用算法概述
2.1 引言
2.2 強化學(xué)習(xí)的原理
2.2.1 SARSA算法
2.2.2 Q-learning算法
2.2.3 確定性策略梯度算法
2.3 深度強化學(xué)習(xí)原理
2.3.1 深度Q網(wǎng)絡(luò)算法
2.3.2 雙重深度Q網(wǎng)絡(luò)算法
2.3.3 深度確定性策略梯度算法
2.4 本章小結(jié)
第三章 基于在線策略的多步強化學(xué)習(xí)算法設(shè)計
3.1 引言
3.2 基于在線策略的多步強化學(xué)習(xí)算法
3.2.1 基于On-Policy的TD強化學(xué)習(xí)算法
3.2.2 基于On-Policy的多步強化學(xué)習(xí)算法
3.3 仿真實驗及結(jié)果分析
3.3.1 貓捉老鼠問題
3.3.2 山地車爬坡問題
3.4 討論
3.5 本章小結(jié)
第四章 基于離線策略的多步深度強化學(xué)習(xí)算法設(shè)計
4.1 引言
4.2 基于離線策略的多步深度強化學(xué)習(xí)算法
4.2.1 基于Off-Policy的TD強化學(xué)習(xí)算法
4.2.2 基于Off-Policy的多步強化學(xué)習(xí)算法
4.2.3 多步深度強化學(xué)習(xí)算法
4.3 仿真實驗及結(jié)果分析
4.3.1 仿真實驗平臺設(shè)計
4.3.2 仿真實驗參數(shù)設(shè)置
4.3.3 實驗數(shù)據(jù)分析
4.3.4 算法擴展性分析
4.4 討論
4.5 本章小結(jié)
第五章 基于動態(tài)運動基元的深度強化學(xué)習(xí)算法設(shè)計
5.1 引言
5.2 基于動態(tài)運動基元的深度強化學(xué)習(xí)算法
5.2.1 分層動態(tài)運動基元框架結(jié)構(gòu)設(shè)計
5.2.2 低級控制器學(xué)習(xí)層次結(jié)構(gòu)
5.2.3 高級策略學(xué)習(xí)層次結(jié)構(gòu)
5.3 仿真實驗及結(jié)果分析
5.3.1 仿真實驗平臺設(shè)計
5.3.2 仿真實驗參數(shù)設(shè)置
5.3.3 實驗結(jié)果分析
5.4 討論
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 論文工作總結(jié)
6.2 未來工作展望
附錄1
附錄2
參考文獻
攻讀博士學(xué)位期間取得的研究成果
致謝
附件
本文編號:3710914
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/3710914.html
最近更新
教材專著