深度強(qiáng)化學(xué)習(xí)算法及應(yīng)用研究
發(fā)布時(shí)間:2022-12-06 02:56
目前機(jī)器人技術(shù)的研究已經(jīng)從傳統(tǒng)的機(jī)械動(dòng)力學(xué)開(kāi)始向智能化控制方向進(jìn)行轉(zhuǎn)變,特別是綜合吸收了控制理論、人工神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)等領(lǐng)域的研究成果后,機(jī)器人技術(shù)已經(jīng)逐漸成為了人工智能領(lǐng)域的核心之一。如何賦予機(jī)器人自主學(xué)習(xí)的能力是機(jī)器人技術(shù)發(fā)展的關(guān)鍵之一,也是當(dāng)前機(jī)器人技術(shù)領(lǐng)域研究和關(guān)注的重點(diǎn),機(jī)器人只有具備了自主學(xué)習(xí)能力才能稱(chēng)之為智能機(jī)器人。因此,如何設(shè)計(jì)更好的機(jī)器學(xué)習(xí)算法并用來(lái)提升機(jī)器人智能化水平具有重大與深遠(yuǎn)的意義。強(qiáng)化學(xué)習(xí)作為近年來(lái)機(jī)器學(xué)習(xí)領(lǐng)域中的重要算法之一,其最大的特點(diǎn)是可以在不給定標(biāo)簽訓(xùn)練數(shù)據(jù)的情況下,通過(guò)與環(huán)境的不斷交互自主的進(jìn)行學(xué)習(xí),是提高機(jī)器人智能化水平的核心技術(shù)之一,尤其是近年來(lái)強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)結(jié)合的深度強(qiáng)化學(xué)習(xí)展現(xiàn)了極強(qiáng)的學(xué)習(xí)能力。雖然當(dāng)前深度強(qiáng)化學(xué)習(xí)算法在機(jī)器人智能化提升方面得到了長(zhǎng)足的發(fā)展,并且也獲得了許多成功,但是深度強(qiáng)化學(xué)習(xí)的研究仍然處于初級(jí)階段,在實(shí)際應(yīng)用中仍舊存在著一些問(wèn)題和挑戰(zhàn),比如獎(jiǎng)賞黑客問(wèn)題、數(shù)據(jù)利用效率問(wèn)題和運(yùn)動(dòng)平滑性問(wèn)題等。這些缺點(diǎn)直接影響了強(qiáng)化學(xué)習(xí)在現(xiàn)實(shí)環(huán)境中的性能表現(xiàn),甚至?xí)䦟?duì)智能體帶來(lái)一定的損害。因此,本文以這些問(wèn)題和挑戰(zhàn)作為出發(fā)點(diǎn),對(duì)現(xiàn)有的強(qiáng)...
【文章頁(yè)數(shù)】:117 頁(yè)
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
Abstract
符號(hào)說(shuō)明表
第一章 緒論
1.1 研究背景和意義
1.2 強(qiáng)化學(xué)習(xí)研究現(xiàn)狀
1.2.1 經(jīng)典強(qiáng)化學(xué)習(xí)方法研究現(xiàn)狀
1.2.2 深度強(qiáng)化學(xué)習(xí)方法研究現(xiàn)狀
1.2.3 問(wèn)題與挑戰(zhàn)
1.3 本文主要工作
1.4 論文組織結(jié)構(gòu)
1.5 本章小結(jié)
第二章 強(qiáng)化學(xué)習(xí)的原理和常用算法概述
2.1 引言
2.2 強(qiáng)化學(xué)習(xí)的原理
2.2.1 SARSA算法
2.2.2 Q-learning算法
2.2.3 確定性策略梯度算法
2.3 深度強(qiáng)化學(xué)習(xí)原理
2.3.1 深度Q網(wǎng)絡(luò)算法
2.3.2 雙重深度Q網(wǎng)絡(luò)算法
2.3.3 深度確定性策略梯度算法
2.4 本章小結(jié)
第三章 基于在線策略的多步強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)
3.1 引言
3.2 基于在線策略的多步強(qiáng)化學(xué)習(xí)算法
3.2.1 基于On-Policy的TD強(qiáng)化學(xué)習(xí)算法
3.2.2 基于On-Policy的多步強(qiáng)化學(xué)習(xí)算法
3.3 仿真實(shí)驗(yàn)及結(jié)果分析
3.3.1 貓捉老鼠問(wèn)題
3.3.2 山地車(chē)爬坡問(wèn)題
3.4 討論
3.5 本章小結(jié)
第四章 基于離線策略的多步深度強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)
4.1 引言
4.2 基于離線策略的多步深度強(qiáng)化學(xué)習(xí)算法
4.2.1 基于Off-Policy的TD強(qiáng)化學(xué)習(xí)算法
4.2.2 基于Off-Policy的多步強(qiáng)化學(xué)習(xí)算法
4.2.3 多步深度強(qiáng)化學(xué)習(xí)算法
4.3 仿真實(shí)驗(yàn)及結(jié)果分析
4.3.1 仿真實(shí)驗(yàn)平臺(tái)設(shè)計(jì)
4.3.2 仿真實(shí)驗(yàn)參數(shù)設(shè)置
4.3.3 實(shí)驗(yàn)數(shù)據(jù)分析
4.3.4 算法擴(kuò)展性分析
4.4 討論
4.5 本章小結(jié)
第五章 基于動(dòng)態(tài)運(yùn)動(dòng)基元的深度強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)
5.1 引言
5.2 基于動(dòng)態(tài)運(yùn)動(dòng)基元的深度強(qiáng)化學(xué)習(xí)算法
5.2.1 分層動(dòng)態(tài)運(yùn)動(dòng)基元框架結(jié)構(gòu)設(shè)計(jì)
5.2.2 低級(jí)控制器學(xué)習(xí)層次結(jié)構(gòu)
5.2.3 高級(jí)策略學(xué)習(xí)層次結(jié)構(gòu)
5.3 仿真實(shí)驗(yàn)及結(jié)果分析
5.3.1 仿真實(shí)驗(yàn)平臺(tái)設(shè)計(jì)
5.3.2 仿真實(shí)驗(yàn)參數(shù)設(shè)置
5.3.3 實(shí)驗(yàn)結(jié)果分析
5.4 討論
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 論文工作總結(jié)
6.2 未來(lái)工作展望
附錄1
附錄2
參考文獻(xiàn)
攻讀博士學(xué)位期間取得的研究成果
致謝
附件
本文編號(hào):3710914
【文章頁(yè)數(shù)】:117 頁(yè)
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
Abstract
符號(hào)說(shuō)明表
第一章 緒論
1.1 研究背景和意義
1.2 強(qiáng)化學(xué)習(xí)研究現(xiàn)狀
1.2.1 經(jīng)典強(qiáng)化學(xué)習(xí)方法研究現(xiàn)狀
1.2.2 深度強(qiáng)化學(xué)習(xí)方法研究現(xiàn)狀
1.2.3 問(wèn)題與挑戰(zhàn)
1.3 本文主要工作
1.4 論文組織結(jié)構(gòu)
1.5 本章小結(jié)
第二章 強(qiáng)化學(xué)習(xí)的原理和常用算法概述
2.1 引言
2.2 強(qiáng)化學(xué)習(xí)的原理
2.2.1 SARSA算法
2.2.2 Q-learning算法
2.2.3 確定性策略梯度算法
2.3 深度強(qiáng)化學(xué)習(xí)原理
2.3.1 深度Q網(wǎng)絡(luò)算法
2.3.2 雙重深度Q網(wǎng)絡(luò)算法
2.3.3 深度確定性策略梯度算法
2.4 本章小結(jié)
第三章 基于在線策略的多步強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)
3.1 引言
3.2 基于在線策略的多步強(qiáng)化學(xué)習(xí)算法
3.2.1 基于On-Policy的TD強(qiáng)化學(xué)習(xí)算法
3.2.2 基于On-Policy的多步強(qiáng)化學(xué)習(xí)算法
3.3 仿真實(shí)驗(yàn)及結(jié)果分析
3.3.1 貓捉老鼠問(wèn)題
3.3.2 山地車(chē)爬坡問(wèn)題
3.4 討論
3.5 本章小結(jié)
第四章 基于離線策略的多步深度強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)
4.1 引言
4.2 基于離線策略的多步深度強(qiáng)化學(xué)習(xí)算法
4.2.1 基于Off-Policy的TD強(qiáng)化學(xué)習(xí)算法
4.2.2 基于Off-Policy的多步強(qiáng)化學(xué)習(xí)算法
4.2.3 多步深度強(qiáng)化學(xué)習(xí)算法
4.3 仿真實(shí)驗(yàn)及結(jié)果分析
4.3.1 仿真實(shí)驗(yàn)平臺(tái)設(shè)計(jì)
4.3.2 仿真實(shí)驗(yàn)參數(shù)設(shè)置
4.3.3 實(shí)驗(yàn)數(shù)據(jù)分析
4.3.4 算法擴(kuò)展性分析
4.4 討論
4.5 本章小結(jié)
第五章 基于動(dòng)態(tài)運(yùn)動(dòng)基元的深度強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)
5.1 引言
5.2 基于動(dòng)態(tài)運(yùn)動(dòng)基元的深度強(qiáng)化學(xué)習(xí)算法
5.2.1 分層動(dòng)態(tài)運(yùn)動(dòng)基元框架結(jié)構(gòu)設(shè)計(jì)
5.2.2 低級(jí)控制器學(xué)習(xí)層次結(jié)構(gòu)
5.2.3 高級(jí)策略學(xué)習(xí)層次結(jié)構(gòu)
5.3 仿真實(shí)驗(yàn)及結(jié)果分析
5.3.1 仿真實(shí)驗(yàn)平臺(tái)設(shè)計(jì)
5.3.2 仿真實(shí)驗(yàn)參數(shù)設(shè)置
5.3.3 實(shí)驗(yàn)結(jié)果分析
5.4 討論
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 論文工作總結(jié)
6.2 未來(lái)工作展望
附錄1
附錄2
參考文獻(xiàn)
攻讀博士學(xué)位期間取得的研究成果
致謝
附件
本文編號(hào):3710914
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/3710914.html
最近更新
教材專(zhuān)著