基于集成的多深度確定性策略梯度的無人駕駛策略研究
發(fā)布時(shí)間:2023-04-03 04:52
隨著人工智能的迅速發(fā)展,無人駕駛成為了當(dāng)今學(xué)術(shù)界與工業(yè)界備受追捧的研究熱點(diǎn),其相關(guān)技術(shù)研究可以減緩或消除傳統(tǒng)人類駕駛存在的交通事故頻發(fā)、交通擁堵嚴(yán)重等問題,對于解決傳統(tǒng)汽車工業(yè)無法避免的問題極具現(xiàn)實(shí)意義。本文將深度強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用于虛擬仿真環(huán)境下車輛的無人駕駛研究,提出了一種無人駕駛控制策略學(xué)習(xí)的方法。本文基于深度確定性策略梯度(DDPG)算法,針對其訓(xùn)練不穩(wěn)定、訓(xùn)練時(shí)間長的弊端,提出了用于無人駕駛控制策略學(xué)習(xí)的集成的多深度確定性策略梯度(AMDDPG)算法。該算法首先通過多DDPG結(jié)構(gòu),結(jié)合兩種不同的訓(xùn)練模式,并行地學(xué)習(xí)多個(gè)次優(yōu)的子策略,然后使用策略集成的方法對多個(gè)次優(yōu)子策略進(jìn)行集成,得到最終的控制策略。多DDPG的結(jié)構(gòu)融合了中央經(jīng)驗(yàn)回放池技術(shù),有效地打破訓(xùn)練數(shù)據(jù)之間的關(guān)聯(lián)性,提高了數(shù)據(jù)的利用率。為快速驗(yàn)證AMDDPG算法用于無人駕駛控制策略學(xué)習(xí)的可行性與有效性,并避免真車實(shí)驗(yàn)成本高與安全性無法保障等各種弊端,本文基于所設(shè)計(jì)的算法與TORCS仿真平臺(tái),搭建了無人駕駛控制策略研究的仿真系統(tǒng),并根據(jù)對受控制車輛的快速行駛、彎道剎車和靠近車道中軸線等行為的期望,提出了多個(gè)乘積項(xiàng)累積的回報(bào)函...
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 選題背景
1.2 研究的目的及意義
1.3 國內(nèi)外研究現(xiàn)狀分析
1.3.1 無人駕駛的國內(nèi)外研究現(xiàn)狀
1.3.2 深度強(qiáng)化學(xué)習(xí)的國內(nèi)外研究現(xiàn)狀
1.4 論文主要研究內(nèi)容與創(chuàng)新點(diǎn)
1.4.1 論文主要研究內(nèi)容
1.4.2 論文創(chuàng)新點(diǎn)
1.5 論文章節(jié)安排
第2章 深度強(qiáng)化學(xué)習(xí)理論基礎(chǔ)
2.1 深度學(xué)習(xí)理論基礎(chǔ)
2.1.1 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
2.1.2 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練
2.1.3 深度學(xué)習(xí)模型
2.2 強(qiáng)化學(xué)習(xí)方法
2.2.1 強(qiáng)化學(xué)習(xí)框架與基本概念
2.2.2 基于值函數(shù)的強(qiáng)化學(xué)習(xí)方法
2.2.3 基于策略梯度的強(qiáng)化學(xué)習(xí)方法
2.3 基于深度學(xué)習(xí)的強(qiáng)化學(xué)習(xí)
2.3.1 深度Q網(wǎng)絡(luò)算法(DQN)
2.3.2 深度確定性策略梯度算法(DDPG)
2.4 本章小結(jié)
第3章 集成的多深度確定策略梯度算法設(shè)計(jì)
3.1 集成的多深度確定性策略梯度(AMDDPG)算法
3.1.1 多個(gè)深度確定性策略梯度的集成學(xué)習(xí)結(jié)構(gòu)
3.1.2 策略集成分析
3.1.3 中央經(jīng)驗(yàn)回放池技術(shù)
3.1.4 訓(xùn)練模式與算法描述
3.2 本章小結(jié)
第4章 無人駕駛仿真系統(tǒng)架構(gòu)設(shè)計(jì)
4.1 TORCS仿真平臺(tái)簡介
4.2 仿真環(huán)境的接口設(shè)計(jì)
4.3 仿真環(huán)境狀態(tài)信息
4.4 仿真車輛的控制指令
4.5 無人駕駛仿真系統(tǒng)架構(gòu)
4.6 本章小結(jié)
第5章 實(shí)驗(yàn)與結(jié)果分析
5.1 實(shí)驗(yàn)的軟硬件環(huán)境
5.2 網(wǎng)絡(luò)結(jié)構(gòu)層次設(shè)計(jì)
5.3 回報(bào)函數(shù)設(shè)計(jì)
5.4 網(wǎng)絡(luò)權(quán)重預(yù)訓(xùn)練
5.5 實(shí)驗(yàn)結(jié)果分析
5.5.1 學(xué)習(xí)曲線
5.5.2 訓(xùn)練時(shí)間
5.5.3 子策略集成的效果
5.5.4 集成策略的泛化性能
5.5.5 子策略數(shù)量對集成策略的影響
5.6 本章小結(jié)
第6章 總結(jié)與展望
6.1 研究總結(jié)
6.2 研究展望
參考文獻(xiàn)
致謝
作者簡歷及攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文與研究成果
本文編號:3780696
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 選題背景
1.2 研究的目的及意義
1.3 國內(nèi)外研究現(xiàn)狀分析
1.3.1 無人駕駛的國內(nèi)外研究現(xiàn)狀
1.3.2 深度強(qiáng)化學(xué)習(xí)的國內(nèi)外研究現(xiàn)狀
1.4 論文主要研究內(nèi)容與創(chuàng)新點(diǎn)
1.4.1 論文主要研究內(nèi)容
1.4.2 論文創(chuàng)新點(diǎn)
1.5 論文章節(jié)安排
第2章 深度強(qiáng)化學(xué)習(xí)理論基礎(chǔ)
2.1 深度學(xué)習(xí)理論基礎(chǔ)
2.1.1 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
2.1.2 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練
2.1.3 深度學(xué)習(xí)模型
2.2 強(qiáng)化學(xué)習(xí)方法
2.2.1 強(qiáng)化學(xué)習(xí)框架與基本概念
2.2.2 基于值函數(shù)的強(qiáng)化學(xué)習(xí)方法
2.2.3 基于策略梯度的強(qiáng)化學(xué)習(xí)方法
2.3 基于深度學(xué)習(xí)的強(qiáng)化學(xué)習(xí)
2.3.1 深度Q網(wǎng)絡(luò)算法(DQN)
2.3.2 深度確定性策略梯度算法(DDPG)
2.4 本章小結(jié)
第3章 集成的多深度確定策略梯度算法設(shè)計(jì)
3.1 集成的多深度確定性策略梯度(AMDDPG)算法
3.1.1 多個(gè)深度確定性策略梯度的集成學(xué)習(xí)結(jié)構(gòu)
3.1.2 策略集成分析
3.1.3 中央經(jīng)驗(yàn)回放池技術(shù)
3.1.4 訓(xùn)練模式與算法描述
3.2 本章小結(jié)
第4章 無人駕駛仿真系統(tǒng)架構(gòu)設(shè)計(jì)
4.1 TORCS仿真平臺(tái)簡介
4.2 仿真環(huán)境的接口設(shè)計(jì)
4.3 仿真環(huán)境狀態(tài)信息
4.4 仿真車輛的控制指令
4.5 無人駕駛仿真系統(tǒng)架構(gòu)
4.6 本章小結(jié)
第5章 實(shí)驗(yàn)與結(jié)果分析
5.1 實(shí)驗(yàn)的軟硬件環(huán)境
5.2 網(wǎng)絡(luò)結(jié)構(gòu)層次設(shè)計(jì)
5.3 回報(bào)函數(shù)設(shè)計(jì)
5.4 網(wǎng)絡(luò)權(quán)重預(yù)訓(xùn)練
5.5 實(shí)驗(yàn)結(jié)果分析
5.5.1 學(xué)習(xí)曲線
5.5.2 訓(xùn)練時(shí)間
5.5.3 子策略集成的效果
5.5.4 集成策略的泛化性能
5.5.5 子策略數(shù)量對集成策略的影響
5.6 本章小結(jié)
第6章 總結(jié)與展望
6.1 研究總結(jié)
6.2 研究展望
參考文獻(xiàn)
致謝
作者簡歷及攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文與研究成果
本文編號:3780696
本文鏈接:http://sikaile.net/kejilunwen/qiche/3780696.html
最近更新
教材專著