基于虛擬仿真環(huán)境的自動駕駛策略學習
發(fā)布時間:2021-05-12 00:30
自動駕駛是人工智能研究的重要領(lǐng)域,對提高現(xiàn)實交通的安全性、效率性有著重大的意義。隨著神經(jīng)網(wǎng)絡在計算機視覺、自然語言處理上的發(fā)展,越來越多的公司和研究機構(gòu)開始研究深度學習和自動駕駛的結(jié)合。駕駛策略的學習是其中很重要的一個研究方向。傳統(tǒng)的駕駛策略算法基于人工設(shè)計和數(shù)學建模,無法處理復雜的交通環(huán)境,不能滿足自動駕駛的需要。本文的研究目的,是基于虛擬環(huán)境的條件下,訓練得到更加智能的駕駛策略,在無人車訓練平臺中,作為對手車輛的駕駛策略,輔助真正的無人駕駛訓練過程。本文的主要工作包括:基于駕駛的理論模型,搭建了一個用于強化學習的駕駛仿真環(huán)境;在駕駛仿真環(huán)境的基礎(chǔ)上,提出了一種使用深度強化學習得到駕駛策略的算法框架;比較了不同的深度強化學習結(jié)構(gòu)對駕駛策略學習的影響,得到的駕駛策略在多項交通指標上超越了傳統(tǒng)的駕駛策略;基于實驗和分析,對未來如何開發(fā)更好的駕駛學習算法提出了建設(shè)性的意見。本文創(chuàng)新點有兩個,一是設(shè)計了駕駛策略的狀態(tài)空間,提出了相應的神經(jīng)網(wǎng)絡結(jié)構(gòu)和獎勵函數(shù)來進行深度強化學習訓練;二是研究、分析了整個算法中,神經(jīng)網(wǎng)絡因素和交通環(huán)境因素對最終學習結(jié)果的影響。本文的駕駛仿真環(huán)境可以與不同的底層仿真...
【文章來源】:浙江大學浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:85 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題背景
1.2 國內(nèi)外的研究現(xiàn)狀
1.2.1 傳統(tǒng)駕駛模型
1.2.2 深度強化學習
1.2.3 無人駕駛與深度學習的結(jié)合
1.3 研究目的
1.4 論文工作
1.5 文章結(jié)構(gòu)
1.6 本章小結(jié)
第2章 理論基礎(chǔ)
2.1 神經(jīng)網(wǎng)絡
2.1.1 卷積神經(jīng)網(wǎng)絡
2.1.2 遞歸神經(jīng)網(wǎng)絡
2.2 深度強化學習
2.2.1 強化學習
2.2.2 基于Q學習的深度強化學習
2.2.3 基于策略梯度的深度強化學習
2.2.4 異步的優(yōu)勢觀察者-行為者算法
2.2.5 深度強化學習中的策略優(yōu)化算法
2.3 相關(guān)開源項目
2.3.1 SUMO
2.3.2 Ray
2.4 本章小結(jié)
第3章 基于交通仿真系統(tǒng)的強化學習環(huán)境
3.1 設(shè)計目標
3.2 設(shè)計方案
3.2.1 整體結(jié)構(gòu)
3.2.2 交通場景生成
3.2.3 交通車輛生成
3.2.4 環(huán)境類
3.3 實現(xiàn)方式
3.4 本章小結(jié)
第4章 駕駛策略學習的整體結(jié)構(gòu)
4.1 駕駛模型
4.2 環(huán)境狀態(tài)定義
4.3 駕駛動作定義
4.4 環(huán)境Reward定義
4.5 神經(jīng)網(wǎng)絡結(jié)構(gòu)
4.6 訓練策略與訓練細節(jié)
4.6.1 訓練算法
4.6.2 單Agent與多Agent
4.6.3 場景重置
4.6.4 動作控制
4.6.5 訓練優(yōu)化
4.7 本章小結(jié)
第5章 實驗結(jié)果與分析
5.1 實驗目標
5.2 場景準備
5.2.1 對手車輛定義
5.2.2 場景設(shè)計
5.3 獎勵函數(shù)與量化指標
5.4 訓練準備
5.5 實驗設(shè)計
5.6 實驗結(jié)果與分析
5.6.1 不同的輸入空間和網(wǎng)絡模型
5.6.2 算法的有效性
5.6.3 算法改進策略
5.7 與傳統(tǒng)駕駛策略的對比
5.8 實驗結(jié)論
5.9 本章小結(jié)
第6章 總結(jié)展望
6.1 工作總結(jié)
6.2 對無人駕駛的建議
6.3 工作展望
參考文獻
附錄A
致謝
本文編號:3182387
【文章來源】:浙江大學浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:85 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題背景
1.2 國內(nèi)外的研究現(xiàn)狀
1.2.1 傳統(tǒng)駕駛模型
1.2.2 深度強化學習
1.2.3 無人駕駛與深度學習的結(jié)合
1.3 研究目的
1.4 論文工作
1.5 文章結(jié)構(gòu)
1.6 本章小結(jié)
第2章 理論基礎(chǔ)
2.1 神經(jīng)網(wǎng)絡
2.1.1 卷積神經(jīng)網(wǎng)絡
2.1.2 遞歸神經(jīng)網(wǎng)絡
2.2 深度強化學習
2.2.1 強化學習
2.2.2 基于Q學習的深度強化學習
2.2.3 基于策略梯度的深度強化學習
2.2.4 異步的優(yōu)勢觀察者-行為者算法
2.2.5 深度強化學習中的策略優(yōu)化算法
2.3 相關(guān)開源項目
2.3.1 SUMO
2.3.2 Ray
2.4 本章小結(jié)
第3章 基于交通仿真系統(tǒng)的強化學習環(huán)境
3.1 設(shè)計目標
3.2 設(shè)計方案
3.2.1 整體結(jié)構(gòu)
3.2.2 交通場景生成
3.2.3 交通車輛生成
3.2.4 環(huán)境類
3.3 實現(xiàn)方式
3.4 本章小結(jié)
第4章 駕駛策略學習的整體結(jié)構(gòu)
4.1 駕駛模型
4.2 環(huán)境狀態(tài)定義
4.3 駕駛動作定義
4.4 環(huán)境Reward定義
4.5 神經(jīng)網(wǎng)絡結(jié)構(gòu)
4.6 訓練策略與訓練細節(jié)
4.6.1 訓練算法
4.6.2 單Agent與多Agent
4.6.3 場景重置
4.6.4 動作控制
4.6.5 訓練優(yōu)化
4.7 本章小結(jié)
第5章 實驗結(jié)果與分析
5.1 實驗目標
5.2 場景準備
5.2.1 對手車輛定義
5.2.2 場景設(shè)計
5.3 獎勵函數(shù)與量化指標
5.4 訓練準備
5.5 實驗設(shè)計
5.6 實驗結(jié)果與分析
5.6.1 不同的輸入空間和網(wǎng)絡模型
5.6.2 算法的有效性
5.6.3 算法改進策略
5.7 與傳統(tǒng)駕駛策略的對比
5.8 實驗結(jié)論
5.9 本章小結(jié)
第6章 總結(jié)展望
6.1 工作總結(jié)
6.2 對無人駕駛的建議
6.3 工作展望
參考文獻
附錄A
致謝
本文編號:3182387
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3182387.html
最近更新
教材專著