基于強化學(xué)習(xí)的列車自動駕駛方法研究
發(fā)布時間:2021-05-27 11:14
近年來,軌道交通在我國綜合交通運輸體系中發(fā)揮著日益重要的骨干作用。伴隨著列車運行速度、密度的不斷提高以及運行場景、環(huán)境的日益多樣與復(fù)雜,人工駕駛列車已經(jīng)很難滿足列車運行控制系統(tǒng)自動化、智能化水平提升需求,發(fā)展列車自動駕駛(Automatic Train Operation,ATO)是大勢所趨。當(dāng)前多數(shù)針對ATO控制方法的研究聚焦于給定模型的參數(shù)進(jìn)行策略優(yōu)化,缺乏面對復(fù)雜運行環(huán)境和多樣運營需求的魯棒性、適應(yīng)性以及自學(xué)習(xí)性,難以適應(yīng)ATO智能化、智慧化發(fā)展需求。另一方面,強化學(xué)習(xí)(Reinforcement Learning,RL)和深度強化學(xué)習(xí)(Deep Reinforcement Learning,DRL)等人工智能新理論和新方法近些年得到飛速發(fā)展,不僅在圖像識別、語義識別、游戲競技等方面卓有成就,也逐漸向自動控制領(lǐng)域滲透,例如仿生機器人、無人汽車等,賦予了行業(yè)新的發(fā)展動能。因此,本文基于對軌道交通列車自動駕駛技術(shù)特征和強化學(xué)習(xí)等人工智能方法的深入認(rèn)知與分析,結(jié)合軌道交通“安全、準(zhǔn)點、綠色、舒適”四方面的關(guān)鍵需求,針對基于強化學(xué)習(xí)的列車自動駕駛新方法展開探索與研究,論文的主要創(chuàng)新工作和...
【文章來源】:中國鐵道科學(xué)研究院北京市
【文章頁數(shù)】:143 頁
【學(xué)位級別】:博士
【文章目錄】:
致謝
摘要
ABSTRACT
1 緒論
1.1 課題研究背景及意義
1.1.1 依托課題
1.1.2 研究背景
1.1.3 研究意義
1.2 國內(nèi)外研究綜述
1.2.1 列車自動駕駛基礎(chǔ)理論與方法研究
1.2.2 人工智能新技術(shù)在控制領(lǐng)域應(yīng)用研究
1.3 論文研究思路和技術(shù)路線
1.3.1 論文研究思路
1.3.2 論文技術(shù)路線
1.4 論文結(jié)構(gòu)安排
1.5 本章小結(jié)
2 論文基礎(chǔ)理論與方法
2.1 列車運行控制與自動駕駛
2.1.1 列車自動防護(hù)(ATP)
2.1.2 列車自動駕駛(ATO)
2.2 強化學(xué)習(xí)、深度學(xué)習(xí)與深度強化學(xué)習(xí)
2.2.1 概述
2.2.2 Q學(xué)習(xí)(Q-learning)強化學(xué)習(xí)
2.2.3 策略梯度(Policy Gradient)強化學(xué)習(xí)
2.2.4 深度學(xué)習(xí)與深度強化學(xué)習(xí)
2.3 基于強化學(xué)習(xí)的列車駕駛控制模型
2.3.1 列車節(jié)能駕駛控制模型
2.3.2 列車駕駛馬爾可夫決策模型
2.3.3 列車駕駛強化學(xué)習(xí)模型
2.4 本章小結(jié)
3 基于策略梯度強化學(xué)習(xí)的ATO優(yōu)化方法
3.1 問題描述
3.1.1 列車節(jié)能運行工況分析
3.1.2 站間節(jié)能控制序列:“減a減b”
3.1.3 性能評價指標(biāo)
3.2 求解方法
3.2.1 專家系統(tǒng)
3.2.2 基于策略的強化學(xué)習(xí)方法
3.3 算例實驗與分析
3.3.1 仿真環(huán)境
3.3.2 仿真實驗1
3.3.3 仿真實驗2
3.3.4 仿真實驗3
3.4 本章小結(jié)
4 基于Q學(xué)習(xí)的列車節(jié)能優(yōu)化策略
4.1 基于值函數(shù)的Q學(xué)習(xí)方法
4.1.1 定義狀態(tài)空間
4.1.2 狀態(tài)轉(zhuǎn)移規(guī)則
4.1.3 狀態(tài)-動作值函數(shù)
4.1.4 值函數(shù)更新
4.2 算例實驗與分析
4.2.1 仿真環(huán)境
4.2.2 仿真實驗1
4.2.3 仿真實驗2
4.3 本章小結(jié)
5 基于深度Q學(xué)習(xí)的列車駕駛智能控制方法
5.1 問題描述
5.2 列車駕駛智能控制算法架構(gòu)
5.3 列車駕駛智能控制算法
5.3.1 “最短剩余行程時間”算法
5.3.2 狀態(tài)空間定義
5.3.3 訓(xùn)練數(shù)據(jù)生成算法
5.3.4 獎勵函數(shù)設(shè)計
5.3.5 神經(jīng)網(wǎng)絡(luò)設(shè)計和訓(xùn)練
5.4 算例實驗與分析
5.4.1 仿真環(huán)境
5.4.2 仿真實驗1
5.4.3 仿真實驗2
5.4.4 仿真實驗3
5.5 本章小結(jié)
6 總結(jié)與展望
6.1 主要研究工作
6.2 主要創(chuàng)新點
6.3 研究展望
參考文獻(xiàn)
作者簡歷及攻讀博士學(xué)位期間取得的科研成果
學(xué)位論文數(shù)據(jù)集
【參考文獻(xiàn)】:
期刊論文
[1]2019年中國內(nèi)地城軌交通線路概況[J]. 現(xiàn)代城市軌道交通. 2020(01)
[2]中國城市軌道交通全自動運行系統(tǒng)技術(shù)及應(yīng)用[J]. 寧濱,郜春海,李開成,張強. 北京交通大學(xué)學(xué)報. 2019(01)
[3]基于自適應(yīng)模糊滑模的列車精確停車制動控制算法[J]. 何之煜,楊志杰,呂旌陽. 中國鐵道科學(xué). 2019(02)
[4]改進(jìn)DDPG算法在自動駕駛中的應(yīng)用[J]. 張斌,何明,陳希亮,吳春曉,劉斌,周波. 計算機工程與應(yīng)用. 2019(10)
[5]基于強化學(xué)習(xí)的無人駕駛匝道匯入模型[J]. 喬良,鮑泓,玄祖興,梁軍,潘峰. 計算機工程. 2018(07)
[6]基于深度強化學(xué)習(xí)的自動駕駛策略學(xué)習(xí)方法[J]. 夏偉,李慧云. 集成技術(shù). 2017(03)
[7]基于模糊自適應(yīng)PID控制的ATO系統(tǒng)控制算法[J]. 劉浩,錢存元,施招東. 城市軌道交通研究. 2017(03)
[8]人工智能走向2.0[J]. 潘云鶴. Engineering. 2016(04)
[9]深度學(xué)習(xí)在控制領(lǐng)域的研究現(xiàn)狀與展望[J]. 段艷杰,呂宜生,張杰,趙學(xué)亮,王飛躍. 自動化學(xué)報. 2016(05)
[10]列車準(zhǔn)點節(jié)能運行的控制工況最優(yōu)切換研究[J]. 王青元,馮曉云. 中國鐵道科學(xué). 2016(02)
博士論文
[1]迭代學(xué)習(xí)辨識與控制及在高速列車運行控制系統(tǒng)中的應(yīng)用[D]. 余瓊霞.北京交通大學(xué) 2017
[2]城軌列車運行圖和速度曲線一體化節(jié)能方法[D]. 宿帥.北京交通大學(xué) 2016
[3]高速列車迭代學(xué)習(xí)運行控制幾類問題研究[D]. 李振軒.北京交通大學(xué) 2016
[4]列車節(jié)能操縱理論模型與參數(shù)標(biāo)定方法研究[D]. 周方明.北京交通大學(xué) 2010
[5]內(nèi)燃牽引貨物列車節(jié)能操縱模型與實時優(yōu)化算法[D]. 柏赟.北京交通大學(xué) 2010
[6]基于迭代學(xué)習(xí)控制的幾類列車自動控制問題研究[D]. 王軼.北京交通大學(xué) 2010
碩士論文
[1]基于ATO控制策略的單車節(jié)能優(yōu)化模型及算法研究[D]. 柳淑琦.北京交通大學(xué) 2016
[2]基于自適應(yīng)滑模的列車運行速度跟蹤研究及半實物仿真[D]. 侯曉偉.北京交通大學(xué) 2016
[3]城軌列車精確停車算法研究[D]. 吳鵬.西南交通大學(xué) 2015
[4]預(yù)測控制在列車自動駕駛系統(tǒng)中的應(yīng)用研究[D]. 羅巖.上海交通大學(xué) 2015
[5]基于GPC-速度分級PID串級控制的ATO速度控制器設(shè)計與仿真[D]. 馬文.西南交通大學(xué) 2014
[6]基于專家經(jīng)驗和機器學(xué)習(xí)的列車智能駕駛算法研究[D]. 冷勇林.北京交通大學(xué) 2013
[7]基于模糊自適應(yīng)PID控制的列車自動駕駛系統(tǒng)的研究[D]. 李子鈞.北京交通大學(xué) 2010
[8]基于模糊PID軟切換的列車自動駕駛系統(tǒng)控制算法及仿真研究[D]. 高冰.北京交通大學(xué) 2009
本文編號:3207463
【文章來源】:中國鐵道科學(xué)研究院北京市
【文章頁數(shù)】:143 頁
【學(xué)位級別】:博士
【文章目錄】:
致謝
摘要
ABSTRACT
1 緒論
1.1 課題研究背景及意義
1.1.1 依托課題
1.1.2 研究背景
1.1.3 研究意義
1.2 國內(nèi)外研究綜述
1.2.1 列車自動駕駛基礎(chǔ)理論與方法研究
1.2.2 人工智能新技術(shù)在控制領(lǐng)域應(yīng)用研究
1.3 論文研究思路和技術(shù)路線
1.3.1 論文研究思路
1.3.2 論文技術(shù)路線
1.4 論文結(jié)構(gòu)安排
1.5 本章小結(jié)
2 論文基礎(chǔ)理論與方法
2.1 列車運行控制與自動駕駛
2.1.1 列車自動防護(hù)(ATP)
2.1.2 列車自動駕駛(ATO)
2.2 強化學(xué)習(xí)、深度學(xué)習(xí)與深度強化學(xué)習(xí)
2.2.1 概述
2.2.2 Q學(xué)習(xí)(Q-learning)強化學(xué)習(xí)
2.2.3 策略梯度(Policy Gradient)強化學(xué)習(xí)
2.2.4 深度學(xué)習(xí)與深度強化學(xué)習(xí)
2.3 基于強化學(xué)習(xí)的列車駕駛控制模型
2.3.1 列車節(jié)能駕駛控制模型
2.3.2 列車駕駛馬爾可夫決策模型
2.3.3 列車駕駛強化學(xué)習(xí)模型
2.4 本章小結(jié)
3 基于策略梯度強化學(xué)習(xí)的ATO優(yōu)化方法
3.1 問題描述
3.1.1 列車節(jié)能運行工況分析
3.1.2 站間節(jié)能控制序列:“減a減b”
3.1.3 性能評價指標(biāo)
3.2 求解方法
3.2.1 專家系統(tǒng)
3.2.2 基于策略的強化學(xué)習(xí)方法
3.3 算例實驗與分析
3.3.1 仿真環(huán)境
3.3.2 仿真實驗1
3.3.3 仿真實驗2
3.3.4 仿真實驗3
3.4 本章小結(jié)
4 基于Q學(xué)習(xí)的列車節(jié)能優(yōu)化策略
4.1 基于值函數(shù)的Q學(xué)習(xí)方法
4.1.1 定義狀態(tài)空間
4.1.2 狀態(tài)轉(zhuǎn)移規(guī)則
4.1.3 狀態(tài)-動作值函數(shù)
4.1.4 值函數(shù)更新
4.2 算例實驗與分析
4.2.1 仿真環(huán)境
4.2.2 仿真實驗1
4.2.3 仿真實驗2
4.3 本章小結(jié)
5 基于深度Q學(xué)習(xí)的列車駕駛智能控制方法
5.1 問題描述
5.2 列車駕駛智能控制算法架構(gòu)
5.3 列車駕駛智能控制算法
5.3.1 “最短剩余行程時間”算法
5.3.2 狀態(tài)空間定義
5.3.3 訓(xùn)練數(shù)據(jù)生成算法
5.3.4 獎勵函數(shù)設(shè)計
5.3.5 神經(jīng)網(wǎng)絡(luò)設(shè)計和訓(xùn)練
5.4 算例實驗與分析
5.4.1 仿真環(huán)境
5.4.2 仿真實驗1
5.4.3 仿真實驗2
5.4.4 仿真實驗3
5.5 本章小結(jié)
6 總結(jié)與展望
6.1 主要研究工作
6.2 主要創(chuàng)新點
6.3 研究展望
參考文獻(xiàn)
作者簡歷及攻讀博士學(xué)位期間取得的科研成果
學(xué)位論文數(shù)據(jù)集
【參考文獻(xiàn)】:
期刊論文
[1]2019年中國內(nèi)地城軌交通線路概況[J]. 現(xiàn)代城市軌道交通. 2020(01)
[2]中國城市軌道交通全自動運行系統(tǒng)技術(shù)及應(yīng)用[J]. 寧濱,郜春海,李開成,張強. 北京交通大學(xué)學(xué)報. 2019(01)
[3]基于自適應(yīng)模糊滑模的列車精確停車制動控制算法[J]. 何之煜,楊志杰,呂旌陽. 中國鐵道科學(xué). 2019(02)
[4]改進(jìn)DDPG算法在自動駕駛中的應(yīng)用[J]. 張斌,何明,陳希亮,吳春曉,劉斌,周波. 計算機工程與應(yīng)用. 2019(10)
[5]基于強化學(xué)習(xí)的無人駕駛匝道匯入模型[J]. 喬良,鮑泓,玄祖興,梁軍,潘峰. 計算機工程. 2018(07)
[6]基于深度強化學(xué)習(xí)的自動駕駛策略學(xué)習(xí)方法[J]. 夏偉,李慧云. 集成技術(shù). 2017(03)
[7]基于模糊自適應(yīng)PID控制的ATO系統(tǒng)控制算法[J]. 劉浩,錢存元,施招東. 城市軌道交通研究. 2017(03)
[8]人工智能走向2.0[J]. 潘云鶴. Engineering. 2016(04)
[9]深度學(xué)習(xí)在控制領(lǐng)域的研究現(xiàn)狀與展望[J]. 段艷杰,呂宜生,張杰,趙學(xué)亮,王飛躍. 自動化學(xué)報. 2016(05)
[10]列車準(zhǔn)點節(jié)能運行的控制工況最優(yōu)切換研究[J]. 王青元,馮曉云. 中國鐵道科學(xué). 2016(02)
博士論文
[1]迭代學(xué)習(xí)辨識與控制及在高速列車運行控制系統(tǒng)中的應(yīng)用[D]. 余瓊霞.北京交通大學(xué) 2017
[2]城軌列車運行圖和速度曲線一體化節(jié)能方法[D]. 宿帥.北京交通大學(xué) 2016
[3]高速列車迭代學(xué)習(xí)運行控制幾類問題研究[D]. 李振軒.北京交通大學(xué) 2016
[4]列車節(jié)能操縱理論模型與參數(shù)標(biāo)定方法研究[D]. 周方明.北京交通大學(xué) 2010
[5]內(nèi)燃牽引貨物列車節(jié)能操縱模型與實時優(yōu)化算法[D]. 柏赟.北京交通大學(xué) 2010
[6]基于迭代學(xué)習(xí)控制的幾類列車自動控制問題研究[D]. 王軼.北京交通大學(xué) 2010
碩士論文
[1]基于ATO控制策略的單車節(jié)能優(yōu)化模型及算法研究[D]. 柳淑琦.北京交通大學(xué) 2016
[2]基于自適應(yīng)滑模的列車運行速度跟蹤研究及半實物仿真[D]. 侯曉偉.北京交通大學(xué) 2016
[3]城軌列車精確停車算法研究[D]. 吳鵬.西南交通大學(xué) 2015
[4]預(yù)測控制在列車自動駕駛系統(tǒng)中的應(yīng)用研究[D]. 羅巖.上海交通大學(xué) 2015
[5]基于GPC-速度分級PID串級控制的ATO速度控制器設(shè)計與仿真[D]. 馬文.西南交通大學(xué) 2014
[6]基于專家經(jīng)驗和機器學(xué)習(xí)的列車智能駕駛算法研究[D]. 冷勇林.北京交通大學(xué) 2013
[7]基于模糊自適應(yīng)PID控制的列車自動駕駛系統(tǒng)的研究[D]. 李子鈞.北京交通大學(xué) 2010
[8]基于模糊PID軟切換的列車自動駕駛系統(tǒng)控制算法及仿真研究[D]. 高冰.北京交通大學(xué) 2009
本文編號:3207463
本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3207463.html
最近更新
教材專著