基于深度強(qiáng)化學(xué)習(xí)的多智能體城市道路交叉口交通流優(yōu)化控制研究

發(fā)布時(shí)間：2020-04-24 14:24

【摘要】：傳統(tǒng)的交通信號控制系統(tǒng)主要是通過固定安裝在路口附近的回路探測器以及交通攝像頭等來獲取實(shí)時(shí)的路口車輛信息,未能與智能交通系統(tǒng)(Intelligent Transport System,ITS)中的車輛子系統(tǒng)實(shí)現(xiàn)數(shù)據(jù)共享和事件互動(dòng),同時(shí)其自適應(yīng)控制策略缺乏自我調(diào)節(jié)的功能。隨著人工智能與自動(dòng)駕駛技術(shù)等技術(shù)的發(fā)展,車路協(xié)同控制系統(tǒng)結(jié)合人工智能技術(shù)可為ITS提供一種更經(jīng)濟(jì)、更有效、自學(xué)習(xí)、自尋優(yōu)的交通控制方案。為此,以自動(dòng)駕駛車輛和信號燈控制器構(gòu)成的閉環(huán)控制系統(tǒng)為研究對象,通過深度強(qiáng)化學(xué)習(xí)方法實(shí)現(xiàn)車流的動(dòng)態(tài)調(diào)度,進(jìn)而提升路網(wǎng)通行效率,本文主要開展了如下工作:1、采用馬爾可夫決策過程(Markov Decision Process,MDP)建立了基于多智能體強(qiáng)化學(xué)習(xí)的車路協(xié)同控制模型(vehicle-road cooperative control model,VRCCM),設(shè)計(jì)了交通信號燈控制器(TLcontroller)和自動(dòng)駕駛車輛控制器(AVcontroller)的交通狀態(tài)空間、動(dòng)作空間以及獎(jiǎng)勵(lì)函數(shù),進(jìn)而引入深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)算法對VRCCM進(jìn)行訓(xùn)練和優(yōu)化。2、針對DRL算法中傳統(tǒng)遞歸神經(jīng)網(wǎng)絡(luò)不能對交通流序列中的長時(shí)依賴信息建模,以及樣本相關(guān)性過大容易導(dǎo)致訓(xùn)練的策略難以最優(yōu)等問題,提出了一種優(yōu)化的基于長短時(shí)記憶(Long Short-Term Memory,LSTM)深度網(wǎng)絡(luò)的分布式PPO算法。同時(shí)在模型訓(xùn)練過程中,設(shè)計(jì)多進(jìn)程同步采樣方法,實(shí)現(xiàn)了智能體與不同環(huán)境互動(dòng)歷史信息的經(jīng)驗(yàn)池存儲(chǔ),優(yōu)化了模型的訓(xùn)練效率;在計(jì)算策略梯度時(shí),引入minibatch方法提升了模型的訓(xùn)練速度,并避免算法陷入局部最優(yōu)。3、搭建交通仿真平臺(tái)SUMO(Simulation of Urban Mobility),設(shè)計(jì)了井字型路口區(qū)域的交通流控制模擬系統(tǒng),通過在不同路網(wǎng)飽和度狀態(tài)下改變自動(dòng)駕駛車輛的比例來計(jì)算路網(wǎng)區(qū)域的平均速率,在Gym環(huán)境下對分布式PPO算法進(jìn)行了系統(tǒng)訓(xùn)練及優(yōu)化。仿真實(shí)驗(yàn)結(jié)果表明,隨著路網(wǎng)飽和度的增加,區(qū)域的平均速率增長率雖然下降,但明顯高于僅由信號燈控制下的平均速率;同樣在路網(wǎng)高飽和度狀態(tài)下,本文方法對比信號燈控制,區(qū)域通車量平均提高23.6%、平均速率提高了30.7%,表明本文方法對提升路網(wǎng)通行效率具有一定的參考價(jià)值和意義。
【圖文】：

基本原理,狀態(tài)轉(zhuǎn)移概率,元組,建模

強(qiáng)化學(xué)習(xí)基本原理

狀態(tài)集,當(dāng)前狀態(tài),初始狀態(tài),紅色

圖 2-3 MDP 示例圖狀態(tài)，狀態(tài)集表示為S { ，，，，， }，動(dòng)作 }，紅色標(biāo)注當(dāng)前狀態(tài)轉(zhuǎn)移到下一個(gè)狀態(tài)的立即回報(bào)。的某一回合中，當(dāng)給定初始狀態(tài)和策略時(shí)，我們定義
【學(xué)位授予單位】：福建工程學(xué)院
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2019
【分類號】：U491.54

【參考文獻(xiàn)】

相關(guān)期刊論文前10條

1 陸化普;孫智源;屈聞聰;;大數(shù)據(jù)及其在城市智能交通系統(tǒng)中的應(yīng)用綜述[J];交通運(yùn)輸系統(tǒng)工程與信息;2015年05期

2 閆飛;田福禮;史忠科;;城市區(qū)域交通信號迭代學(xué)習(xí)控制策略[J];控制與決策;2015年08期

3 張鄰;吳偉明;黃選偉;;基于動(dòng)態(tài)信號配時(shí)的非線性規(guī)劃模型[J];公路交通科技;2014年08期

4 龍瓊;胡列格;張謹(jǐn)帆;周昭明;彭爍;;考慮交通管理策略的交叉口信號控制多目標(biāo)優(yōu)化[J];中南大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年07期

5 朱銘琳;陳陽舟;;基于博弈的交叉口交通信號配時(shí)系統(tǒng)設(shè)計(jì)[J];計(jì)算機(jī)仿真;2013年07期

6 首艷芳;徐建閩;;基于群體動(dòng)力學(xué)的協(xié)調(diào)控制子區(qū)劃分[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年04期

7 聶建強(qiáng);徐大林;;基于模糊Q學(xué)習(xí)的分布式自適應(yīng)交通信號控制[J];計(jì)算機(jī)技術(shù)與發(fā)展;2013年03期

8 李建明;余春艷;;演化博弈下單點(diǎn)信號燈配時(shí)優(yōu)化研究[J];交通運(yùn)輸系統(tǒng)工程與信息;2012年04期

9 趙曉華;李振龍;于泉;榮建;;基于Q學(xué)習(xí)算法的兩交叉口信號燈博弈協(xié)調(diào)控制[J];系統(tǒng)仿真學(xué)報(bào);2007年18期

10 杜榮華;吳泉源;;城市區(qū)域交通協(xié)調(diào)控制中的多Agent博弈研究[J];計(jì)算機(jī)工程與科學(xué);2007年04期

相關(guān)碩士學(xué)位論文前5條

1 倫立寶;基于強(qiáng)化學(xué)習(xí)的城市交通信號控制方法研究[D];西安電子科技大學(xué);2013年

2 韋欽平;基于Q學(xué)習(xí)的多路口交通信號協(xié)調(diào)控制研究[D];長沙理工大學(xué);2012年

3 王愷;實(shí)時(shí)反饋?zhàn)赃m應(yīng)信號控制系統(tǒng)研究[D];大連理工大學(xué);2011年

4 高麗穎;基于Agent的城市交通信號控制方法研究[D];北京工業(yè)大學(xué);2008年

5 王偉平;城市平面交叉口交通信號控制優(yōu)化方法的研究[D];山東科技大學(xué);2004年

本文編號：2639057

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/daoluqiaoliang/2639057.html

上一篇：甘肅省典型地區(qū)瀝青路面高溫溫度場與車轍預(yù)估研究
下一篇：復(fù)合相變材料對瀝青混凝土控溫及路用性能研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度強(qiáng)化學(xué)習(xí)的多智能體城市道路交叉口交通流優(yōu)化控制研究