基于深度強(qiáng)化學(xué)習(xí)的信號燈自適應(yīng)決策

發(fā)布時間：2020-10-23 00:05

　　城市交通貫穿于城市公共空間的各個區(qū)域,經(jīng)過長期發(fā)展,已經(jīng)形成較為完善的格局,提高了居民的出行效率。但隨著經(jīng)濟(jì)的發(fā)展和城市化進(jìn)程的加快,城市人口及人均汽車保有量快速增長,交通擁堵問題日趨嚴(yán)重,交通不暢、運(yùn)輸效率低下、環(huán)境污染等問題日益嚴(yán)峻,嚴(yán)重影響了城市的可持續(xù)發(fā)展。交通信號燈的自適應(yīng)控制能夠有效地緩解交通擁堵問題,但以往的交通信號燈控制方法通常根據(jù)車輛排隊長度、交通流量、車道占有比等傳統(tǒng)的交通參數(shù)對信號燈配時方案進(jìn)行優(yōu)化,沒有充分利用交叉口的狀態(tài)信息;或僅考慮單個交叉口信號燈的優(yōu)化,沒有與其它交叉口信號燈協(xié)同以達(dá)到區(qū)域路網(wǎng)上的最優(yōu)控制。為了解決上述問題,本文對基于深度強(qiáng)化學(xué)習(xí)的信號燈自適應(yīng)決策進(jìn)行了研究,所做的主要工作如下:(1)本文提出一種帶有Q值遷移的協(xié)同深度Q學(xué)習(xí)算法。將多交叉口信號燈的控制建模為多Agent系統(tǒng),每個Agent通過一個深度Q網(wǎng)絡(luò)來尋找交叉口的最優(yōu)策略,為充分利用交叉口的狀態(tài)信息,將進(jìn)入交叉口車輛的位置和速度信息的離散編碼作為網(wǎng)絡(luò)的輸入;為協(xié)同多個交叉口的信號燈,各Agent的網(wǎng)絡(luò)在訓(xùn)練的過程中考慮相鄰交叉口最近的動作的影響,將相鄰Agent最近時刻的最優(yōu)Q值遷移到當(dāng)前交叉口網(wǎng)絡(luò)的損失函數(shù)中。該方法不僅可以對區(qū)域道路網(wǎng)絡(luò)的信號燈進(jìn)行協(xié)同控制,還可以擴(kuò)展到更多交叉口而不會造成維度災(zāi)難,且可以對異構(gòu)的多交叉口進(jìn)行協(xié)同控制。通過在不同路網(wǎng)結(jié)構(gòu)上進(jìn)行多種車密度實驗,驗證了所提算法的有效性、適應(yīng)性和可擴(kuò)展性。(2)本文提出一種基于多任務(wù)深度Q網(wǎng)絡(luò)的Q值遷移協(xié)同控制方法。區(qū)域路網(wǎng)上各交叉口的車流情況通常不同,因此可將路網(wǎng)上的各交叉口的控制視為不同的任務(wù),每個交叉口的控制對應(yīng)一個任務(wù),多個任務(wù)之間存在相似性,通過共享相似任務(wù)的表征可以使模型擁有更好的特征提取能力、決策能力和泛化能力。首先為每個交叉口訓(xùn)練一個專家DQN網(wǎng)絡(luò);然后在多個專家網(wǎng)絡(luò)的指導(dǎo)下訓(xùn)練一個多任務(wù)DQN網(wǎng)絡(luò),使得多任務(wù)網(wǎng)絡(luò)能夠同時學(xué)習(xí)如何在多個任務(wù)中工作,然后在沒有專家指導(dǎo)的情況下把學(xué)到的知識推廣到新的任務(wù)(不同交通流密度的交叉口);最后采用遷移學(xué)習(xí)技術(shù),將多任務(wù)網(wǎng)絡(luò)遷移到每個交叉口上,再采用基于Q值遷移的協(xié)同算法來協(xié)同控制多交叉口的信號燈。實驗結(jié)果證明了本方法的有效性。并對有多任務(wù)學(xué)習(xí)和無多任務(wù)學(xué)習(xí)進(jìn)行比較,證明多任務(wù)學(xué)習(xí)在本文方法中確實對性能有很大提升。
【學(xué)位單位】：大連理工大學(xué)
【學(xué)位級別】：碩士
【學(xué)位年份】：2019
【中圖分類】：U491.54;TP18
【文章目錄】：
摘要
Abstract
1 緒論
    1.1 課題研究背景和意義
    1.2 信號燈自適應(yīng)控制方法回顧
    1.3 本論文的研究目標(biāo)及內(nèi)容安排
2 相關(guān)背景知識
    2.1 深度學(xué)習(xí)
        2.1.1 神經(jīng)網(wǎng)絡(luò)
        2.1.2 批歸一化
        2.1.3 卷積神經(jīng)網(wǎng)絡(luò)
    2.2 強(qiáng)化學(xué)習(xí)
        2.2.1 馬爾可夫決策過程與強(qiáng)化學(xué)習(xí)
        2.2.2 Q學(xué)習(xí)和Sarsa
        2.2.3 探索策略
        2.2.4 值函數(shù)近似
    2.3 深度強(qiáng)化學(xué)習(xí)
    2.4 本章小結(jié)
3 基于Q值遷移深度強(qiáng)化學(xué)習(xí)的信號燈協(xié)同控制
    3.1 多Agent系統(tǒng)中的強(qiáng)化學(xué)習(xí)
    3.2 多交叉口信號燈控制建模
        3.2.1 多交叉口結(jié)構(gòu)描述
        3.2.2 基于多Agent的深度強(qiáng)化學(xué)習(xí)建模
    3.3 基于Q值遷移的協(xié)同DQN控制方法
    3.4 仿真實驗與結(jié)果分析
        3.4.1 實驗環(huán)境
        3.4.2 參數(shù)設(shè)置及評價指標(biāo)
        3.4.3 實驗結(jié)果和分析
    3.5 本章小結(jié)
4 基于多任務(wù)深度Q網(wǎng)絡(luò)的Q值遷移協(xié)同控制
    4.1 基于多任務(wù)深度強(qiáng)化學(xué)習(xí)的多交叉口信號燈控制
    4.2 仿真實驗與結(jié)果分析
        4.2.1 實驗環(huán)境及參數(shù)設(shè)置
        4.2.2 實驗結(jié)果和分析
    4.3 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況
致謝

【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 葛鵬;;無信號燈路口發(fā)生事故如何判定責(zé)任[J];汽車與安全;2017年02期

2 邢靜;秦嘉寶;;智能交通信號燈控制系統(tǒng)研究[J];信息技術(shù)與信息化;2019年06期

3 武亞雄;;基于PLC的信號燈控制系統(tǒng)[J];信息通信;2014年12期

4 張娟萍;;PLC技術(shù)在交通信號燈控制方面的應(yīng)用[J];電腦開發(fā)與應(yīng)用;2014年05期

5 沈昊;;無信號燈控制平交口綠化設(shè)計與安全性研究[J];智能城市;2016年04期

6 侯鵬飛;陳虹霖;羅毅;商春雪;唐明靖;時燕;;基于車流量的智能信號燈的控制算法研究[J];物聯(lián)網(wǎng)技術(shù);2019年08期

7 楊聚寶;白帆;張瑜;;智能信號燈控制系統(tǒng)設(shè)計[J];河南師范大學(xué)學(xué)報(自然科學(xué)版);2007年01期

8 侯寶生;;交通信號燈控制綜合設(shè)計性實驗的研究與實踐[J];中國教育技術(shù)裝備;2011年18期

9 高戰(zhàn);田鵬;喬云嬌;;基于ARM的航行信號燈控制系統(tǒng)設(shè)計[J];日用電器;2018年04期

10 李旻朔;姚明海;;用于交通信號燈控制的特征表示近似Q學(xué)習(xí)[J];計算機(jī)科學(xué);2018年S2期

相關(guān)博士學(xué)位論文前1條

1 李銀飛;城市道路通暢性問題研究[D];浙江大學(xué);2006年

相關(guān)碩士學(xué)位論文前10條

1 胡猛;基于Q-Learning算法的智能信號燈系統(tǒng)[D];大連理工大學(xué);2019年

2 相迎宵;I-SIG系統(tǒng)中雙向投毒攻擊分析及防護(hù)[D];北京交通大學(xué);2019年

3 宋玉美;基于深度強(qiáng)化學(xué)習(xí)的信號燈自適應(yīng)決策[D];大連理工大學(xué);2019年

4 李振勤;V2X在無人駕駛智能車信號燈檢測中的應(yīng)用研究[D];安徽工業(yè)大學(xué);2019年

5 韓京慧;基于自耦型電感和分段控制模式的特種信號燈研制[D];延邊大學(xué);2018年

6 張孟東;基于北斗導(dǎo)航的車載監(jiān)視信號燈系統(tǒng)的設(shè)計與實現(xiàn)[D];北方民族大學(xué);2018年

7 吳艷蘭;考慮車輛與行人的單交叉口信號燈配時優(yōu)化研究[D];長沙理工大學(xué);2018年

8 張博;車輛速度與信號燈協(xié)同控制研究[D];大連理工大學(xué);2017年

9 劉連芳;基于RFID和ZigBee技術(shù)的智能信號燈控制系統(tǒng)[D];長春工業(yè)大學(xué);2011年

10 邢玉梅;基于Agent智能交通信號燈控制的研究[D];吉林大學(xué);2008年

本文編號：2852264

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/daoluqiaoliang/2852264.html

上一篇：爆破動載下錨固支護(hù)結(jié)構(gòu)動態(tài)力學(xué)響應(yīng)研究
下一篇：高等級公路采動變形機(jī)理與損害評價指標(biāo)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度強(qiáng)化學(xué)習(xí)的信號燈自適應(yīng)決策