基于多智能體強(qiáng)化學(xué)習(xí)的城市自適應(yīng)交通信號(hào)控制方法研究
發(fā)布時(shí)間:2024-01-27 10:53
城市社會(huì)經(jīng)濟(jì)發(fā)展到一定程度時(shí),城市道路往往會(huì)出現(xiàn)不同程度的擁堵現(xiàn)象,為了克服現(xiàn)有城市道路信號(hào)控制方法存在的各種局限性,本文提出基于馬爾可夫決策過(guò)程的最優(yōu)搜索型強(qiáng)化學(xué)習(xí)的城市道路自適應(yīng)信號(hào)控制方法,并搭建仿真平臺(tái)對(duì)所提出的自適應(yīng)信控方法的有效性進(jìn)行驗(yàn)證。本文針對(duì)智能體技術(shù)應(yīng)用于城市道路自適應(yīng)信號(hào)控制方法展開(kāi)相關(guān)研究,主要工作涉及以下幾個(gè)方面:首先,對(duì)現(xiàn)有信控方法的局限性進(jìn)行充分調(diào)查并提出基于強(qiáng)化學(xué)習(xí)的自適應(yīng)信控方法,考慮鄰域交叉口的交通壓力對(duì)Agent所處環(huán)境的狀態(tài)和動(dòng)作選擇策略進(jìn)行定義,以停車次數(shù)的變化值作為Agent狀態(tài)動(dòng)作對(duì)之間轉(zhuǎn)換獲得的獎(jiǎng)勵(lì)值;接著,結(jié)合VISSIM交通仿真軟件的仿真建模能力、VB系統(tǒng)的圖形用戶界面和快速應(yīng)用程序開(kāi)發(fā)能力以及MATLAB系統(tǒng)強(qiáng)大的矩陣運(yùn)算能力和繪圖能力,利用COM組件的生成和調(diào)用搭建基于VISSIM-VB-MATLAB的交互仿真平臺(tái),對(duì)本文提出的自適應(yīng)信號(hào)控制方法的有效性進(jìn)行仿真驗(yàn)證;另外,抽取部分迭代學(xué)習(xí)過(guò)程作為觀察對(duì)象,分別記錄學(xué)習(xí)過(guò)程中的各交叉口信控方案即各Agent選取的動(dòng)作,以及對(duì)各Agent的Q表進(jìn)行可視化處理;最后,以交叉口總停車次數(shù)...
【文章頁(yè)數(shù)】:86 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景
1.2 研究目的與意義
1.3 國(guó)內(nèi)外研究現(xiàn)狀
1.3.1 國(guó)外研究現(xiàn)狀
1.3.2 國(guó)內(nèi)研究現(xiàn)狀
1.4 主要研究?jī)?nèi)容
1.5 技術(shù)路線
1.6 本章小結(jié)
第二章 強(qiáng)化學(xué)習(xí)相關(guān)理論
2.1 有限馬爾可夫決策過(guò)程
2.1.1 智能體與環(huán)境
2.1.2 目標(biāo)和獎(jiǎng)勵(lì)
2.1.3 策略和值函數(shù)
2.1.4 最優(yōu)策略和最優(yōu)值函數(shù)
2.2 動(dòng)態(tài)規(guī)劃(Dynamic Programming,DP)
2.2.1 策略迭代
2.2.2 值迭代
2.3 時(shí)間差分算法
2.4 Q-learning和 Sarsa
2.5 本章小結(jié)
第三章 多智能體強(qiáng)化學(xué)習(xí)信號(hào)控制算法
3.1 環(huán)境狀態(tài)定義
3.2 Agent動(dòng)作定義
3.3 動(dòng)作選擇策略
3.4 獎(jiǎng)勵(lì)函數(shù)
3.5 本章小結(jié)
第四章 搭建仿真平臺(tái)
4.1 仿真運(yùn)行菜單設(shè)計(jì)
4.2 VB-MATLAB交互
4.3 VISSIM-VB-MATLAB集成仿真平臺(tái)
4.4 本章小結(jié)
第五章 自適應(yīng)信控方法有效性檢驗(yàn)
5.1 定周期信控仿真
5.1.1 時(shí)變交通流量輸入
5.1.2 評(píng)價(jià)數(shù)據(jù)
5.2 強(qiáng)化學(xué)習(xí)信控仿真
5.2.1 運(yùn)行參數(shù)設(shè)定
5.2.2 仿真平臺(tái)運(yùn)行邏輯圖
5.3 結(jié)果分析
5.3.1 訓(xùn)練結(jié)果
5.3.2 對(duì)比評(píng)價(jià)
5.4 本章小結(jié)
結(jié)論與展望
參考文獻(xiàn)
攻讀學(xué)位期間取得的研究成果
致謝
本文編號(hào):3886827
【文章頁(yè)數(shù)】:86 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景
1.2 研究目的與意義
1.3 國(guó)內(nèi)外研究現(xiàn)狀
1.3.1 國(guó)外研究現(xiàn)狀
1.3.2 國(guó)內(nèi)研究現(xiàn)狀
1.4 主要研究?jī)?nèi)容
1.5 技術(shù)路線
1.6 本章小結(jié)
第二章 強(qiáng)化學(xué)習(xí)相關(guān)理論
2.1 有限馬爾可夫決策過(guò)程
2.1.1 智能體與環(huán)境
2.1.2 目標(biāo)和獎(jiǎng)勵(lì)
2.1.3 策略和值函數(shù)
2.1.4 最優(yōu)策略和最優(yōu)值函數(shù)
2.2 動(dòng)態(tài)規(guī)劃(Dynamic Programming,DP)
2.2.1 策略迭代
2.2.2 值迭代
2.3 時(shí)間差分算法
2.4 Q-learning和 Sarsa
2.5 本章小結(jié)
第三章 多智能體強(qiáng)化學(xué)習(xí)信號(hào)控制算法
3.1 環(huán)境狀態(tài)定義
3.2 Agent動(dòng)作定義
3.3 動(dòng)作選擇策略
3.4 獎(jiǎng)勵(lì)函數(shù)
3.5 本章小結(jié)
第四章 搭建仿真平臺(tái)
4.1 仿真運(yùn)行菜單設(shè)計(jì)
4.2 VB-MATLAB交互
4.3 VISSIM-VB-MATLAB集成仿真平臺(tái)
4.4 本章小結(jié)
第五章 自適應(yīng)信控方法有效性檢驗(yàn)
5.1 定周期信控仿真
5.1.1 時(shí)變交通流量輸入
5.1.2 評(píng)價(jià)數(shù)據(jù)
5.2 強(qiáng)化學(xué)習(xí)信控仿真
5.2.1 運(yùn)行參數(shù)設(shè)定
5.2.2 仿真平臺(tái)運(yùn)行邏輯圖
5.3 結(jié)果分析
5.3.1 訓(xùn)練結(jié)果
5.3.2 對(duì)比評(píng)價(jià)
5.4 本章小結(jié)
結(jié)論與展望
參考文獻(xiàn)
攻讀學(xué)位期間取得的研究成果
致謝
本文編號(hào):3886827
本文鏈接:http://sikaile.net/kejilunwen/daoluqiaoliang/3886827.html
最近更新
教材專著