基于多智能體強化學習的城市自適應交通信號控制方法研究
發(fā)布時間:2024-01-27 10:53
城市社會經(jīng)濟發(fā)展到一定程度時,城市道路往往會出現(xiàn)不同程度的擁堵現(xiàn)象,為了克服現(xiàn)有城市道路信號控制方法存在的各種局限性,本文提出基于馬爾可夫決策過程的最優(yōu)搜索型強化學習的城市道路自適應信號控制方法,并搭建仿真平臺對所提出的自適應信控方法的有效性進行驗證。本文針對智能體技術應用于城市道路自適應信號控制方法展開相關研究,主要工作涉及以下幾個方面:首先,對現(xiàn)有信控方法的局限性進行充分調查并提出基于強化學習的自適應信控方法,考慮鄰域交叉口的交通壓力對Agent所處環(huán)境的狀態(tài)和動作選擇策略進行定義,以停車次數(shù)的變化值作為Agent狀態(tài)動作對之間轉換獲得的獎勵值;接著,結合VISSIM交通仿真軟件的仿真建模能力、VB系統(tǒng)的圖形用戶界面和快速應用程序開發(fā)能力以及MATLAB系統(tǒng)強大的矩陣運算能力和繪圖能力,利用COM組件的生成和調用搭建基于VISSIM-VB-MATLAB的交互仿真平臺,對本文提出的自適應信號控制方法的有效性進行仿真驗證;另外,抽取部分迭代學習過程作為觀察對象,分別記錄學習過程中的各交叉口信控方案即各Agent選取的動作,以及對各Agent的Q表進行可視化處理;最后,以交叉口總停車次數(shù)...
【文章頁數(shù)】:86 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景
1.2 研究目的與意義
1.3 國內外研究現(xiàn)狀
1.3.1 國外研究現(xiàn)狀
1.3.2 國內研究現(xiàn)狀
1.4 主要研究內容
1.5 技術路線
1.6 本章小結
第二章 強化學習相關理論
2.1 有限馬爾可夫決策過程
2.1.1 智能體與環(huán)境
2.1.2 目標和獎勵
2.1.3 策略和值函數(shù)
2.1.4 最優(yōu)策略和最優(yōu)值函數(shù)
2.2 動態(tài)規(guī)劃(Dynamic Programming,DP)
2.2.1 策略迭代
2.2.2 值迭代
2.3 時間差分算法
2.4 Q-learning和 Sarsa
2.5 本章小結
第三章 多智能體強化學習信號控制算法
3.1 環(huán)境狀態(tài)定義
3.2 Agent動作定義
3.3 動作選擇策略
3.4 獎勵函數(shù)
3.5 本章小結
第四章 搭建仿真平臺
4.1 仿真運行菜單設計
4.2 VB-MATLAB交互
4.3 VISSIM-VB-MATLAB集成仿真平臺
4.4 本章小結
第五章 自適應信控方法有效性檢驗
5.1 定周期信控仿真
5.1.1 時變交通流量輸入
5.1.2 評價數(shù)據(jù)
5.2 強化學習信控仿真
5.2.1 運行參數(shù)設定
5.2.2 仿真平臺運行邏輯圖
5.3 結果分析
5.3.1 訓練結果
5.3.2 對比評價
5.4 本章小結
結論與展望
參考文獻
攻讀學位期間取得的研究成果
致謝
本文編號:3886827
【文章頁數(shù)】:86 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景
1.2 研究目的與意義
1.3 國內外研究現(xiàn)狀
1.3.1 國外研究現(xiàn)狀
1.3.2 國內研究現(xiàn)狀
1.4 主要研究內容
1.5 技術路線
1.6 本章小結
第二章 強化學習相關理論
2.1 有限馬爾可夫決策過程
2.1.1 智能體與環(huán)境
2.1.2 目標和獎勵
2.1.3 策略和值函數(shù)
2.1.4 最優(yōu)策略和最優(yōu)值函數(shù)
2.2 動態(tài)規(guī)劃(Dynamic Programming,DP)
2.2.1 策略迭代
2.2.2 值迭代
2.3 時間差分算法
2.4 Q-learning和 Sarsa
2.5 本章小結
第三章 多智能體強化學習信號控制算法
3.1 環(huán)境狀態(tài)定義
3.2 Agent動作定義
3.3 動作選擇策略
3.4 獎勵函數(shù)
3.5 本章小結
第四章 搭建仿真平臺
4.1 仿真運行菜單設計
4.2 VB-MATLAB交互
4.3 VISSIM-VB-MATLAB集成仿真平臺
4.4 本章小結
第五章 自適應信控方法有效性檢驗
5.1 定周期信控仿真
5.1.1 時變交通流量輸入
5.1.2 評價數(shù)據(jù)
5.2 強化學習信控仿真
5.2.1 運行參數(shù)設定
5.2.2 仿真平臺運行邏輯圖
5.3 結果分析
5.3.1 訓練結果
5.3.2 對比評價
5.4 本章小結
結論與展望
參考文獻
攻讀學位期間取得的研究成果
致謝
本文編號:3886827
本文鏈接:http://sikaile.net/kejilunwen/daoluqiaoliang/3886827.html