基于多智能體強化學習的城市自適應交通信號控制方法研究

發(fā)布時間：2024-01-27 10:53

　　城市社會經(jīng)濟發(fā)展到一定程度時,城市道路往往會出現(xiàn)不同程度的擁堵現(xiàn)象,為了克服現(xiàn)有城市道路信號控制方法存在的各種局限性,本文提出基于馬爾可夫決策過程的最優(yōu)搜索型強化學習的城市道路自適應信號控制方法,并搭建仿真平臺對所提出的自適應信控方法的有效性進行驗證。本文針對智能體技術應用于城市道路自適應信號控制方法展開相關研究,主要工作涉及以下幾個方面:首先,對現(xiàn)有信控方法的局限性進行充分調查并提出基于強化學習的自適應信控方法,考慮鄰域交叉口的交通壓力對Agent所處環(huán)境的狀態(tài)和動作選擇策略進行定義,以停車次數(shù)的變化值作為Agent狀態(tài)動作對之間轉換獲得的獎勵值;接著,結合VISSIM交通仿真軟件的仿真建模能力、VB系統(tǒng)的圖形用戶界面和快速應用程序開發(fā)能力以及MATLAB系統(tǒng)強大的矩陣運算能力和繪圖能力,利用COM組件的生成和調用搭建基于VISSIM-VB-MATLAB的交互仿真平臺,對本文提出的自適應信號控制方法的有效性進行仿真驗證;另外,抽取部分迭代學習過程作為觀察對象,分別記錄學習過程中的各交叉口信控方案即各Agent選取的動作,以及對各Agent的Q表進行可視化處理;最后,以交叉口總停車次數(shù)...

【文章頁數(shù)】：86 頁

【學位級別】：碩士

【文章目錄】：
摘要
abstract
第一章緒論
    1.1 研究背景
    1.2 研究目的與意義
    1.3 國內外研究現(xiàn)狀
        1.3.1 國外研究現(xiàn)狀
        1.3.2 國內研究現(xiàn)狀
    1.4 主要研究內容
    1.5 技術路線
    1.6 本章小結
第二章強化學習相關理論
    2.1 有限馬爾可夫決策過程
        2.1.1 智能體與環(huán)境
        2.1.2 目標和獎勵
        2.1.3 策略和值函數(shù)
        2.1.4 最優(yōu)策略和最優(yōu)值函數(shù)
    2.2 動態(tài)規(guī)劃(Dynamic Programming,DP)
        2.2.1 策略迭代
        2.2.2 值迭代
    2.3 時間差分算法
    2.4 Q-learning和 Sarsa
    2.5 本章小結
第三章多智能體強化學習信號控制算法
    3.1 環(huán)境狀態(tài)定義
    3.2 Agent動作定義
    3.3 動作選擇策略
    3.4 獎勵函數(shù)
    3.5 本章小結
第四章搭建仿真平臺
    4.1 仿真運行菜單設計
    4.2 VB-MATLAB交互
    4.3 VISSIM-VB-MATLAB集成仿真平臺
    4.4 本章小結
第五章自適應信控方法有效性檢驗
    5.1 定周期信控仿真
        5.1.1 時變交通流量輸入
        5.1.2 評價數(shù)據(jù)
    5.2 強化學習信控仿真
        5.2.1 運行參數(shù)設定
        5.2.2 仿真平臺運行邏輯圖
    5.3 結果分析
        5.3.1 訓練結果
        5.3.2 對比評價
    5.4 本章小結
結論與展望
參考文獻
攻讀學位期間取得的研究成果
致謝

本文編號：3886827

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/daoluqiaoliang/3886827.html

上一篇：集裝箱港內交通信號燈選址研究
下一篇：鋼-混組合結構PC連續(xù)剛構橋的靜力和地震響應分析

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于多智能體強化學習的城市自適應交通信號控制方法研究