天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 路橋論文 >

基于非端到端強化學習的單點信號控制方法

發(fā)布時間:2023-01-26 04:40
  傳統(tǒng)的單點交通響應信號控制方法已經能夠令信號控制設備完全代替人類采集、處理、分析和預測交通需求數據,動態(tài)調整信號配時,但仍需依賴人類現有的知識構建的規(guī)則或模型,在各類場景下信號配時方案的選擇都相對固化,同時缺乏信號配時方案對性能影響的評價,無法利用評價改善現有的規(guī)則或模型。將人工智能領域的強化學習方法應用于單點信號控制,使交叉口層面的智能體與交叉口環(huán)境進行交互,通過嘗試各種信號配時動作開拓經驗,通過評價的反饋完善策略,從而超越人類水平。本文以單環(huán)4相位的單個四路交叉口為研究對象,基于非端到端強化學習,提出了一種單點人工智能信號控制方法。利用先進的交通數據檢測技術,采集交叉口各進口道停止線后160m檢測范圍內的所有車輛的位置、車速等數據,提取交通運行狀況和信號運行狀況兩類共132個特征,在此基礎上構建狀態(tài)向量。動作設定為:選擇當前相位最小綠燈時間結束后的延長綠燈時間。以最小化交叉口車均排隊時間為目標,將加權累進平均方法得到的交叉口車均排隊時間變化量作為即時回報。本文借鑒Deep Q Network的技術體系,并有如下創(chuàng)新性成果:(1)對強化學習的各個技術環(huán)節(jié)的方法選用進行分析,選擇最適合... 

【文章頁數】:67 頁

【學位級別】:碩士

【文章目錄】:
摘要
Abstract
1 緒論
    1.1 課題來源
    1.2 研究背景
    1.3 單點信號控制的進化歷程
    1.4 交通數據采集技術的發(fā)展
    1.5 文獻綜述
    1.6 馬爾可夫決策過程簡介
2 強化學習要素和技術選型
    2.1 人工智能信號控制方法概述
    2.2 即時回報選擇
    2.3 狀態(tài)表征
        2.3.1 狀態(tài)表征方式的選擇
        2.3.2 到達駛離圖
        2.3.3 狀態(tài)向量特征的選擇和處理
    2.4 時間差分方法
    2.5 基于時間差分的控制方法選型
        2.5.1 策略改善方式選擇
        2.5.2 動作價值的近似
    2.6 無模型借鑒策略時間差分方法——DQN
3 定制DQN算法確定和智能體訓練過程
    3.1 多步時間差分方法
    3.2 終止狀態(tài)的設置
    3.3 控制方法的解析
    3.4 智能體訓練技巧
        3.4.1 訓練技巧之VISSIM仿真
        3.4.2 訓練技巧之強化學習
    3.5 強化學習超參數的取值
    3.6 深度神經網絡結構的設置
    3.7 梯度下降算法的選擇
    3.8 智能體訓練過程的觀察
4 人工智能信號控制方法性能測試
    4.1 對比對象選取
    4.2 仿真實驗方案設計
    4.3 仿真實驗環(huán)境設定
        4.3.1 交通需求條件
        4.3.2 信號配時條件
        4.3.3 仿真參數設置
    4.4 實驗結果分析
5 結論
    5.1 研究成果
    5.2 主要創(chuàng)新點
    5.3 后續(xù)研究展望
參考文獻
附錄A 仿真實驗原始結果
致謝


【參考文獻】:
期刊論文
[1]考慮交通管理策略的交叉口信號控制多目標優(yōu)化[J]. 龍瓊,胡列格,張謹帆,周昭明,彭爍.  中南大學學報(自然科學版). 2014(07)
[2]基于強化學習算法的公交信號優(yōu)先策略[J]. 舒波,李大銘,趙新良.  東北大學學報(自然科學版). 2012(10)
[3]基于Q學習的城市交通信號燈混雜控制(英文)[J]. 趙曉華,李振龍,陳陽舟.  系統(tǒng)仿真學報. 2006(10)



本文編號:3732181

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/daoluqiaoliang/3732181.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶ddf96***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com