天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 路橋論文 >

基于深度強(qiáng)化學(xué)習(xí)的城市道路交通控制算法研究

發(fā)布時(shí)間:2021-11-12 20:45
  隨著我國城鎮(zhèn)化率和人均機(jī)動(dòng)車保有量的不斷提高,許多城市面臨著交通擁堵的困境。近年來隨著科技不斷進(jìn)步,大數(shù)據(jù)、人工智能、深度強(qiáng)化學(xué)習(xí)等領(lǐng)域的研究不斷深入,結(jié)合這些新技術(shù)的城市智慧交通也成為了研究的熱點(diǎn)。此外,城市交通的信息化程度的逐步完善為城市智慧交通的實(shí)現(xiàn)提供了數(shù)據(jù)層面的保障。本文在實(shí)現(xiàn)城市交通信號的優(yōu)化問題上進(jìn)行了深入的研究,主要的工作分為以下兩個(gè)部分。在工程層面上,本文分別設(shè)計(jì)并實(shí)現(xiàn)了兩個(gè)分別基于Vissim和SUMO仿真軟件的交通信號控制仿真平臺(tái)。這兩個(gè)平臺(tái)面向強(qiáng)化學(xué)習(xí)算法進(jìn)行設(shè)計(jì)和優(yōu)化,并且在專業(yè)的仿真軟件基礎(chǔ)上二次開發(fā),提高了仿真實(shí)驗(yàn)的可信度。在算法層面上,本文提出了一種基于深度Q網(wǎng)絡(luò)算法的交通控制算法,利用矩陣表示法對交通狀態(tài)信息進(jìn)行提取,對小型路網(wǎng)的聯(lián)合信號相位進(jìn)行獨(dú)熱編碼作為智能體的動(dòng)作,論證了深度強(qiáng)化學(xué)習(xí)算法在小規(guī)模網(wǎng)絡(luò)上進(jìn)行交通信號控制優(yōu)化的可行性,并且通過多個(gè)實(shí)驗(yàn)分析了DQN算法在此領(lǐng)域的優(yōu)勢和局限性;目前針對區(qū)域路網(wǎng)的信號控制時(shí)往往采用分布式控制方案,其策略協(xié)調(diào)往往依賴于人工調(diào)整,而中心式控制往往受限于動(dòng)作空間,無法在狀態(tài)動(dòng)作空間內(nèi)進(jìn)行高效的探索從而學(xué)習(xí)到良好的... 

【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:73 頁

【學(xué)位級別】:碩士

【圖文】:

基于深度強(qiáng)化學(xué)習(xí)的城市道路交通控制算法研究


強(qiáng)化學(xué)習(xí)的基本框架

示意圖,全連接,神經(jīng)網(wǎng)絡(luò),神經(jīng)元


電子科技大學(xué)碩士學(xué)位論文10出的映射關(guān)系。圖2-2全連接神經(jīng)網(wǎng)絡(luò)示意圖全連接神經(jīng)網(wǎng)絡(luò)中每一個(gè)神經(jīng)元都代表一個(gè)獨(dú)立的計(jì)算單元,通常具有相同的結(jié)果和計(jì)算模式。類似生物的神經(jīng)元細(xì)胞的興奮信號傳遞模式,神經(jīng)元接收到來自若干個(gè)其他神經(jīng)元傳遞過來的輸入信號,接收到的信號輸入將與神經(jīng)元的閾值進(jìn)行比較,從而選擇是否繼續(xù)向下層神經(jīng)元傳遞信號。這種M-P(McCullochandPitts,1943)神經(jīng)元模型是一直沿用至今的神經(jīng)元模型,將其數(shù)學(xué)模型化表示之后,這些輸入信號再神經(jīng)元模型中通過帶權(quán)重的連接進(jìn)行傳遞,神經(jīng)元接收到的總輸入利用激活函數(shù)進(jìn)行“激活”之后產(chǎn)生神經(jīng)元的輸出,其中權(quán)重向量表示為w,輸入向量表示為x,激活函數(shù)表示為g,則單個(gè)神經(jīng)元輸出為g(wx)。對于M-P神經(jīng)元模型,理想狀態(tài)下的激活函數(shù)為階躍函數(shù),此函數(shù)能夠?qū)⑤斎胄盘栕兓癁?或者1的神經(jīng)元輸出,具體地,數(shù)學(xué)意義上的1代表神經(jīng)元興奮狀態(tài),0代表神經(jīng)元抑制狀態(tài)。但是從數(shù)學(xué)意義上,階躍函數(shù)的缺點(diǎn)是其函數(shù)不連續(xù)、不光滑,常常存在不可導(dǎo)的情況,因此實(shí)際常用可導(dǎo)函數(shù)作為激活函數(shù)。將多個(gè)神經(jīng)元組合起來,將會(huì)得到類似圖2-2的多層前饋網(wǎng)絡(luò),層與層之間的連線代表對應(yīng)的權(quán)重,此時(shí)可以利用矩陣來表示神經(jīng)網(wǎng)絡(luò)層與層之間的前饋傳播,即權(quán)重矩陣表示為W,輸入向量(或者前層網(wǎng)絡(luò)的輸出向量)表示為x,激活函數(shù)表示為g,則單個(gè)神經(jīng)元輸出為g(Wx)。由上可以看出,神經(jīng)網(wǎng)絡(luò)的前饋計(jì)算過程可以用嵌套的函數(shù)表示出來。在神經(jīng)網(wǎng)絡(luò)構(gòu)造完成時(shí),此網(wǎng)絡(luò)中所有神經(jīng)元的傳遞函數(shù)和激活函數(shù)就已經(jīng)確定了。激活函數(shù)本身在學(xué)習(xí)過程中是無法改變的,因此對于網(wǎng)絡(luò)的前饋過程來說,神經(jīng)網(wǎng)絡(luò)輸出的具體數(shù)值只取決于網(wǎng)絡(luò)的輸入或者神經(jīng)網(wǎng)絡(luò)的權(quán)重。通常情況下,神經(jīng)網(wǎng)絡(luò)在損失函數(shù)的引導(dǎo)下通

示意圖,卷積,神經(jīng)網(wǎng)絡(luò),示意圖


電子科技大學(xué)碩士學(xué)位論文12在卷積層之后,通常會(huì)添加池化層。池化的核心功能是降低數(shù)據(jù)的維數(shù),以減少網(wǎng)絡(luò)中的參數(shù)和計(jì)算復(fù)雜度。這能夠有效地縮短訓(xùn)練時(shí)間并減小過擬合風(fēng)險(xiǎn)。最常見的池化層類型有最大池化和平均池化。最大池化操作是保留滑動(dòng)窗口內(nèi)矩陣元素的最大值;平均池化操作是保留窗口內(nèi)元素的平均值。和卷積核一樣,這些窗口大小需要預(yù)先定義。在卷積神經(jīng)網(wǎng)絡(luò)中池化會(huì)降低特征圖的大小,同時(shí)保留重要信息。圖2-3卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖2.3深度Q網(wǎng)絡(luò)方法此節(jié)主要對DQN算法的原理以及公式推導(dǎo)進(jìn)行說明。DQN算法由Q學(xué)習(xí)衍生而來,其核心共同點(diǎn)都是對動(dòng)作價(jià)值進(jìn)行建模,下面將一步一步進(jìn)行推導(dǎo)。智能體經(jīng)過大量回合與環(huán)境的交互后,智能體得到一系列時(shí)間線上的環(huán)境狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)值,這些經(jīng)驗(yàn)樣本將是智能體學(xué)習(xí)的數(shù)據(jù)基矗為了解決強(qiáng)化學(xué)習(xí)問題,通常將其抽象為一個(gè)馬爾科夫決策過程,即在一個(gè)離散的決策序列中(公式2-4),未來的狀態(tài)只與當(dāng)前狀態(tài)決策相關(guān),與過去的狀態(tài)無關(guān),用數(shù)學(xué)公式表達(dá)即,這種性質(zhì)被稱為馬爾科夫無后效性。引入此性質(zhì)能夠幾乎適用于大部分應(yīng)用場景并且能夠簡化數(shù)學(xué)模型。111,,,,,,ttttHsarsar(2-4)由此可以對智能體的優(yōu)化目標(biāo)進(jìn)行定義。策略π是智能體的行為基礎(chǔ),它是從環(huán)境狀態(tài)到智能體動(dòng)作或動(dòng)作價(jià)值的一個(gè)函數(shù)映射。智能體在t時(shí)刻開始的累積獎(jiǎng)勵(lì)定義如公式2-5所示,其中γ是折扣因子,tG被稱為回報(bào)(return)。智能體的目標(biāo)是找到最優(yōu)策略π*以最大化其獲得的獎(jiǎng)勵(lì)數(shù)量。更具體地講,智能體的目標(biāo)旨在最大化累積獎(jiǎng)勵(lì)值的期望。折扣因子γ旨在調(diào)節(jié)潛在的遠(yuǎn)期回報(bào)和可見的短期回報(bào)之前的權(quán)重平衡,可以根據(jù)實(shí)際任務(wù)情況進(jìn)行調(diào)整。若γ為1則智能體將會(huì)平等地對待短期和遠(yuǎn)期回報(bào),若γ大于1可能導(dǎo)?

【參考文獻(xiàn)】:
期刊論文
[1]基于D3QN的交通信號控制策略[J]. 賴建輝.  計(jì)算機(jī)科學(xué). 2019(S2)
[2]基于深度強(qiáng)化學(xué)習(xí)的交通信號控制方法[J]. 孫浩,陳春林,劉瓊,趙佳寶.  計(jì)算機(jī)科學(xué). 2020(02)
[3]基于深度強(qiáng)化學(xué)習(xí)的城市交通信號控制算法[J]. 舒凌洲,吳佳,王晨.  計(jì)算機(jī)應(yīng)用. 2019(05)
[4]Traffic Signal Timing via Deep Reinforcement Learning[J]. Li Li,Yisheng Lv,Fei-Yue Wang.  IEEE/CAA Journal of Automatica Sinica. 2016(03)



本文編號:3491629

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/daoluqiaoliang/3491629.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶26b3d***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com