基于自適應動態(tài)規(guī)劃的城市交通信號優(yōu)化控制方法綜述
本文關鍵詞:基于自適應動態(tài)規(guī)劃的城市交通信號優(yōu)化控制方法綜述,,由筆耕文化傳播整理發(fā)布。
第352009年6月
ACTAAUTOMATICASINICA
June,2009
基于自適應動態(tài)規(guī)劃的城市交通信號優(yōu)化控制方法綜述
趙冬斌1
劉德榮1
易建強1
摘要針對日益受到重視的自適應動態(tài)規(guī)劃(Adaptivedynamicprogramming,ADP)的方法和應用進行了概述.詳細分析了自適應動態(tài)規(guī)劃的關鍵問題,如收斂性、穩(wěn)定性和協(xié)調(diào)性的研究現(xiàn)狀和趨勢.介紹了城市交通信號控制問題的特點和目前采用的控制方法,以及自適應動態(tài)規(guī)劃方法在街區(qū)路口和快速路入口匝道的交通信號優(yōu)化控制的應用現(xiàn)狀和前景.關鍵詞自適應動態(tài)規(guī)劃,收斂性,穩(wěn)定性,協(xié)調(diào)性,交通信號控制中圖分類號TP274
AnOverviewontheAdaptiveDynamicProgrammingBased
UrbanCityTra cSignalOptimalControl
ZHAODong-Bin1
LIUDe-Rong1
YIJian-Qiang1
AbstractThispapersurveysthealgorithmsandapplicationofahotspotadaptivedynamicprogramming(ADP).Somekeyresearchissues,includingconvergence,stability,andcoordinationofadaptivedynamicprogramming,areextensivelyanalyzed.Theproblemsofurbancitytra csignalcontrolandcurrentcontrolschemesareintroduced,aswellasthepresentandpotentialapplicationsofadaptivedynamicprogrammingintheoptimizationoftra csignalcontrolbothinsurfacewayintersectionsandfreewayrampmeteringsystems.Keywords
Adaptivedynamicprogramming(ADP),convergence,stability,coordination,tra csignalcontrol
自適應動態(tài)規(guī)劃(Adaptivedynamicprogram-ming,ADP)本質(zhì)上基于強化學習原理,模擬人通過環(huán)境反饋進行學習,近年來被認為是一種非常接近人腦智能的方法[1].1977年,Werbos[2]首次提出自適應動態(tài)規(guī)劃的思想,命名為ACD(Adaptivecriticdesign).其主要原理基于人工神經(jīng)網(wǎng)絡能以任意精度逼近非線性函數(shù)的特性,通過單步計算估計動態(tài)規(guī)劃一段時間序列的性能指標函數(shù),有效地解決了動態(tài)規(guī)劃計算“維數(shù)災”的難題,為高維復雜系統(tǒng)的最優(yōu)控制提供了一種切實可行的理論和方法.隨后受到人們的廣泛重視,也產(chǎn)生了很多同義名稱,如Approximatedynamicprogramming[3]、Asymptoticdynamicprogramming[4]、Neuro-dynamicprogramming[5]等.2006年美國科學基金會組織的“2006NSFWorkshopandOutreachTutorialsonApproxi-mateDynamicProgramming”研討會上,建議將該方法統(tǒng)一為Adaptive/Approximatedynamicpro-gramming.自適應動態(tài)規(guī)劃是人工神經(jīng)網(wǎng)絡、最優(yōu)
收稿日期2008-12-18收修改稿日期2009-02-25
ReceivedDecember18,2008;inrevisedformFebruary25,2009國家自然科學基金(60874043,60621001)資助
SupportedbyNationalNaturalScienceFoundationofChina(60874043,60621001)
1.中國科學院自動化研究所復雜系統(tǒng)與智能科學重點實驗室,北京100190
,InstituteofAutomation,ChineseAcademyofSciences,Beijing100190
DOI:10.3724/SP.J.1004.2009.00676
控制和強化學習(Reinforcementlearning)相融合產(chǎn)生的交叉領域,也可以認為是離散領域的強化學習在連續(xù)領域的擴展,Bertsekas等[5]則將其定義為現(xiàn)代版的強化學習.自適應動態(tài)規(guī)劃在各種復雜控制領域得到了廣泛應用,包括飛機的自動降落控制[6]、多個電梯的調(diào)度控制[7]、無線通訊網(wǎng)絡的控制[8]、智能交通系統(tǒng)的控制與管理[9]等.
另一方面,隨著近年來交通需求的快速增長,盡管道路越建越多,可交通卻越來越堵,交通擁堵似乎成了城市交通的典型縮影.除去交通規(guī)劃與設計不合理、公眾交通意識淡薄等方面的因素外,另一方面的重要原因在于現(xiàn)有的城市交通信號控制系統(tǒng)沒有充分發(fā)揮合理的交通指揮和疏導作用.目前國內(nèi)城市所采用的城市交通信號控制系統(tǒng)多為集中式控制系統(tǒng),如北京采用的SCOOT系統(tǒng),可以實現(xiàn)一個區(qū)域內(nèi)交通信號的協(xié)調(diào)控制,但仍然存在單路口交通信號控制對交通流變化的適應性差、交通分區(qū)不合理和多路口交通信號協(xié)調(diào)性差等問題.可以預見,隨著交通設施的快速發(fā)展和人們對交通需求的不斷提高,城市交通信號控制的重要性將日益突出.由于交通信號控制系統(tǒng)本質(zhì)上是分布式控制系統(tǒng),控制系統(tǒng)結(jié)構(gòu)趨于采用分層遞階結(jié)構(gòu),將每個交通路口作為一個代理(Agent),通過分布式多代理系統(tǒng)(Multi-agentsystems,MAS)的協(xié)調(diào)優(yōu)化理論和方法來實現(xiàn)區(qū)域交通信號的協(xié)調(diào)優(yōu)化調(diào)節(jié).無論是單個代理的性能優(yōu)化,還是MAS的協(xié)調(diào)優(yōu)化,強化學習方法的應用研究逐漸增多.這是由于通常情況下,
本文關鍵詞:基于自適應動態(tài)規(guī)劃的城市交通信號優(yōu)化控制方法綜述,由筆耕文化傳播整理發(fā)布。
本文編號:131656
本文鏈接:http://sikaile.net/kejilunwen/jiaotonggongchenglunwen/131656.html