基于貝葉斯決策樹(shù)的交通事件持續(xù)時(shí)間預(yù)測(cè)
本文關(guān)鍵詞:基于貝葉斯決策樹(shù)的交通事件持續(xù)時(shí)間預(yù)測(cè),由筆耕文化傳播整理發(fā)布。
第36卷第3期2008年3月
同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版)
JO.rRNALOFTONGJIUNIVERSITY(blATURALSCl日咂Z)
Vd.36No.3Mar.2008
基于貝葉斯決策樹(shù)的交通事件持續(xù)時(shí)間預(yù)測(cè)
姬楊蓓蓓,張小寧,孫立軍
(同濟(jì)大學(xué)交通運(yùn)輸工程學(xué)院,上海200092)
摘要:采用基于貝葉斯方法的決策樹(shù)算法,利用上海市中心城區(qū)1536個(gè)交通事件持續(xù)時(shí)間數(shù)據(jù),建立交通事件持續(xù)時(shí)間的預(yù)測(cè)模型。結(jié)果表明,事件類(lèi)型是決策樹(shù)中的第一層測(cè)試屬性,不同類(lèi)型事件的特性屬性在決策樹(shù)中的位置并不相同。并用384個(gè)交通事件數(shù)據(jù)對(duì)模型的預(yù)測(cè)精度進(jìn)行檢驗(yàn)。檢驗(yàn)結(jié)果表明,拋錨事件持續(xù)時(shí)間預(yù)測(cè)誤差小于10ro_ha的正確率為79%,而交通事故持續(xù)時(shí)間預(yù)測(cè)誤差小于20min的正確率為65%。基于貝葉斯推理的決策樹(shù)算法比僅基于貝葉斯或僅基于決策樹(shù)算法的分類(lèi)精度更高,魯棒性更強(qiáng)。
關(guān)鍵詞:交通工程;交通事件;事件持續(xù)時(shí)間;預(yù)測(cè)方法;貝葉斯;決策樹(shù)中圖分類(lèi)號(hào):U
491
文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):0253—374X(2008)03—0319一06
TrafficIncidentDurationPredictionGrounded
on
Bayesian
DecisionMethod—BasedTreeAlgorithm
JIYANGBeibei,ZHANGXiaoning,SUNLijun
(SehⅪlofTransportationEllgimering。TorsiUniversity,島angIlai200092,CIli瑚)
Abstract:Thepaperpresents
on
a
predictionmethodoftrafficincidentdurationof
expressway,grounded
theBayesian
method—baseddecisiontreeclassificationalgorithmand1536incidentdataofShanghai
totest
centralcityexpressway.And384incidentdatawereadopted
thepredictionaccuracyofthis
model.TheresultsshowthattheincidenttypeiSthefirstlayerofthedecisiontreeanddifferentinci.
denthasdifferenttestattributes.ThepredictionaccuracyofanchordurationiS79%with10minuteswhilethatofaccidentmethodbased
an
error
of
durationiS65%with
accurate
anerror
of20minutes.Sothe
the
Bayesian
based
on
decision
or
tree
algorithmismore
andstabilizedthanmethod
Bayesian
method
decisiontreerespectively.engineering;traffic
Keywords:traffic
incident;incidentduration;prediction
method;Bayesian
method;decisiontree
交通擁堵已經(jīng)成為世界上很多國(guó)家面臨的主要對(duì)上海城市快速路的調(diào)查表明,僅中心區(qū)平均每天的交通事件達(dá)40-80次(包括拋錨和交通事故).交
交通問(wèn)題之一.有關(guān)研究表呼¨,由高速公路事件
引起的偶發(fā)性交通擁堵(如交通事故,拋錨車(chē)輛,天氣變化等),已占城市快速路總擁堵的50%-75%.
通管理者必須充分了解交通事件的性質(zhì)和嚴(yán)重程
度,以及道路的具體情況,從而實(shí)現(xiàn)有效的交通事件
收稿日期:2007—05—09
基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(70401016)
作者簡(jiǎn)介:姬楊蓓蓓(1981一).女.博士生,主要研究方向?yàn)榻煌üこ,E-mail:0510120001@maail.toni.edu.?/p>
孫立軍(1963一),男,教授,博士生導(dǎo)師,工學(xué)博士,主要研究方向?yàn)榈缆放c交通工程,Bm越l:b蛐@髓m.tongii.edu.∞
萬(wàn)方數(shù)據(jù)
同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版)第36卷
管理.然而,對(duì)于交通管理者而言,最困難是預(yù)估交
通事件的持續(xù)時(shí)間.預(yù)估準(zhǔn)確,有助于決定采取適當(dāng)?shù)墓芾泶胧?/p>
很多研究者在交通事件持續(xù)時(shí)間的預(yù)測(cè)方法研
究中有所嘗試,提出了多種預(yù)測(cè)方法,如基于概率的
預(yù)測(cè)模型、線性回歸模型、決策樹(shù)模型、非參數(shù)回歸模
型、模糊邏輯模型等【2-3].除了決策樹(shù)模型外,其他模
型還需要了解事件的詳細(xì)信息,因此很難用于實(shí)際的交通事件管理中.本文采用基于貝葉斯方法的決策樹(shù)分類(lèi)算法【4J,建立交通事件持續(xù)時(shí)間的決策樹(shù).該方法的主要特點(diǎn)是提高了精度和分類(lèi)的魯棒性,可更好
地處理不一致、不完整和噪聲干擾數(shù)據(jù).
1模型的建立
1.1貝葉斯方法
樸素的貝葉斯分類(lèi)方法是貝葉斯方法中實(shí)用性很高的一種學(xué)習(xí)方法,其關(guān)鍵是使用概率表示各種形式的不確定性.在選擇某事件面臨不確定性時(shí),在
某一時(shí)刻假定此事件會(huì)發(fā)生的概率,然后根據(jù)不斷
獲取的新信息修正此概率.修正前和修正后的概率分別為先驗(yàn)概率、后驗(yàn)概率.
每個(gè)數(shù)據(jù)樣本用一個(gè),z維特征向量X={zl,z2,…,z。}表示,分別描述對(duì),1個(gè)屬性A1,A2,…,A。樣本的,z個(gè)度量.假定有m個(gè)類(lèi)C1,C2,…,C優(yōu),給定1個(gè)未知的數(shù)據(jù)樣本x(即沒(méi)有類(lèi)標(biāo)號(hào)),分類(lèi)器將預(yù)測(cè)x屬于具有最高后驗(yàn)概率(條件x下)的類(lèi).也就是說(shuō),樸素貝葉斯分類(lèi)將未知的樣本
分配給G(1≤i≤m),當(dāng)且僅當(dāng)P(cfIx)>P(Gx),對(duì)任意的歹=1,2,…,m,J≠i.這樣,最大化為P(Gx),最大的類(lèi)為最大后驗(yàn)假定.由貝葉斯定理
P(G㈣=塑景產(chǎn)(1)
由于P(X)對(duì)于所有類(lèi)為常數(shù),只需要P(x
Ci)P(G)最大即可.其中,P(G)=&/s,&是類(lèi)G
中的訓(xùn)練樣本數(shù),而s是訓(xùn)練樣本總數(shù).為了簡(jiǎn)化計(jì)算,可以做類(lèi)條件獨(dú)立的樸素假定,即屬性值相互獨(dú)
立(屬性問(wèn)不存在依賴關(guān)系).這樣
P(x
cf)=l'【P(戤l
G)
(2)
其中,概率P(zlCi),P(z2G),…,P(z。IG)"--I
以由i/ll練樣本估計(jì).
萬(wàn)
方數(shù)據(jù)對(duì)未知樣本x分類(lèi),也就是對(duì)每個(gè)類(lèi)Cf,計(jì)算
P(xlCi)P(Ci).樣本x被指派到類(lèi)G,當(dāng)且僅當(dāng)P(GX)>P(Cix),1≤.f≤m,歹≠i.換言之,x
被指派到其P(XIG)P(G)最大的類(lèi).
1.2決策樹(shù)
決策樹(shù)分類(lèi)方法是應(yīng)用最廣泛的邏輯方法之
一,它從一組無(wú)次序、無(wú)規(guī)則的事例中,推理出決策樹(shù)表示形式的分類(lèi)規(guī)則.決策樹(shù)分類(lèi)方法采用自頂向下的的遞歸方式,在決策樹(shù)的內(nèi)部節(jié)點(diǎn)比較屬性
值,并根據(jù)不同的屬性值判斷從該節(jié)點(diǎn)向下的分支,在決策樹(shù)的葉節(jié)點(diǎn)得到結(jié)論.所以,從決策樹(shù)的根到
葉節(jié)點(diǎn)的一條路徑就對(duì)應(yīng)著一條合取規(guī)則,整棵決策樹(shù)就對(duì)應(yīng)著一組析取表達(dá)式規(guī)則.基于決策樹(shù)的分類(lèi)算法的一個(gè)最大的優(yōu)點(diǎn)就是學(xué)習(xí)過(guò)程中不需要
使用者全面了解背景知識(shí).
1.3基于貝葉斯推理的決策樹(shù)【4】
在原有決策樹(shù)T的基礎(chǔ)上,在T中加人新的節(jié)點(diǎn),此節(jié)點(diǎn)位于T的兩個(gè)屬性測(cè)試節(jié)點(diǎn)之間,能夠
根據(jù)貝葉斯原理計(jì)算此節(jié)點(diǎn).此節(jié)點(diǎn)稱為貝葉斯節(jié)點(diǎn),具有這樣節(jié)點(diǎn)的決策樹(shù)稱作貝葉斯決策樹(shù).本文用基于貝葉斯方法的決策樹(shù)分類(lèi)算法,建立了交通事件持續(xù)時(shí)間預(yù)測(cè)模型.圖1為基于貝葉斯推理的
決策樹(shù)模型示意圖.
屬性節(jié)點(diǎn)
條件節(jié)點(diǎn)貝葉斯節(jié)點(diǎn)
屬性節(jié)點(diǎn)
圖1基于貝葉斯方法的決策樹(shù)模型
Fig.1
Decisiontree
algorithmmodelbasedOn
Bayesian
Method
經(jīng)過(guò)條件節(jié)點(diǎn)口后,判斷貝葉斯條件的0和廠
值.0表示節(jié)點(diǎn)不進(jìn)行任何計(jì)算,直接根據(jù)條件口轉(zhuǎn)向下一屬性測(cè)試節(jié)點(diǎn);廠表示需要計(jì)算廠的值.這里
的函數(shù)廠是樸素的貝葉斯公式,即如果貝葉斯節(jié)點(diǎn)需要廠值,則下一個(gè)屬性節(jié)點(diǎn)的選擇依賴于兩點(diǎn):
①屬性測(cè)試條件口;②函數(shù)廠的值.
基于貝葉斯方法的決策樹(shù)分類(lèi)算法的基本思想
是:對(duì)于能夠用信息增益方法確切選擇某個(gè)屬性的
分支,選取貝葉斯節(jié)點(diǎn)的0值;對(duì)于數(shù)據(jù)對(duì)象具有二義性,或?qū)傩灾祦G失的數(shù)據(jù),如某一交通事件的傷亡
第3期
姬楊蓓蓓,等:基于貝葉斯決策樹(shù)的交通事件持續(xù)時(shí)間預(yù)測(cè)
情況未知,則選。畯S值,利用貝葉斯方法確定其后
驗(yàn)概率,選取后驗(yàn)概率最大的那一類(lèi),此類(lèi)即為數(shù)據(jù)
對(duì)象所屬的類(lèi)別.其中,信息增益法是基于信息論中
熵的概念[5J,算法選擇具有最高信息增益的屬性作為當(dāng)前節(jié)點(diǎn)的測(cè)試屬性.
設(shè)s是5個(gè)數(shù)據(jù)樣本的集合,假定類(lèi)標(biāo)號(hào)屬性
具有m個(gè)不同值,定義m個(gè)不同類(lèi)G(i=1,2,…,
m);設(shè)&是類(lèi)e中的樣本數(shù),對(duì)一個(gè)給定的樣本分類(lèi)所需的期望信息由下式給出:
Je
I(s1,s2,…,%)=一∑Pflb(Pi)
(3)
f=l
其中:P;是任意樣本屬于G的概率,一般可用s。/s
來(lái)估計(jì);lb是以2為底的對(duì)數(shù).設(shè)屬性A具有73個(gè)
不同值{a1,口2,…,a。};可以用屬性A將S劃分為口個(gè)子集{sl,52,…,踮}.其中,島包含S中這樣一些樣本,它們?cè)冢辽暇哂兄担幔辏绻磷鳛闇y(cè)試屬
性,則這些子集對(duì)應(yīng)于由包含集合S的節(jié)點(diǎn)生長(zhǎng)出
來(lái)的分支.設(shè)s打是子集sj中類(lèi)G的樣本數(shù),根據(jù)A劃分成子集的熵由下式給出:
E(A)=宴笪竿÷立m∽趼…,%)
』=1
o
(4)
熵值越小,子集劃分的純度越高.由上面給出的
期望信息計(jì)算式,對(duì)于給定子集%其期望信息為
Je
I(Slj,5巧,…,smj)=一2j戶巧z6(戶巧)
(5)
其中,,pff=s∥hl是si中的樣本屬于類(lèi)ci的概率.
由期望信息和熵值可以得到對(duì)應(yīng)的信息增益值.對(duì)于在A上分支將獲得的信息增益,可以由下
面的公式得到:
G(A)=J(51,s2,…,s。)一E(A)
(6)
算法計(jì)算每個(gè)屬性的信息增益,并選取具有最
高增益的屬性作為給定集合的測(cè)試屬性.對(duì)被選取的測(cè)試屬性創(chuàng)建一個(gè)節(jié)點(diǎn),并以該屬性標(biāo)記對(duì)該屬
性的每個(gè)值創(chuàng)建一個(gè)分支,并據(jù)此劃分樣本.
2數(shù)據(jù)來(lái)源
收集大量的交通事件數(shù)據(jù)對(duì)交通事件分類(lèi)研究和準(zhǔn)確地預(yù)測(cè)交通事件持續(xù)時(shí)間有著非常重要的意義.本研究采用“上海市城市快速路監(jiān)控中心”的交
通事件數(shù)據(jù)作為分析數(shù)據(jù)源.上海市城市快速路監(jiān)
控中心(簡(jiǎn)稱高架道路監(jiān)控中心)隸屬于上海市市政工程管理處,于2002年成立,承擔(dān)著上海市高架道
萬(wàn)
方數(shù)據(jù)路交通監(jiān)控系統(tǒng)、地面交叉口交通信息采集系統(tǒng)的建設(shè),以及交通信息的發(fā)布、交通分析評(píng)價(jià)等工作.在監(jiān)控中心龐大的數(shù)據(jù)系統(tǒng)中,有交通事件較詳細(xì)的記錄,包括日常城市快速路的養(yǎng)護(hù)、處理城市快速路上的拋錨車(chē)輛和重大交通事故等.
選擇與目前處理事件的條件差異不大的數(shù)據(jù)來(lái)標(biāo)定模型,減少了數(shù)據(jù)的離散性,避免了由于數(shù)據(jù)離散性本身對(duì)模型精度的影響.所分析的交通事件數(shù)據(jù)是2007年1~5月發(fā)生在上海市中心城區(qū)高架道路上的車(chē)輛拋錨和交通事故,選取了1536個(gè)交通
事件數(shù)據(jù)分析研究,將樣本隨機(jī)分為兩類(lèi),一類(lèi)用于決策樹(shù)的標(biāo)定,標(biāo)定數(shù)據(jù)為1152個(gè),占樣本總數(shù)的
75%;另一類(lèi)驗(yàn)證生成決策樹(shù),共384個(gè),占樣本總
數(shù)的25%.
表1為標(biāo)定和驗(yàn)證模型的交通事件數(shù)據(jù)的描述性統(tǒng)計(jì).由表可見(jiàn),小于20min的事件比例占一半
以上.可見(jiàn),持續(xù)時(shí)間較短的交通事件占的比例較
大.這主要是因?yàn)橹行膮^(qū)快速路的大部分交通事件
為拋錨事件,一般對(duì)拋錨事件采用牽引車(chē)直接牽引
的方法,隨著牽引車(chē)工作效率的提高,拋錨事件的持續(xù)時(shí)間大大縮短.因此,中值也偏。畼(biāo)定數(shù)據(jù)的中值為16min,而驗(yàn)證數(shù)據(jù)的中值為25min.交通事件持續(xù)時(shí)間的標(biāo)準(zhǔn)差受到大量拋錨數(shù)據(jù)的影響,也偏小.標(biāo)定數(shù)據(jù)和驗(yàn)證數(shù)據(jù)的各項(xiàng)指標(biāo)具體見(jiàn)表1.
表1用于標(biāo)定和驗(yàn)證的交通事件數(shù)據(jù)的描述性統(tǒng)計(jì)
Tab.1
Descriptivestatisticoftrafficincidentdataforvalidationandcalibration
3決策樹(shù)模型的建立和檢驗(yàn)
構(gòu)造好的決策樹(shù),關(guān)鍵在于選擇好的邏輯判斷或?qū)傩裕畬?duì)于同一個(gè)問(wèn)題,可以構(gòu)造出很多決策樹(shù).
一般情況下。樹(shù)越小,樹(shù)的預(yù)測(cè)能力越強(qiáng).要構(gòu)造盡可能小的決策樹(shù),關(guān)鍵在于選擇恰當(dāng)?shù)倪壿嬇袛嗷?/p>
屬性.筆者應(yīng)用上述基于貝葉斯方法的決策樹(shù)算法,
同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版)
第36卷
對(duì)1152個(gè)交通事件數(shù)據(jù)進(jìn)行分析,建立中心城區(qū)
及車(chē)輛數(shù);③傷亡人數(shù);④是否涉及大巴士;⑤是
高架道路的交通事件持續(xù)時(shí)間預(yù)測(cè)決策樹(shù)模型.
影響交通事件持續(xù)時(shí)間的因素很多.表2給出了各種影響因素,實(shí)際收集的交通事件數(shù)據(jù)并沒(méi)有包括所有的影響因素,只包括:①事件類(lèi)型;②涉
否涉及貨車(chē);⑥貨車(chē)上有否拋灑物;⑦是否工作日;⑧是否高峰期;⑨天氣因素;⑩是否有交警到
位;⑩是否有救護(hù)車(chē)救援;⑩是否有消防車(chē)救援.
表2交通事件持續(xù)時(shí)間的影響因素
Tab.2
Influencefactorsoftrafficincidentduration
事件的其他影響因素
發(fā)生的時(shí)間
發(fā)生的地點(diǎn)
需要的救援措施
鮮啡工作日1無(wú)0斑m臻髏老奎趁耬
憩概
婿鸛陣焙射車(chē)
髏棼有無(wú)
2
s≥4磐票黎器鋈莩有無(wú)有無(wú)有無(wú)有無(wú)
性:車(chē)輛類(lèi)型,傷亡情況,車(chē)輛數(shù)目;火燒事件持續(xù)時(shí)間的測(cè)試屬性:車(chē)輛類(lèi)型,傷亡情況,設(shè)施損壞情況;追尾事件持續(xù)時(shí)間的測(cè)試屬性:涉及車(chē)輛數(shù),車(chē)輛類(lèi)型。有無(wú)傷亡;碰撞事件持續(xù)時(shí)間的測(cè)試屬性:傷亡情況,有否死亡,車(chē)輛類(lèi)型,地面散落物.因此,可得出上海市中心城區(qū)快速路的事件持續(xù)時(shí)間的關(guān)鍵影響因素是事件類(lèi)型和嚴(yán)重性.其他因素如是否高峰、是否工作日、是否有其他方式的救援,并非主要的.
根據(jù)每個(gè)影響因素的信息增益值,可以得到?jīng)Q
策樹(shù);對(duì)于有些事件的某些信息不能完全獲得,如某
一交通事件剛發(fā)生時(shí)。不知道確切的傷亡人數(shù),此
時(shí),可根據(jù)樸素的貝葉斯方法,確定其分類(lèi).計(jì)算第一個(gè)分支的12個(gè)影響因素(屬性)的增益值分別為
G(事件類(lèi)型)=0.363G(傷亡人數(shù))=0.213
G(貨車(chē)上有否拋灑物)=0.014G(是否是高峰期)=0.006G(是否有交警到位)=0.067G(是否有消防車(chē)救援)=0.110G(涉及車(chē)輛數(shù))=0.268G(車(chē)輛類(lèi)型)=0.147G(是否工作日)=0.009G(天氣因素)=0.004G(有否救護(hù)車(chē)救援)=0.109
由于事件類(lèi)型的增益值最高,因此,它首先作為測(cè)試屬性分類(lèi),如圖2所示.若事件類(lèi)型中有不完全的屬性值或?qū)傩灾涤卸x性(如交通事件中的追尾和
.
圖2決策樹(shù)的頂層結(jié)構(gòu)
Fig.2
Topstructureofthedecisionfree
algorithm
由決策樹(shù)可以看出,每一類(lèi)事件各層的測(cè)試屬性不盡相同.如翻車(chē)和火燒的第一層為車(chē)輛類(lèi)型,而追尾的第一層為車(chē)輛數(shù),碰撞的第一層為傷亡情況.
碰撞有時(shí)很難區(qū)分),則按貝葉斯方法計(jì)算,再分類(lèi).
依次尋找五種類(lèi)型交通事件的下一層的測(cè)試屬
性,最后得出決策樹(shù),見(jiàn)圖3.
拋錨事件的持續(xù)時(shí)間較短,且數(shù)據(jù)庫(kù)中對(duì)拋錨事件的屬性描述也較少,因此,根據(jù)車(chē)輛能否移動(dòng)進(jìn)
葉子節(jié)點(diǎn)給出了各分類(lèi)事件的平均持續(xù)時(shí)間及其變
化范圍.從預(yù)測(cè)結(jié)果可以看出,事件的持續(xù)時(shí)間變異性較大,這主要是因?yàn)橛绊懸蛩剌^多,如表2中的影響因素不能全部獲得,而且還有一些不可獲得的屬
行分類(lèi).由分類(lèi)結(jié)果得出平均持續(xù)時(shí)間較短.翻車(chē)事件持續(xù)時(shí)間,根據(jù)各屬性的增益值,得到分類(lèi)測(cè)試屬
性,如肇事者的年齡、喜好,車(chē)輛使用年限和性能等.
萬(wàn)方數(shù)據(jù)
第3期
姬楊蓓蓓,等:基于貝葉斯決策樹(shù)的交通事件持續(xù)時(shí)間預(yù)測(cè)
323
a拋錨事件
c火燒事件持續(xù)時(shí)間
d追尾事件持續(xù)時(shí)間
c碰撞事件持續(xù)時(shí)間
圍3各決策樹(shù)結(jié)構(gòu)(單位:min}
Fig.3
Decisiontreestructureofallkindsof
incidents(unit:rain)
萬(wàn)
方數(shù)據(jù)
博泰典藏網(wǎng)btdcw.com包含總結(jié)匯報(bào)、自然科學(xué)、計(jì)劃方案、農(nóng)林牧漁、醫(yī)藥衛(wèi)生、黨團(tuán)工作、出國(guó)留學(xué)、經(jīng)管營(yíng)銷(xiāo)以及基于貝葉斯決策樹(shù)的交通事件持續(xù)時(shí)間預(yù)測(cè)_圖文等內(nèi)容。
本文共2頁(yè)12
本文關(guān)鍵詞:基于貝葉斯決策樹(shù)的交通事件持續(xù)時(shí)間預(yù)測(cè),由筆耕文化傳播整理發(fā)布。
本文編號(hào):103782
本文鏈接:http://sikaile.net/kejilunwen/jiaotonggongchenglunwen/103782.html