基于貝葉斯決策樹的交通事件持續(xù)時間預測
本文關(guān)鍵詞:基于貝葉斯決策樹的交通事件持續(xù)時間預測,由筆耕文化傳播整理發(fā)布。
第36卷第3期2008年3月
同濟大學學報(自然科學版)
JO.rRNALOFTONGJIUNIVERSITY(blATURALSCl日咂Z)
Vd.36No.3Mar.2008
基于貝葉斯決策樹的交通事件持續(xù)時間預測
姬楊蓓蓓,張小寧,孫立軍
(同濟大學交通運輸工程學院,上海200092)
摘要:采用基于貝葉斯方法的決策樹算法,利用上海市中心城區(qū)1536個交通事件持續(xù)時間數(shù)據(jù),建立交通事件持續(xù)時間的預測模型。結(jié)果表明,事件類型是決策樹中的第一層測試屬性,不同類型事件的特性屬性在決策樹中的位置并不相同。并用384個交通事件數(shù)據(jù)對模型的預測精度進行檢驗。檢驗結(jié)果表明,拋錨事件持續(xù)時間預測誤差小于10ro_ha的正確率為79%,而交通事故持續(xù)時間預測誤差小于20min的正確率為65%。基于貝葉斯推理的決策樹算法比僅基于貝葉斯或僅基于決策樹算法的分類精度更高,魯棒性更強。
關(guān)鍵詞:交通工程;交通事件;事件持續(xù)時間;預測方法;貝葉斯;決策樹中圖分類號:U
491
文獻標識碼:A文章編號:0253—374X(2008)03—0319一06
TrafficIncidentDurationPredictionGrounded
on
Bayesian
DecisionMethod—BasedTreeAlgorithm
JIYANGBeibei,ZHANGXiaoning,SUNLijun
(SehⅪlofTransportationEllgimering。TorsiUniversity,島angIlai200092,CIli瑚)
Abstract:Thepaperpresents
on
a
predictionmethodoftrafficincidentdurationof
expressway,grounded
theBayesian
method—baseddecisiontreeclassificationalgorithmand1536incidentdataofShanghai
totest
centralcityexpressway.And384incidentdatawereadopted
thepredictionaccuracyofthis
model.TheresultsshowthattheincidenttypeiSthefirstlayerofthedecisiontreeanddifferentinci.
denthasdifferenttestattributes.ThepredictionaccuracyofanchordurationiS79%with10minuteswhilethatofaccidentmethodbased
an
error
of
durationiS65%with
accurate
anerror
of20minutes.Sothe
the
Bayesian
based
on
decision
or
tree
algorithmismore
andstabilizedthanmethod
Bayesian
method
decisiontreerespectively.engineering;traffic
Keywords:traffic
incident;incidentduration;prediction
method;Bayesian
method;decisiontree
交通擁堵已經(jīng)成為世界上很多國家面臨的主要對上海城市快速路的調(diào)查表明,僅中心區(qū)平均每天的交通事件達40-80次(包括拋錨和交通事故).交
交通問題之一.有關(guān)研究表呼¨,由高速公路事件
引起的偶發(fā)性交通擁堵(如交通事故,拋錨車輛,天氣變化等),已占城市快速路總擁堵的50%-75%.
通管理者必須充分了解交通事件的性質(zhì)和嚴重程
度,以及道路的具體情況,從而實現(xiàn)有效的交通事件
收稿日期:2007—05—09
基金項目:國家自然科學基金資助項目(70401016)
作者簡介:姬楊蓓蓓(1981一).女.博士生,主要研究方向為交通工程,E-mail:0510120001@maail.toni.edu.∞
孫立軍(1963一),男,教授,博士生導師,工學博士,主要研究方向為道路與交通工程,Bm越l:b蛐@髓m.tongii.edu.∞
萬方數(shù)據(jù)
同濟大學學報(自然科學版)第36卷
管理.然而,對于交通管理者而言,最困難是預估交
通事件的持續(xù)時間.預估準確,有助于決定采取適當?shù)墓芾泶胧?/p>
很多研究者在交通事件持續(xù)時間的預測方法研
究中有所嘗試,提出了多種預測方法,如基于概率的
預測模型、線性回歸模型、決策樹模型、非參數(shù)回歸模
型、模糊邏輯模型等【2-3].除了決策樹模型外,其他模
型還需要了解事件的詳細信息,因此很難用于實際的交通事件管理中.本文采用基于貝葉斯方法的決策樹分類算法【4J,建立交通事件持續(xù)時間的決策樹.該方法的主要特點是提高了精度和分類的魯棒性,可更好
地處理不一致、不完整和噪聲干擾數(shù)據(jù).
1模型的建立
1.1貝葉斯方法
樸素的貝葉斯分類方法是貝葉斯方法中實用性很高的一種學習方法,其關(guān)鍵是使用概率表示各種形式的不確定性.在選擇某事件面臨不確定性時,在
某一時刻假定此事件會發(fā)生的概率,然后根據(jù)不斷
獲取的新信息修正此概率.修正前和修正后的概率分別為先驗概率、后驗概率.
每個數(shù)據(jù)樣本用一個,z維特征向量X={zl,z2,…,z。}表示,分別描述對,1個屬性A1,A2,…,A。樣本的,z個度量.假定有m個類C1,C2,…,C優(yōu),給定1個未知的數(shù)據(jù)樣本x(即沒有類標號),分類器將預測x屬于具有最高后驗概率(條件x下)的類.也就是說,樸素貝葉斯分類將未知的樣本
分配給G(1≤i≤m),當且僅當P(cfIx)>P(Gx),對任意的歹=1,2,…,m,J≠i.這樣,最大化為P(Gx),最大的類為最大后驗假定.由貝葉斯定理
P(G㈣=塑景產(chǎn)(1)
由于P(X)對于所有類為常數(shù),只需要P(x
Ci)P(G)最大即可.其中,P(G)=&/s,&是類G
中的訓練樣本數(shù),而s是訓練樣本總數(shù).為了簡化計算,可以做類條件獨立的樸素假定,即屬性值相互獨
立(屬性問不存在依賴關(guān)系).這樣
P(x
cf)=l'【P(戤l
G)
(2)
其中,概率P(zlCi),P(z2G),…,P(z。IG)"--I
以由i/ll練樣本估計.
萬
方數(shù)據(jù)對未知樣本x分類,也就是對每個類Cf,計算
P(xlCi)P(Ci).樣本x被指派到類G,當且僅當P(GX)>P(Cix),1≤.f≤m,歹≠i.換言之,x
被指派到其P(XIG)P(G)最大的類.
1.2決策樹
決策樹分類方法是應用最廣泛的邏輯方法之
一,它從一組無次序、無規(guī)則的事例中,推理出決策樹表示形式的分類規(guī)則.決策樹分類方法采用自頂向下的的遞歸方式,在決策樹的內(nèi)部節(jié)點比較屬性
值,并根據(jù)不同的屬性值判斷從該節(jié)點向下的分支,在決策樹的葉節(jié)點得到結(jié)論.所以,從決策樹的根到
葉節(jié)點的一條路徑就對應著一條合取規(guī)則,整棵決策樹就對應著一組析取表達式規(guī)則.基于決策樹的分類算法的一個最大的優(yōu)點就是學習過程中不需要
使用者全面了解背景知識.
1.3基于貝葉斯推理的決策樹【4】
在原有決策樹T的基礎上,在T中加人新的節(jié)點,此節(jié)點位于T的兩個屬性測試節(jié)點之間,能夠
根據(jù)貝葉斯原理計算此節(jié)點.此節(jié)點稱為貝葉斯節(jié)點,具有這樣節(jié)點的決策樹稱作貝葉斯決策樹.本文用基于貝葉斯方法的決策樹分類算法,建立了交通事件持續(xù)時間預測模型.圖1為基于貝葉斯推理的
決策樹模型示意圖.
屬性節(jié)點
條件節(jié)點貝葉斯節(jié)點
屬性節(jié)點
圖1基于貝葉斯方法的決策樹模型
Fig.1
Decisiontree
algorithmmodelbasedOn
Bayesian
Method
經(jīng)過條件節(jié)點口后,判斷貝葉斯條件的0和廠
值.0表示節(jié)點不進行任何計算,直接根據(jù)條件口轉(zhuǎn)向下一屬性測試節(jié)點;廠表示需要計算廠的值.這里
的函數(shù)廠是樸素的貝葉斯公式,即如果貝葉斯節(jié)點需要廠值,則下一個屬性節(jié)點的選擇依賴于兩點:
①屬性測試條件口;②函數(shù)廠的值.
基于貝葉斯方法的決策樹分類算法的基本思想
是:對于能夠用信息增益方法確切選擇某個屬性的
分支,選取貝葉斯節(jié)點的0值;對于數(shù)據(jù)對象具有二義性,或?qū)傩灾祦G失的數(shù)據(jù),如某一交通事件的傷亡
第3期
姬楊蓓蓓,等:基于貝葉斯決策樹的交通事件持續(xù)時間預測
情況未知,則選取.廠值,利用貝葉斯方法確定其后
驗概率,選取后驗概率最大的那一類,此類即為數(shù)據(jù)
對象所屬的類別.其中,信息增益法是基于信息論中
熵的概念[5J,算法選擇具有最高信息增益的屬性作為當前節(jié)點的測試屬性.
設s是5個數(shù)據(jù)樣本的集合,假定類標號屬性
具有m個不同值,定義m個不同類G(i=1,2,…,
m);設&是類e中的樣本數(shù),對一個給定的樣本分類所需的期望信息由下式給出:
Je
I(s1,s2,…,%)=一∑Pflb(Pi)
(3)
f=l
其中:P;是任意樣本屬于G的概率,一般可用s。/s
來估計;lb是以2為底的對數(shù).設屬性A具有73個
不同值{a1,口2,…,a。};可以用屬性A將S劃分為口個子集{sl,52,…,踮}.其中,島包含S中這樣一些樣本,它們在A上具有值aj.如果A作為測試屬
性,則這些子集對應于由包含集合S的節(jié)點生長出
來的分支.設s打是子集sj中類G的樣本數(shù),根據(jù)A劃分成子集的熵由下式給出:
E(A)=宴笪竿÷立m∽趼…,%)
』=1
o
(4)
熵值越小,子集劃分的純度越高.由上面給出的
期望信息計算式,對于給定子集%其期望信息為
Je
I(Slj,5巧,…,smj)=一2j戶巧z6(戶巧)
(5)
其中,,pff=s∥hl是si中的樣本屬于類ci的概率.
由期望信息和熵值可以得到對應的信息增益值.對于在A上分支將獲得的信息增益,可以由下
面的公式得到:
G(A)=J(51,s2,…,s。)一E(A)
(6)
算法計算每個屬性的信息增益,并選取具有最
高增益的屬性作為給定集合的測試屬性.對被選取的測試屬性創(chuàng)建一個節(jié)點,并以該屬性標記對該屬
性的每個值創(chuàng)建一個分支,并據(jù)此劃分樣本.
2數(shù)據(jù)來源
收集大量的交通事件數(shù)據(jù)對交通事件分類研究和準確地預測交通事件持續(xù)時間有著非常重要的意義.本研究采用“上海市城市快速路監(jiān)控中心”的交
通事件數(shù)據(jù)作為分析數(shù)據(jù)源.上海市城市快速路監(jiān)
控中心(簡稱高架道路監(jiān)控中心)隸屬于上海市市政工程管理處,于2002年成立,承擔著上海市高架道
萬
方數(shù)據(jù)路交通監(jiān)控系統(tǒng)、地面交叉口交通信息采集系統(tǒng)的建設,以及交通信息的發(fā)布、交通分析評價等工作.在監(jiān)控中心龐大的數(shù)據(jù)系統(tǒng)中,有交通事件較詳細的記錄,包括日常城市快速路的養(yǎng)護、處理城市快速路上的拋錨車輛和重大交通事故等.
選擇與目前處理事件的條件差異不大的數(shù)據(jù)來標定模型,減少了數(shù)據(jù)的離散性,避免了由于數(shù)據(jù)離散性本身對模型精度的影響.所分析的交通事件數(shù)據(jù)是2007年1~5月發(fā)生在上海市中心城區(qū)高架道路上的車輛拋錨和交通事故,選取了1536個交通
事件數(shù)據(jù)分析研究,將樣本隨機分為兩類,一類用于決策樹的標定,標定數(shù)據(jù)為1152個,占樣本總數(shù)的
75%;另一類驗證生成決策樹,共384個,占樣本總
數(shù)的25%.
表1為標定和驗證模型的交通事件數(shù)據(jù)的描述性統(tǒng)計.由表可見,小于20min的事件比例占一半
以上.可見,持續(xù)時間較短的交通事件占的比例較
大.這主要是因為中心區(qū)快速路的大部分交通事件
為拋錨事件,一般對拋錨事件采用牽引車直接牽引
的方法,隨著牽引車工作效率的提高,拋錨事件的持續(xù)時間大大縮短.因此,中值也偏。畼硕〝(shù)據(jù)的中值為16min,而驗證數(shù)據(jù)的中值為25min.交通事件持續(xù)時間的標準差受到大量拋錨數(shù)據(jù)的影響,也偏。畼硕〝(shù)據(jù)和驗證數(shù)據(jù)的各項指標具體見表1.
表1用于標定和驗證的交通事件數(shù)據(jù)的描述性統(tǒng)計
Tab.1
Descriptivestatisticoftrafficincidentdataforvalidationandcalibration
3決策樹模型的建立和檢驗
構(gòu)造好的決策樹,關(guān)鍵在于選擇好的邏輯判斷或?qū)傩裕畬τ谕粋問題,可以構(gòu)造出很多決策樹.
一般情況下。樹越小,樹的預測能力越強.要構(gòu)造盡可能小的決策樹,關(guān)鍵在于選擇恰當?shù)倪壿嬇袛嗷?/p>
屬性.筆者應用上述基于貝葉斯方法的決策樹算法,
同濟大學學報(自然科學版)
第36卷
對1152個交通事件數(shù)據(jù)進行分析,建立中心城區(qū)
及車輛數(shù);③傷亡人數(shù);④是否涉及大巴士;⑤是
高架道路的交通事件持續(xù)時間預測決策樹模型.
影響交通事件持續(xù)時間的因素很多.表2給出了各種影響因素,實際收集的交通事件數(shù)據(jù)并沒有包括所有的影響因素,只包括:①事件類型;②涉
否涉及貨車;⑥貨車上有否拋灑物;⑦是否工作日;⑧是否高峰期;⑨天氣因素;⑩是否有交警到
位;⑩是否有救護車救援;⑩是否有消防車救援.
表2交通事件持續(xù)時間的影響因素
Tab.2
Influencefactorsoftrafficincidentduration
事件的其他影響因素
發(fā)生的時間
發(fā)生的地點
需要的救援措施
鮮啡工作日1無0斑m臻髏老奎趁耬
憩概
婿鸛陣焙射車
髏棼有無
2
s≥4磐票黎器鋈莩有無有無有無有無
性:車輛類型,傷亡情況,車輛數(shù)目;火燒事件持續(xù)時間的測試屬性:車輛類型,傷亡情況,設施損壞情況;追尾事件持續(xù)時間的測試屬性:涉及車輛數(shù),車輛類型。有無傷亡;碰撞事件持續(xù)時間的測試屬性:傷亡情況,有否死亡,車輛類型,地面散落物.因此,可得出上海市中心城區(qū)快速路的事件持續(xù)時間的關(guān)鍵影響因素是事件類型和嚴重性.其他因素如是否高峰、是否工作日、是否有其他方式的救援,并非主要的.
根據(jù)每個影響因素的信息增益值,可以得到?jīng)Q
策樹;對于有些事件的某些信息不能完全獲得,如某
一交通事件剛發(fā)生時。不知道確切的傷亡人數(shù),此
時,可根據(jù)樸素的貝葉斯方法,確定其分類.計算第一個分支的12個影響因素(屬性)的增益值分別為
G(事件類型)=0.363G(傷亡人數(shù))=0.213
G(貨車上有否拋灑物)=0.014G(是否是高峰期)=0.006G(是否有交警到位)=0.067G(是否有消防車救援)=0.110G(涉及車輛數(shù))=0.268G(車輛類型)=0.147G(是否工作日)=0.009G(天氣因素)=0.004G(有否救護車救援)=0.109
由于事件類型的增益值最高,因此,它首先作為測試屬性分類,如圖2所示.若事件類型中有不完全的屬性值或?qū)傩灾涤卸x性(如交通事件中的追尾和
.
圖2決策樹的頂層結(jié)構(gòu)
Fig.2
Topstructureofthedecisionfree
algorithm
由決策樹可以看出,每一類事件各層的測試屬性不盡相同.如翻車和火燒的第一層為車輛類型,而追尾的第一層為車輛數(shù),碰撞的第一層為傷亡情況.
碰撞有時很難區(qū)分),則按貝葉斯方法計算,再分類.
依次尋找五種類型交通事件的下一層的測試屬
性,最后得出決策樹,見圖3.
拋錨事件的持續(xù)時間較短,且數(shù)據(jù)庫中對拋錨事件的屬性描述也較少,因此,根據(jù)車輛能否移動進
葉子節(jié)點給出了各分類事件的平均持續(xù)時間及其變
化范圍.從預測結(jié)果可以看出,事件的持續(xù)時間變異性較大,這主要是因為影響因素較多,如表2中的影響因素不能全部獲得,而且還有一些不可獲得的屬
行分類.由分類結(jié)果得出平均持續(xù)時間較短.翻車事件持續(xù)時間,根據(jù)各屬性的增益值,得到分類測試屬
性,如肇事者的年齡、喜好,車輛使用年限和性能等.
萬方數(shù)據(jù)
第3期
姬楊蓓蓓,等:基于貝葉斯決策樹的交通事件持續(xù)時間預測
323
a拋錨事件
c火燒事件持續(xù)時間
d追尾事件持續(xù)時間
c碰撞事件持續(xù)時間
圍3各決策樹結(jié)構(gòu)(單位:min}
Fig.3
Decisiontreestructureofallkindsof
incidents(unit:rain)
萬
方數(shù)據(jù)
博泰典藏網(wǎng)btdcw.com包含總結(jié)匯報、自然科學、計劃方案、農(nóng)林牧漁、醫(yī)藥衛(wèi)生、黨團工作、出國留學、經(jīng)管營銷以及基于貝葉斯決策樹的交通事件持續(xù)時間預測_圖文等內(nèi)容。
本文共2頁12
本文關(guān)鍵詞:基于貝葉斯決策樹的交通事件持續(xù)時間預測,由筆耕文化傳播整理發(fā)布。
本文編號:103782
本文鏈接:http://sikaile.net/kejilunwen/jiaotonggongchenglunwen/103782.html