删失数据下事件持续时间多因素生存分析模型

2012-10-30 08:14:46方守恩陈雨人
同济大学学报(自然科学版) 2012年12期
关键词:持续时间概率交通

蒋 宏,方守恩,陈雨人

(同济大学 道路与交通工程教育部重点实验室,上海 201804)

交通事件的持续时间对于道路交通管理人员实施紧急疏散策略、制定交通管理措施和交通流诱导等具有十分重要的意义.交通事件持续时间则受到天气、事故类型、到场时间、占用车道数、涉及车辆数、伤亡人数、救援车辆数等随机因素的交互影响.

交通事件持续时间预测方法主要有:基于统计的预测方法、回归模型、时间序列模型、决策树、非参数回归法和模糊逻辑法等[1].其中,决策树模型是比较简单有效的方法,例如姬杨蓓蓓等[2]采用基于贝叶斯决策树的算法,利用数据建立交通事件持续时间的预测模型,且具有很好的鲁棒性;刘伟铭等[3]在对事件数据进行显著性分析后,建立了高速公路交通事件持续时间预测决策树.而目前国外较多采用概率模型对事件持续时间特性进行研究.多数研究表明交通事件持续时间服从对数正态分布[4-5],而丛浩哲等[6]对浙江省某条高速公路交通事件持续时间数据检验表明数据不服从正态分布;Doohee等[7]的研究表明事故的检测时间、报告时间和响应时间服从 Weibull模型,清除时间则服从Log-logistic模型.

本文分别应用生存分析模型中的比例风险模型和加速风险模型对交通事件持续时间及影响因素(协变量)进行建模,并讨论2个模型的适用性.

1 交通事件持续时间的特性

交通事件持续时间一般包括4个独立的阶段:事件发现阶段、事件响应阶段、事件清除阶段和交通恢复阶段[8].事件发现阶段:从交通事件发生到交通管理者、警察或高速公路救援队发现交通事件的时间;事件响应阶段:从交通事件被确认到救援车辆到达现场的时间;事件清除阶段:救援队伍处理受伤人员、封闭车道直到移除车辆和碎片后离开现场即救援队伍将干扰交通运行的障碍清除所处的时段;事件恢复阶段:交通事件被清除后车辆排队开始消散直到交通流恢复到正常交通状态所处的时段.

目前国内对于交通事件持续时间的准确预测尚有一定的难度,其中比较重要的原因是缺少对事件状态全过程的记录.从公路交管部门对交通事件的记录信息来看,可用于交通持续时间统计分析的只有事件确认时刻、开展救援时刻以及处置完毕时刻.由于记录的缺失,导致事件持续时间数据出现2种类型(删失和完全),其中t1和t2为删失数据,t3为完全数据,如图1.

图1 事件持续时间数据示例Fig.1 Illustration of incident duration data

由于交通恢复阶段受交通流和交通管理等多种因素影响难以观测和记录,交通事件的发现时间相对其他阶段可以忽略不计,本文将事件确认到处置完毕的时间段作为研究的观测周期.

2 生存分析的基本函数

生存分析是研究多种影响因素与生存时间有无联系以及联系程度大小的一种既考虑时间又考虑结果的统计方法,并可充分利用删失数据提供的不完全信息[9].生存时间(事件状态的持续)指从某起点事件开始到被观测对象出现终点事件所经历的时间.

生存时间T是一个连续性的非负随机变量,当取t时具有累计分布函数F(t),又称为失效函数(failure function).由定义可知,事件持续时间的概率是随机变量T的函数,表示为

式中:P (T <t)表示事件 {T <t}发生的概率.由式(1)可得概率密度函数为

生存函数S(t)(survival function)又称累计生存率,简称生存率,表示具有协变量X的观察对象其生存时间T大于时间t的概率,定义为

还有一个在t时刻处(附近)对死亡发生的可能性进行度量的函数h(t),称为危险函数(hazard function),它是-lnS(t)关于t的导数,定义如下:

累计危险函数为

事件持续时间的危险函数、密度函数、累计频率函数和生存函数的关系如图2.

图2 生存分析模型函数[10]Fig.2 Survival analysis models functions[10]

3 比例风险模型

生存分析模型中最常用的多因素分析方法就是比例风险模型(proportional hazards model)[11],该模型是一种半参数模型,不需要假定生存时间的分布,但却可以通过一个模型来分析生存时间的分布规律以及危险因素(协变量)对生存时间的影响.其基本形式如下:

式中:h(t|Z)为具有p个协变量Z的个体j在时刻t的危险率;h0(t)为基准风险函数,它是全部协变量都为零或标准状态下的风险函数,一般是未知的;Zk(k=1,…,p) 为个体j不随时间改变的协变量;βk(k=1,…,p) 为变量参数,若βk>0,表明该协变量为危险因子,会增加风险函数值,对生存时间出现负作用,βk<0表明该协变量为保护因子,会减少风险函数值,即延长生存时间,βk=0表明该因素为无关因素.

之所以被称为比例风险模型是因为任意2个具有协变量Z和Z*的个体,其危险率成比例

协变量参数向量β= (β1,…,βk,…,βp)′可根据偏似然估计方法得到.令t1<t2<…<tD表示顺序事件时间,定义时间ti时的风险集R (ti)为在ti之前仍处于研究过程的所有观测个体集合,Zjk为个体j的第k个协变量,Z(i)k是与在时间ti时失效的个体相关的第k个协变量,定义危险函数的偏似然函数如下:

为了评价比例风险模型的拟合程度,选用Cox-Snell残差对其进行检验.如果模型中β的估计值为b=(b1,…,bk,…,bp)′,则 Cox残差定义为

4 加速失效模型

参数加速失效模型(accelerated failure time models)可作为半参数比例模型的替代模型[12],其对事件发生时间X的自然对数Y=ln(X)建模,参数模型的形式如下:

式中:μ为截距;γ′=(γ1,γ2,…,γp)为回归系数向量;Z为协变量矩阵;σ为未知的尺度参数;W 为误差项.通常根据假设误差项服从的不同分布来产生不同的回归模型[13],其对应关系如表1.

表1 常用的参数加速失效模型Tab.1 Some commonly used accelerated failure time models for parametric duration models

如果令S0(x)为随机向量exp(μ+σW)的生存函数,对于所有的观测时刻x,带有协变量Z的危险率与基本危险率h0的关系可变换为

模型中的参数可以通过极大似然估计法得到.假定有n个样本,定义fj(tj)和Sj(tj)为观测个体j在时刻tj的密度函数和生存函数,其示性函数为δj,构造似然函数为

模型拟合程度评价采用概率图检验的方法;此外,在一定置信水平下的拟合模型并不具有唯一性,本文以赤池信息量准则[14](Akaike information criterion,AIC)判断相对优劣性来选择更优的模型,AIC准则要求AIC的取值越小越好.模型AIC函数(AIC)的定义如下:

式中:l为对数似然函数;e为模型中协变量的个数;c为模型独立参数个数.

5 模型应用

5.1 数据准备

实例分析对象为浙江省某条双向8车道高速公路,全长约78km,设计车速120km·h-1.当地交警部门采集的交通事件数据信息包括:星期、天气、报警时间、报警类型、到达现场时间、事件类型、占用车道数、涉及车辆数、受伤人数、死亡人数、最先到达现场的车辆、救援车辆数等.交通事件数据采集的时间跨度为3年,共得事件观测个体1455个.对采集的定量和定性数据进行编码和赋值:如将报警时间分为早高峰、白天、晚高峰和夜间4个水平;又如由散落物引起的事故涉及车辆数为0;观测个体是否删失分别用0和1标识.模型变量的分组和赋值如表2.

表2 变量说明及赋值一览Tab.2 Summary of variables explanation and value assignment

5.2 模型拟合与检验

采用逐步回归法对变量进行筛选及最大似然估计,比例风险模型中通过显著性检验的协变量按照对持续时间影响程度大小排列为Z9,Z6,Z3,Z8和Z5这5个变量.此外,通过变量方差分析发现,Z1,Z2,Z4和Z7这4个协变量对于生存率没有显著影响,这些变量被剔除在最终的回归模型外;从比例分析模型协变量参数估计系数的符号来看,回归方程系数除Z5以外全部小于零,说明报警时段和占用车道数等全部为保护因子,即协变量每增加1个等级交通事件的持续时间就会延长,危险度降低.对于加速风险模型,通过显著性检验的协变量按照对持续时间影响程度大小排列为Z9,Z6,Z3,Z8,Z5,Z4这6个变量.此外,通过变量方差分析发现,Z1,Z2,Z7这3个协变量对于生存率没有显著影响,这些变量被剔除在最终的回归模型外.2个模型协变量最终的筛选及参数估计结果如表3.

虽然有些协变量被剔除在模型外,但并不能排除这些因素对持续时间的影响,预选影响因子之间存在的强相关性会导致该现象的产生.例如,当显著性相关变量中有一方进入回归模型中,另一方变量则有可能会排除在模型外,如当事故类型进入模型后,Z7被排除在模型外,但并不能就此说明Z7对交通事件的持续时间没有影响,通过对协变量进行皮尔逊相关性检验后发现,2个变量间的皮尔逊相关系数为-0.5508,说明进入模型的事故类型这个协变量部分反映了涉及车辆数的信息.

表3 模型的参数估计Tab.3 Estimated parameters for the models

根据5个协变量拟合的比例风险模型绘制残差和残差累计危险率的Cox-Snell残差图(图3),图中的直线大致呈45°,说明模型拟合程度较好.

比例风险模型生存函数模型形式为

式中,S0(t)为基准生存函数.对数据分别用各种假设回归模型进行拟合,得到对数罗吉斯蒂模型的AIC值最小(如表4),因此最终采用对数罗吉斯蒂进行建模,加速失效模型其生存函数形式为

模型拟合程度的概率图检验如图4.

图3 Cox-Snell残差Fig.3 Cumulative hazard of Cox-Snell residuals

表4 加速失效模型的参数Tab.4 Analysis for parameters of accelerated failure time models

5.3 协变量敏感性分析

生存函数每种协变量组合都会生成不同的生存函数概率曲线.图5给出了不同事故类型下协变量Z5的生存函数概率,可以看出,事故类型对于生存函数的概率影响较小,没有显著性不同,这是由协变量的参数估计值决定的,对于比例风险模型和加速失效模型其系数分别为0.027和0.055.由此可见,对于生存概率影响的大小是由参数估计值的贡献决定的,因此,本文选择了贡献率最大的因子Z9进行深入分析.

为了比较2个模型对协变量的敏感程度,假定如下情景:在控制协变量Z3=1,Z4=1,Z5=1,Z6=1和Z8=1的情况下,比较对模型影响程度最大的协变量Z9对生存函数的影响.从图6a可见对于是否发生亡人事故,持续时间大于25min的概率差别甚微,且生存时间的概率估计值均可达到80%以上;但随着持续时间的增加,发生亡人事故对于事件结束的概率影响较大;从图6b可见,对于亡人事故,概率持续时间大于50min的概率约为40%,而对于非亡人事故概率估计值约为10%.

为了更进一步分析协变量对生存概率的影响,借鉴方差分析法的思想比较2个模型对协变量当场亡人(Z9=0,1)的敏感程度,考察任意观测时间下的生存函数概率绝对差|ST(t|Z9=1)-ST(t|Z9=0)|的变化情况,生存函数概率绝对差曲线如图7.

变量敏感性对比分析表明:在观测区间内2个模型对亡人事故的整体敏感性接近.但从图7可见:比例风险模型敏感性曲线的曲率变化率较小,而加速失效模型的曲率变化率较大,表明该模型对于协变量当场亡人的敏感性较强,在持续时间约为30 min时达到极值;此外,持续时间约为60min的绝对差成为2个模型对协变量当场亡人敏感性的分水岭.

6 结论

在分析交通事件状态及持续时间规律的基础上,以某高速公路的1455起交通事件持续时间及影响因素为分析对象,应用生存分析理论相关模型对交通事件持续时间分别用比例风险模型和加速失效模型对协变量进行了筛选并建立了相应的生存函数模型;并对持续时间的生存率贡献最大的协变量当场亡人进行了敏感性分析,比较了协变量在不同水平下的生存率,在持续时间小于30min时加速失效模型对于当场亡人事故的敏感性较强,不利于短时的建模预测,且对于短时预测采用比例风险模型更符合实际操作.生存模型可以基于事故报告信息预测持续时间大小的概率,为事故预后措施的实施及紧急救援提供决策参考.

此外,交通事件持续时间的预测评价技术还需要从以下几个方面深入:①完善事件持续时间4个阶段的统计数据并建立相关的数据库,通过对事件持续时间分布规律的研究提高预测模型的精度;②预测模型的参数估计值的时间稳定性[15]也需要大量的数据来验证;③本文仅利用半参数加速失效模型和全参数加速失效模型对持续时间的生存函数进行了建模和比较分析,其他生存分析模型对于交通事件持续时间的适用性有待于进一步研究.

[1]姬杨蓓蓓,张小宁,孙立军.交通事件持续时间预测方法综述[J].公路,2008,33(3):72.JIYANG Beibei,ZHANG Xiaoning,SUN Lijun.A review of the traffic incident duration prediction methods[J].Highway Engineering,2008,33(3):72.

[2]姬杨蓓蓓,张小宁,孙立军.基于贝叶斯决策树的交通事件持续时间预测[J].同济大学学报:自然科学版,2008,36(3):319.JIYANG Beibei,ZHANG Xiaoning,SUN Lijun.Traffic incident duration prediction grounded on Bayesian decision method-based tree algorithm [J]. Journal of Tongji University:Natural Science,2008,36(3):319.

[3]刘伟铭,管丽萍,尹湘源.基于决策树的高速公路时间持续时间预测[J].中国公路学报,2005,18(1):99.LIU Weiming,GUAN Liping,YIN Xiangyuan.Prediction offreeway incident duration based on decision tree[J].China Journal of Highway and Transport,2005,18(1):99.

[4]Golob T F,Reeker W W,Leonard J D.An analysis of the severity and incident duration of truck-involved freeway accidents[J].Accident Analysis and Prevention,1987,19(4):375.

[5]Garib A,Radwan A E,Al-Deek H.Estimating magnitude and duration of incident delays[J].Journal of Transportation Engineering,1997,123(6):459.

[6]丛浩哲,方守恩,王俊骅.交通事件持续时间影响因素分析及其回归模型[J].交通信息与安全,2010,28(3):80.CONG Haozhe,FANG Shouen,WANG Junhua.Factors analysis of freeway incident duration and regression modeling[J].Computer and Communication,2010,28(3):80.

[7]Doohee Nam,Fred Mannering.An exploratory hazard-based analysis of highway incident duration[J].Transportation Research Part A,2000,34:85.

[8]王建军,邓亚娟.路网环境下高速公路交通事故影响传播分析与控制[M].北京:科学出版社,2010.WANG Jianjun,DENG Yajuan.Traffic accident impact analysis and control of expressway under road network[M].Beijing:Science Press,2010.

[9]彭非,王伟.生存分析[M].北京:中国人民大学出版社,2004.PENG Fei,WANG Wei.Survival analysis[M].Beijing:China Renmin University Press Co.Ltd.,2004.

[10]Washington S P,Karlaftis M G,Mannering F L.Statistical and econometric methods for transportation data analysis[M].Boca Raton:CRC Press LLC,2003.

[11]Cox D R.Regression models and life tables[J].Journal of Royal Statistic Society,1972,34(B):187.

[12]Wei L J.The accelerated failure time model:a useful alternative to the cox regression model in survival analysis[J].Statistics in Medicine,1992,11:1871.

[13]Allison P D.Survival analysis using SAS:apractical guide[M].2nd ed.Cary:SAS Institute Inc,2010.

[14]Akaike H.A new look at the statistical model identification[J].IEEE Transactions on Automatic Control,1974,19(6):716.

[15]Chung Y.Development of an accident duration prediction model on the korean freeway systems[J].Accident Analysis and Prevention,2010,42:282.

猜你喜欢
持续时间概率交通
第6讲 “统计与概率”复习精讲
第6讲 “统计与概率”复习精讲
概率与统计(一)
概率与统计(二)
繁忙的交通
童话世界(2020年32期)2020-12-25 02:59:14
小小交通劝导员
The 15—minute reading challenge
基于SVD的电压跌落持续时间检测新方法
极寒与北极气压变动有关,持续时间不确定
俄语体与持续时间结构组合规律的认知语义阐释
外语学刊(2011年5期)2011-01-22 05:54:11