考虑空间自相关的贝叶斯事故预测模型

2013-12-02 08:10:08黄合来许鹏鹏
关键词:泊松正态贝叶斯

黄合来,邓 雪,许鹏鹏

(1.中南大学 交通运输工程学院,湖南 长沙410075;2.西南交通大学 交通运输与物流学院,四川 成都610031)

传统交通安全实践局限于“打补丁式”的微观工程措施,缺乏在交通系统规划过程中的前瞻性考虑.通过在规划阶段对交通安全问题作前瞻性的分析来提高路网的安全水平非常重要.当前,新一代的交通规划方法,即“交通安全规划”,在发达国家尤其是美国成为一个重要研究热点[1].交通规划层面的影响因素与交通安全水平的关联方法,即区域安全预测模型,是“交通安全规划”理论的核心技术之一.

国外已经做了大量定量研究[2-6]来分析不同规划层面的影响因素与交通安全水平的关系,交通分析小区(traffic analysis zone,TAZ)是主要的空间分析单元.已有研究主要从区域人口经济特征[3]、土地利用特征[4]、区域 交通特征[5]和区域路 网 特 征[5-6]等方面进行分析.就统计方法而言,主要应用广义线性模型对TAZ事故频数与相关变量的关系进行建模[4],假设TAZ的事故分布在空间上不相关.然而,安全数据具有复杂的空间分布特征,对空间特征的忽视将大大影响安全水平估计的准确性和鲁棒性.为了克服广义线性模型的局限性,空间统计方法[6]逐渐成为安全分析领域的一个前沿研究方向.

在国内,文献[7]建议结合我国交通规划的工作流程考虑交通安全,文献[8]探讨了城市总体规划和土地规划中影响因素的安全效应.而从区域宏观层面反映路网特征、交通特征与交通安全之间关系的定量研究在我国几乎没有展开.

本文基于美国佛罗里达州Hillsborough县的数据进行区域安全建模研究.基于安全同质性原则,将该县重新划分为不同数量规模的交通安全分析小区(traffic safety analysis zone,TSAZ),提取小区层面数据,引入空间条件自回归先验信息建立贝叶斯空间模型,分析区域安全影响因素;评价不同分区规模对安全因素效应的影响,为交通安全规划提供技术支撑和理论依据.

1 数据准备

1.1 交通安全分析小区

区划问题是交通规划中一个最为基础的问题,传统交通分析小区的划分鲜有考虑安全相关因素,而现存大部分区域安全研究均以交通分析小区为基本单元.TSAZ 的划分在兼顾交通规划层面因素的前提下,考虑事故特征的区域同质性.本文基于Full-order-CLK 算法[9],按照严重事故、道路长度和总出行生成的聚集程度(权重分别为0.50,0.25,0.25)获得Hillsborough 县的多种分区方案,并基于200,500和700个TSAZ分区方案建立事故预测模型,分区方案如图1所示.

1.2 数据收集

采用佛罗里达州Hillsborough县所有州立道路3年的数据(2005—2007年),包括事故数据、道路特征数据、出行数据以及空间分布特征数据.

事故数据从佛罗里达州运输部事故分析报告系统中获得,其提供的最重要的信息是事故发生的小区归属以及伤害严重性等级.对于事故伤害的严重程度,分为5个等级:1为没有受伤,2为轻伤,3为非致残伤害,4为致残伤害,5为交通死亡.

相关路网特征数据和出行数据主要来源于佛罗里达州运输部.基于GIS地图小区划分边界对数据进行集计处理,获得小区层面的变量.

(1)路段总长度:每个TSAZ内道路中心线总里程数.

(2)分类的路段长度:每个TSAZ内路段中心线公里数按速度限制分类,①限速24km(15英里)的路段长度;②限速40km(25英里)的路段长度;③限速56km(35 英里)的路段长度;④限速105km(65英里)的路段长度.其中,限速40km 和56km的路段是主要类型,分别占路段总长度的76.86%和13.01%.为避免变量冗余问题,将所有分类归为限速低于56km 的路段长度和限速大于或等于56km的路段长度2类.

(3)交叉口数量:每个TSAZ的交叉口总数.

(4)总出行发生量:每个TSAZ 总的出行发生量.

(5)总出行吸引量:每个TSAZ 总的出行吸引量.

(6)基于TSAZ的出行发生量和吸引量,包括从家去工作,从家去上学,从家去购物,从家去社交活动,从家去其他,非从家去工作,非从家去其他的出行发生量和吸引量;轻型/重型卡车,出租车,飞机的出行发生量和吸引量;其他TSAZ到目标TSAZ 的出行发生量和吸引量.

使用ArcGIS软件自动生成相邻小区的空间邻接矩阵.

1.3 数据前处理和变量选择

定义严重性等级为4(致残伤害)和5(交通死亡)的事故为严重事故,其余为非严重事故.分别调查与各TSAZ有关的总事故和严重事故,作为预测模型的响应变量.

在因素较多且因素间存在广泛多重共线性的情况下,模型解释变量的筛选具有一定的挑战性.模型的数据拟合度和简约程度是两个重要的变量选择标准.通过数据探索性分析和对变量的逐一筛选,选定3类重要的安全影响因素,包括路段长度、交叉口数量和出行量.路段长度是反映交通基础设施规模的重要指标之一;交叉口是交通事故多发点,在控制了路段长度的前提下,采用交叉口密度(小区内交叉口总数/小区道路总长度)反映交通状况的复杂程度.此外,出行量是交通事故发生的直接机会变量,也是传统交通规划的重要数据来源.本研究选用总出行发生量和吸引量作为重要解释变量,同时,由于家庭和工作出行数据是一个重要的出行类型,也在模型中重点考虑.

为了避免总出行量和工作出行量的强相关问题,将其分别加入模型,即同一种分区、同一种响应变量下,建立两个事故预测模型,每个模型包含5个解释变量.具体模型变量如表1所示.

2 模型建立

2.1 模型结构

2.1.1 泊松模型

由于泊松模型能够契合道路交通事故的零散性、随机性以及事故频次为非负整数的特点,被广泛应用于事故预测中.假定在2005—2007年3年中各分析小区内事故频次Yi服从泊松分布,则第i个小区发生k次事故的概率为

式中:λ为泊松分布的强度参数,反映该小区内某时段平均发生事故频次.

将λ进行对数处理,建立与解释变量的线性关系,作为模型的连接函数,即

式中:β0 和β为待估系数;Xi为解释变量的向量.

2.1.2 泊松-对数正态模型

泊松模型假定事故均值与方差相等.然而,事故数据往往具有过度离散性,其方差显著大于均值[3].泊松-伽马模型与泊松-对数正态模型通过引入模型残差随机项,容许事故过度离散特征的存在,成为两个主流的事故预测模型的基本结构,本文采用泊松-对数正态模型进行研究.在泊松-对数正态模型中,假定第i个小区的事故频次Yi服从泊松分布

泊松-对数正态回归模型在基本泊松模型的连接函数中加入一个反映数据过度离散特征的残差项θi,并假定其服从均值为零的正态分布,即

式中:τθ为精度参数,等于方差的倒数.

2.1.3 贝叶斯空间模型

空间相关广泛地存在于相邻的空间小区中,对影响事故频次因素的估计效果的精确度有显著影响.贝叶斯空间模型能有效地拟合空间相关特征[3].本研究在泊松-对数正态模型的基础上,引入条件自回归模型[10]反映相邻小区间可能的空间关联.假设Yi是第i个TSAZ的3年平均事故率,模型如下:

在贝叶斯模型估计中,为β和θi设定无信息先验分布φi满足条件自回归模型的先验分布

本研究采用贝斯特等人建立的先验分布形式以保证模型收敛[3].

式中:τθ和τc分别表示由空间效应和随机效应导致的过度离散特征,其比值α能反映数据过度离散特征的结构,可由下式估计:

式中:s为标准差.

2.2 模型仿真结果评价标准

采用贝叶斯偏差信息准则 (deviance information criterion,DIC)对待选模型进行科学评价.DIC准则综合考虑模型拟合优度和模型复杂性,其计算方法如下[11]:

一般地,DIC 越小,模型越优.DIC 差值大于5则表明模型之间具有显著的差异.

2.3 模型参数估计方法

采用WinBUGS软件[12]对模型进行参数估计.使用3条链进行迭代,通过查看历史记录检查其收敛情况.确保所有参数收敛以后,舍去前1 000次迭代结果.为减少自相关性,在剩下的样本中每10 个中抽取1个,从1 001次开始进行10 000次迭代.

3 模型结果

3.1 事故说明

如图2所示,以200个TSAZ为例,说明佛罗里达州Hillsborough县2005—2007年事故频次地理分布特点.该县共发生57 694起事故,最低为东北部第112个TSAZ的7起,最高为东部第161个TSAZ的3 256起,事故频率标准差为369.47,变化范围较大;共发生4 854起严重事故,在TSAZ内变化范围从0~148起,标准差为23.14,其中第190个TSAZ严重事故频次最大,第15个TSAZ内的严重事故数为0.西北部地区事故相对集中,而东南部地区事故相对较少.以往研究表明,事故的空间分布与区域人口经济特征[3]、土地使用功能[4]等因素密切相关.西北部海岸地区经济发展水平高,人口相对密集,事故频次较高;而东南部地区的事故频次较低.

图2 佛罗里达州Hillsborough县2005—2007年事故地理分布图(以200个TSAZ为例)Fig.2 Crash distribution maps of Hillsborough County,Florida from 2005to 2007(200TSAZ as an example)

3.2 结果分析

3.2.1 DIC评价

如表2所示,泊松-对数正态模型和贝叶斯空间模型的pD值大于泊松模型而DIC 值远小于泊松模型,说明前两者模型结构较为复杂,且拟合效果大大优于泊松模型;泊松-对数正态模型与贝叶斯空间模型相比,两者的DIC值较为接近,仅从DIC值无法得出最优模型.从表3和表4可知,随着分区数目增多,空间因素比例α逐渐增大且统计显著,说明贝叶斯空间模型能够更好地拟合安全水平空间相关性特征.

表2 基于DIC值的模型评价Tab.2 Model evaluation on the basis of DIC

表3 总事故模型参数估计Tab.3 Estimation for total crash models

表4 严重事故模型参数估计Tab.4 Estimation for severe crash models

从表2还可以看出,同一种模型,随着分区数目增多,DIC值显著增大,模型拟合度降低,说明本文所采用的宏观区域交通指标变量在区域面积较大时对事故率的预测更为准确.

3.2.2 变量分析

对于总事故,无论分区数目多少,泊松模型中的解释变量全部显著.而贝叶斯空间模型的显著性解释变量数目较少,当TSAZ的数目为200时,显著性解释变量只有2个(限速低于56km 的路段和限速大于等于56km 的路段长度);当TSAZ的数目分别为500和700时,贝叶斯空间模型的显著性解释变量增多且趋于稳定,除限速低于56km 的路段长度和总的出行吸引量外,其余变量全都显著.

对于严重事故,泊松模型的显著性解释变量数目最多.在贝叶斯空间模型中,当TSAZ数目为200时,显著性解释变量仅有1个(限速大于等于56km的路段长度);当TSAZ 数目为500时,显著性解释变量有2个(限速大于等于56km 的路段长度和交叉口密度);当TSAZ 数目为700时,显著性解释变量增多且趋于稳定,除限速低于56km 的路段长度和总的出行吸引量外,其余变量全都显著.

交叉口:在大多数模型中,交叉口密度都是显著正相关,尤其是当分区数目足够多时.模型稳定后,给定路段长度、出行数据,交叉口数目越多,事故发生的频次越高.

路段长度:限速低于56km 的路段长度在贝叶斯空间模型中几乎都不显著,而其在泊松模型和泊松-对数正态模型中几乎都是显著负相关;限速大于等于56km 的路段长度在所有模型中都是显著正相关,且在同一模型中其系数最大,说明高速路段长度是预测道路安全水平的主要指标.

出行数据:总出行吸引量在泊松-对数正态模型和贝叶斯空间模型中都不显著;同一模型中,总出行发生量的系数总是大于总出行吸引量的系数,说明出行发生量对事故发生的预测能力更强;同一模型中,从家里去工作的出行发生量的系数总是大于非从家里去工作的出行发生量的系数,说明以家为基准的工作出行量有更好的事故预测能力;大多数出行数据的系数都为正,说明出行量与事故发生成正比例关系.

最后,从空间因素比例α 的估计参数来看,随着分区数目增加,空间因素比例α增加.当分区数目足够多时,有必要考虑相邻区域的空间相关性,而文中提出的贝叶斯空间模型能较好拟合空间相关性;同时,在贝叶斯空间模型中,随着分区数目增多,显著变量数目也增多.然而,如前所述,在使用宏观区域交通指标变量预测安全水平时,在区域较大的情况下数据拟合程度降低.因此,实际中分区规模要适中,以平衡拟合度和变量显著性,既达到统计上的要求又保证工程应用的可行性.

4 结论

(1)对比传统的泊松模型和泊松-对数正态模型,贝叶斯空间模型具有更高的数据拟合度.

(2)分区数目越多,空间因素在随机因素中的比例越高.

(3)同一分区下,路网特征变量(交叉口密度、限速低于56km 的路段长度和限速大于等于56km 的路段长度)的安全效应具有鲁棒性.

(4)限速大于等于56km 的路段长度是预测安全水平的主要指标.

本文就交通安全规划的核心技术问题——区域安全建模进行了研究,基于美国佛罗里达州Hillsborough县的数据,在TSAZ 层面针对事故均值提出了能够有效拟合事故空间相对特征的区域安全建模研究提供技术基础.

[1] Washington S P,Schalkwyk V I,Mitra S,et al.Incorporating safety into long-range transportation planning[R].Washington D C:Transportation Research Board,2006.

[2] Huang H,Abdel-Aty M.Multilevel data and Bayesian analysis in traffic safety[J].Accident Analysis and Prevention,2010,42(6):1556.

[3] Huang H,Abdel-Aty M,Darwiche A L.County-level crash risk analysis in Florida: Bayesian spatial modeling [J].Transportation Research Record,2010,2148,27.

[4] Guevara F L D,Washington S P,Oh J.Forecasting crashes at the planning level:simultaneous negative binomial crash model applied in Tucson,Arizona [J].Transportation Research Record,2004,1897:191.

[5] Haynes R,Jones A,Kennedy V,et al.District variations in road curvature in England and Wales and their association with roadtraffic crash[J].Environment and Planning:A,2007,39(5):1222.

[6] Hadayeghi A,Shalaby A,Persaud B.Development of planninglevel transportation safety models using full Bayesian semi parametric additive technique [J].Journal of Transportation Safety and Security,2010,2(1):45.

[7] 缪玉玲,陈小桐,李峰,等.引入交通安全对交通规划的新思考[C]//第二届全国公路科技创新高层论坛论文集.北京:当代中国出版社,2004:58-63.MIAO Yuling,CHEN Xiaotong,LI Feng,et al.The new thinking of introducing traffic safety on transportation planning[C]//Papers of the Second National Highway Science and Technology Innovation Forum.Beijing:Contemporary China Publishing House,2004:58-63.

[8] 唐珏琳.城市规划中的交通安全因素分析[J].公路与汽运,2007(4):47.TANG Juelin.Factor analysis of traffic safety in urban planning[J].Highways and Automotive Applications,2007(4):47.

[9] Guo D. Regionalization with dynamically constrained agglomerative clustering and partitioning (REDCAP) [J].International Journal of Geographical Information Science,2008,22(7):801.

[10] Besag J.Spatial interaction and the statistical analysis of lattice systems[J].Journal of Royal Statistical Society Series B,1974,36(2):192.

[11] Spiegelhalter D,Best N,Carlin B P,et al.Bayesian measures of model complexity and fit[J].Journal of Royal Statistical Society B,2002,64(4):583.

[12] Spiegelhalter D J,Thomas A,Best N G,et al.WinBUGS version 1.4.1 user manual[M].Cambridge:MRC Biostatistics Unit,2003.

猜你喜欢
泊松正态贝叶斯
基于泊松对相关的伪随机数发生器的统计测试方法
带有双临界项的薛定谔-泊松系统非平凡解的存在性
贝叶斯公式及其应用
双幂变换下正态线性回归模型参数的假设检验
统计与决策(2017年2期)2017-03-20 15:25:23
基于贝叶斯估计的轨道占用识别方法
基于泛正态阻抗云的谐波发射水平估计
半参数EV模型二阶段估计的渐近正态性
一种基于贝叶斯压缩感知的说话人识别方法
电子器件(2015年5期)2015-12-29 08:43:15
泊松着色代数
1<γ<6/5时欧拉-泊松方程组平衡解的存在性