叶 飞,张冬梅,郭宝义
(长安大学汽车学院,陕西西安 710064)
我国每年死于交通事故的人数高居世界首位,大量的交通事故已经严重影响到国民经济的快速发展,威胁到人民的生命财产安全[1]。交通安全研究的目的不仅在于如何预防交通事故的发生,而且还要研究如何降低交通事故的严重程度。交通事故的发生具有随机性和偶然性,因此研究如何最大可能地降低交通事故的危害程度十分必要[2]。交通事故严重程度的影响因素主要包括人、车、路、环境及交通流特征等[3]。越来越多的学者关注驾驶员行为、道路条件和气候条件与交通事故严重程度的关系,但多数只是从定性的角度分析,没有定量方面的具体研究。文献[2]通过神经网络方法研究了高速公路隧道交通事故严重程度的影响因素;文献[4]通过主成分分析法研究了高速公路交通事故严重程度与交通流特征的关系;文献[5]通过一系列人工神经网络方法预测了道路交通事故严重程度的重要影响因子,给出了基于不同事故严重程度级别界定方法的八种预测模型,相对于将事故严重程度等级分为五级来说,给出的模型具有较好的预测能力;文献[6]运用多层感知器神经网络分析信号交叉口交通事故的严重程度,相对于多元Logit模型来说,多层感知器神经网络模型具有更高的精度。
交通事故受到各方面因素的综合影响,各因素间关系错综复杂,很难明确界定各因素对事故严重程度影响的具体大小。本文以交通事故严重程度为研究对象,从人、车、路(环境)及交通流特征等方面选择12个输入参数,建立具有3层感知器(MLP)结构的前馈神经网络模型,通过训练优化检验模型拟合优度,分析各独立因素对交通事故严重程度影响的大小,为交通安全研究和政策导向提供一定的决策依据。
以陕西省境内某高速公路2007年—2009年3 a间发生的1 000起交通事故为研究对象。该高速公路为双向4车道,统计路段全长78 km,设计行车速度为120 km/h。事故记录信息中包含日期(是否节假日)、天气状况、驾驶员人口统计学相关信息、事故车辆信息、事故现场道路相关信息、交通流状况等。
根据事故统计信息,考虑道路交通事故严重程度影响因素的一般分析方法,从人、车、路系统综合角度出发,在获得的数据条目中选取人、车、路(环境)及交通流特征等方面的12项作为输入参数,鉴于所选取的事故数据中事发地的道路几何线形与普通路段几何线形情况接近,道路几何线形将不作为考虑因素。事故信息以相关记录为准,少量缺损部分做近似处理,输入参数包括数值数字和逻辑数字,经一致化处理后的预测模型输入参数分类及编码见表l。表1中交通流主成分为交通状况正常情况下每h通过事故发生点断面的大车车辆数,辆/h,此处用来表征交通流特征。
表1 模型输入参数分类及编码
从交通事故中人身伤亡和财产损失程度角度出发,我国将交通事故分为特大事故、重大事故、一般事故和轻微事故4个等级。交通事故的发生是随机小概率事件,特大事故和重大事故的发生概率非常低,从交通事故统计资料上看,无法判断某起交通事故属于哪个等级。为了便于研究,将交通事故的严重程度分为死亡事故、受伤事故和仅财产损失事故3种类型,输出参数分类及编码如表2所示。
表2 模型输出参数分类及编码
人工神经网络具有强大的非线性映射能力和自组织、自适应、自学习能力,可以有效地解决复杂、非线性系统的功能模拟问题,方便寻找系统输入属性与输出属性之间的影响因子。多层感知器神经网络是一种前馈人工神经网络模型,它将输入的多个数据集通过输入与输出之间的多层加权连接映射到单一的输出数据集上。MLP模型由包含权矩阵W、偏差向量b和输出向量pi(i>1)的双层感知器构成,图1显示了该MLP模型各层中最终选中的模型,模型中变量的上标为其所在层的层数[7]。
同时,参数权重和网络中其它元素的来源(第二指数)和目标(第一指数)也以上标的形式标识。与输入向量p1相连接的权矩阵称作输入权矩阵(IW1,1),具有来源1(第二指数)和目标1(第一指数)。层1的元素带有上标1,例如偏差、网络输入和输出,表示元素与层1相关联。
模型中使用了权重层矩阵和输入权重矩阵。数据被随机分成2部分:训练用数据和验证用数据。根据输入参数个数可知该MLP模型第一层为输入层,具有12个输入;第二层为隐含层,隐含层的神经元数目选择是一个十分复杂的问题,往往需要根据设计者的经验和多次试验来确定,因而不存在一个理想的解析式来表示,按照公式2N+1个选取(N为输入神经元的个数)[8],确定其具有25个神经元;第三层为输出层,具有3个神经元,代表输出参数相对应的3种不同事故的严重程度。
图1 MLP神经网络模型结构图
常数1被赋给每一个神经元的偏差向量,默认每一个中间层的输出将作为下一层的输入,那么,层2可以看成是包含有25个输入、3个神经元以及3×25的权矩阵W2的层,在这种情况下,隐含层2为p2。层2中的所有向量和矩阵都已做了标注,可以看做是基于自身的单层网络模型。多层感知器神经网络的各层在预测过程中起着不同的作用,这种双层网络在反向传播中被广泛使用。将层2的输出量p3称作变化率输出并标记为y。
该模型的目标是降低误差e,T为目标向量,e为向量T和输出向量pi(i>1)之间的差异。基于感知器前馈神经网络的学习算法,通过感知器学习模式可计算出感知器权重和偏差的期望变化(输出目标),给出输入向量p1以及相应的误差e。网络训练的目的是通过最小均方误差(△MSE)函数调整线性网络的权重和偏差,将这些误差之和的平均值最小化。
对所建立的网络模型进行拟合优度检验,比较其验证结果与交通事故实际严重程度比例的吻合程度。通过误差平方和(SSE)、均方根误差(RMSE)、平均绝对误差(MAE)、相关系数(R)4种拟合优度检验方法对已建立的网络模型同时进行检验,选择拟合优度较好的算法进行试用[9]。
1)SSE检验法。SSE用于描述验证结果与实际发生情况之间的总误差平方和,也即离差平方和ISSE,表示为
(1)
ISSE接近0表示该模型具有较小的随机误差成分,具有更高的精度。
2)RMSE检验法。RMSE法也称作标准差法,估量来自数据中随机成分的标准误差△RMSE,定义为
(2)
如同ISSE一样,△RMSE值越接近0,表示预测模型越适用,RMSE是一种经常被用来测量模型预测值和实际观测值之间差别的方法。
3)MAE检验法。MAE法估计平均绝对误差,即估计值与真实值差的绝对值的平均值MAE,定义为
(3)
4)R检验法。相关系数矩阵R表示变量之间线性关系的显著性,R由输入矩阵X计算而来,X的行变量为观测值,列变量为变量值,矩阵R与X的协方差矩阵C=cov(X)有关,表示为
(4)
式中 C(i,j)为矩阵C的第i行第j列元素;C(i,i)为矩阵C的第i行第i列元素;C(j,j)为矩阵C的第j行第j列元素。
相关系数值为-1~1,接近1表示变量之间具有正的线性相关性,接近-1表示变量之间具有负的线性相关性,接近或者等于0表示变量之间的线性关系不存在。
基于MATLAB神经网络工具箱,针对图1中所示的MLP模型,定义输入输出参数,根据事故数据对模型进行训练,训练阶段使用70%的原始数据,验证阶段使用30%的原始数据。
式中 f3为线性(pureline)传输函数。
△MSE的最大下降率所处的迭代点的更新连接权重系数[10]的计算公式为
从模型输出结果中选取与训练样本相对应的等量样本,通过MATLAB软件对部分输入参数与事故严重程度之间的相关性进行分析,在MATLAB软件中的处理过程为:
StdX=std(X);%标准化处理,
VarX=var(X);%得到方差矩阵,
…
RX=corrcoef(X);%计算相关系数矩阵。
得到驾驶员年龄、事故类型、驾驶员性别、路面情况、交通流特征、天气情况等与交通事故严重程度之间的相关性系数R分别为0.766、0.495、0.817、0.966、0.992、0.959。可见建立的神经网络模型很好地实现了复杂影响因子与交通事故严重程度之间的映射关系。驾驶员性别、驾驶员年龄、事故类型与交通事故严重程度的相关系数R<0.95,相关性不显著,对交通事故严重程度的影响可以忽略不计;天气情况、路面情况与交通事故严重程度的相关系数R∈(0.95,0.99),相关性较显著,天气情况、路面情况对交通事故严重程度的影响程度基本相同;交通流特征与交通事故严重程度的相关性极显著(R=0.992>0.99),交通流特征对交通事故严重程度影响最大,交通流主成分值越大,交通事故严重程度等级越低,在某些流量大、速度高或大车比例较大的区段交通事故严重程度明显处于较高的水平。
MLP网络模型所有样本的输出值Y与目标输出值T的回归曲线以及总响应的回归散点图如图2所示,回归曲线方程为:Y=0.75T+0.082,图2中Y=T表示MLP模型输出值与目标输出值之间最理想的线性关系,在MLP模型中总响应相关系数值为0.873 19。图3为训练和验证阶段的误差曲线图,可以看出,神经网络迭代过程中的均方误差开始从一个较大的值逐渐减小,说明网络的学习能力在增强。在迭代次数为7次时验证阶段的误差曲线到达最低点,出现最佳验证效能,误差值为0.086 670。当网络记录下训练的设置之后,训练结束,这种技术避免了很多优化和学习算法中出现的过度匹配困扰。
图2 MLP模型回归曲线图及总响应 图3 MLP模型中的验证误差
对所建立的感知器神经网络模型进行拟合优度检验,基于模型输出结果中选取的等量样本数据以及训练样本数据,运用拟合优度检验数学模型(1)~(4),得到ISSE、△RMSE、△MAE、R分别为123.437 30、0.229 79、0.161 78、0.873 19,△MAE和△RMSE数值极小,可以看出所建立的感知器神经网络模型产生的误差较小,是分析交通事故严重程度影响因素的有效方式。
图4给出了针对死亡事故、受伤事故、仅财产损失事故3个严重程度等级的回归曲线,3种事故样本的模型输出值Y相对于目标输出值T的回归曲线方程分别为Y=0.68T+0.016、Y=0.7T+0.94、Y=0.76T+0.012,同时给出了相应等级下的相关系数R分别为:0.837 23、0.851 37和0.884 93,仅财产损失事故等级的相关系数R明显高于其它等级,分析结果与实际发生情况相符合,网络模型能够较好地适用于交通事故严重程度影响因素的分析。
图4 MLP模型中各等级严重程度的回归曲线
1)以人、车、路(环境)及交通流方面的因素为输入参数,以交通事故严重程度为输出参数构建了人工神经网络模型,通过对模型的训练和验证,并检验模型的拟合优度,求解回归曲线及总响应,在12个输入参数与交通事故严重程度之间建立了良好的相关性,相关系数R=0.873 19,表明模型有效。
2)驾驶员性别、年龄、事故类型与交通事故严重程度的相关性不显著,天气情况、路面情况与交通事故严重程度显著相关,交通流特征与交通事故严重程度相关性极显著(R=0.992),准确分析这些因素造成的影响,将有助于改进交通工具和高速公路的设计,以减轻交通事故严重的程度。
3)建立的模型同样适用于数据添加之后的分析,添加数据之后再使用该模型进行分析时,需要从初始权重矩阵和偏差矩阵重新计算出新的权重值和偏差值。
参考文献:
[1]王洪明.我国公路交通事故的现状及特征分析[J].中国安全科学学报,2009,19(10):121-126.
[2]马壮林, 邵春福, 董春娇,等. 基于累积Logistic模型的交通事故严重程度时空分析[J].中国安全科学学报,2011,21(9):94-99.
[3]Boufous S,Finch C,Hayen A,et al. The Impact of Environmental, Vehicle and Driver Characteristics on Injury Severity in Older Drivers Hospitalized as a Result of a Traffic Crash[J].Journal of Safety Research,2008,39(1),65-72.
[4]侯树展, 孙小端, 贺玉龙,等. 高速公路交通事故严重程度与交通流特征的关系研究[J].中国安全科学学报,2011,21(9):106-112.
[5]Delen D,Sharda R,Bessonov M. Identifying Significant Predictors of Injury Severity in Traffic Accidents Using a Series of Artificial Neural Networks[J].Accident Analysis & Prevention,2006,38(3),434-444.
[6]Abdel wahab H T,Abdel-Aty M A. Development of Artificial Neural Network Models to Predict Driver Injury Severity in Traffic Accidents at Signalized Intersections[J].Transportation Research Record,2001,1746:6-13.
[7]Kunt M M,Aghayan I,Noii N. Prediction for Traffic Accident Severity:Comparing the Artificial Neural Network,Genetic Algorithm,Combined Genetic Algorithm and Pattern Search Methods[J].Transport,2011,26(4),353-366.
[8]Kawashima M.Artificial Neural Network Backpropagation Model with Three-Phase Annealing Developed for the Building Energy Predictor Shootout. ASHRAE Transactions, 1994, 100(2):1095-1103.
[9]薛毅,陈立萍.统计建模与R软件[M].北京:清华大学出版社,2007.
[10]Yeung D S,Cloete I,Shi D,et al. Sensitivity Analysis for Neural Networks:Natural Computing Series[M].Berlin:Springer,2009.