胡立伟,吕一帆,赵雪亭,薛宇,张成杰,雷国庆,刘凡
(昆明理工大学,交通工程学院,昆明 650500)
近几年,随着我国西南地区基础设施建设逐步前进,山区高速公路里程不断增加,在便捷出行的同时,也诱发了更多的交通事故。相关数据表明,由于山区高速公路道路线形复杂,行驶货车较多,因此发生交通事故后对车内人员造成的事故伤害程度也更加严重。因此,对山区高速公路交通事故伤害程度(Traffic Accident Injury Degree of Mountainous Expressway,TAIDME)的影响因素进行提取分析,可以有效保障山区高速公路的行车安全。
国内外学者针对交通事故严重程度已经做了大量研究,但这些研究主要集中在城市道路或者一般的高速公路,对TAIDME 影响因素的研究并不多。Bucsuházy 等[1]研究发现,男性和女性、不同年龄段之间((18,25]岁、(25,65)岁及≥65 岁)的交通事故成因存在显著差异;Jonghak 等[2]研究发现,较大的降雨强度、较长的排水长度和较大的道路水深对事故严重程度有显著影响;戢晓峰等[3]研究发现了影响二级公路事故规模最为关键的4 个交通流参数;孙轶轩等[4]研究发现,碰撞类型、道路属性、事故致因和驾驶人类型等因素对交通事故严重程度分类的影响较大;赵玮等[5]研究发现,冰雪环境下本地驾驶员对自身驾驶能力的错误估计更易导致交通事故。这些研究可以为本文TAIDME 的影响因素分析提供理论依据。
如今,机器学习广泛运用于交通事故及其严重程度的分析与预测,但这些机器学习方法普遍有各自的局限性。房锐等[6]证明了随机森林(Random Forest,RF)模型对于交通冲突可能性的预测准确率较高;李英帅等[7]运用RF模型研究了电动自行车骑行者交通事故伤害程度影响因素的重要度排序;张轮等[8]通过仿真实验表明,朴素贝叶斯(Naive Bayes,NB)分类器适用于高速公路交通事件的检测系统;Zong等[9]研究贝叶斯网络在交通事故严重性预测方面的性能,将其与回归模型预测的拟合度对比发现,贝叶斯网络优于回归模型;张军等[10]通过AdaBoost分类器反映不同交通状态,从而判断是否危险,实现实时交通事故预测;Athanasios[11]利用RF模型和Bayes 逻辑回归结合雅典城市的实时交通和天气数据进行研究,从而制定相应的交通战略以降低事故严重程度和发生可能性;张文钧等[12]提出一种双层Bayes 模型:随机森林朴素贝叶斯(Random Forest Naive Bayes,RFNB),使用RF 模型将原始特征进行降维,从而构建具有高分类性能的NB分类模型,实验证明,RFNB模型明显优于现有的最先进的朴素贝叶斯分类模型和其他传统分类模型。
综上,目前国内外对TAIDME 的研究较少,故本文以云南省山区高速公路为例,综合事故信息、机动车驾驶人信息、道路信息及车辆信息等因素,运用随机森林朴素贝叶斯-耦合度模型(Random Forest Naive Bayes-Coupling Degree Model,RFNBCDM)鉴别各影响因素对山区高速公路机动车交通事故伤害的影响程度,并对各因素的耦合关系进行研究,改进RFNB模型无法对影响因素之间的关系进行准确刻画的缺点,本文可为相关部门在预防山区高速公路交通安全事故的决策中提供理论支持。
本文数据源自2016—2020年云南省发生的1760起山区高速公路事故数据,为研究山区高速公路交通事故伤害程度影响因素,剔除不符合本文要求以及含有缺失值数据后,保留1193 条作为研究对象。原始数据统计了事故时间、事故形态、事故参与车数、平面线形、纵断面线形、照明条件、道路表面状况等23类事故相关因素。
(1)因变量设置
参考《道路交通事故信息调查》[13]对交通事故的分类与分级,根据本文对于交通事故伤害程度的研究目的,以及山区高速公路事故数据,最终确定将轻微事故、一般事故、严重事故及特大事故共4类作为山区高速公路交通事故严重程度(Traffic Accident Severity of Mountainous Expressway,TASME)的划分,具体如表1所示。
表1 TASME划分Table 1 Classification of TASME
本文按照事故有无死亡结合受伤人数来划分TAIDME,将轻微事故和一般事故等未造成人员死亡的事故统称为非重大伤害事故,将严重事故和特大事故等造成人员死亡的事故统称为重大伤害事故,具体如表2所示。
表2 TAIDME划分Table 2 Classification of TAIDME
统计分析事故数据得到2016—2020年云南省TAIDME的分布情况,如图1所示。
图1 TAIDME分布情况Fig.1 Distribution of TAIDME
由图1可知,2016—2020年云南省山区高速公路发生交通事故中造成重大伤害事故明显高于非重大伤害事故;2016年、2017年重大伤害事故占比更高;每年2月、6月和12月发生事故时造成的伤害更为严重;重大伤害事故的时刻分布在2:00-3:00、6:00-7:00、10:00-11:00、13:00-14:00、16:00-17:00、19:00-20:00和22:00-23:00,呈现7个高峰。
(2)自变量设置
对事故发生时人、车、路、环境以及包括事故本身在内的各方面信息进行综合考量后,选取18 个因素作为初始自变量,并将其分类为事故信息、道路信息、肇事机动车辆信息及驾驶人信息这4 类,具体划分如表3所示。
表3 TAIDME的影响因素划分Table 3 Division of influencing factors of TAIDME
随机森林朴素贝叶斯-耦合度模型(RFNBCDM)的运行过程分为3 个阶段:第1 阶段为构建RF 模型对于原始特征进行特征选择,得到各特征对于TAIDME 的重要度排序,并筛除不重要的特征,以提升模型分类性能;第2阶段为在RF特征选择的基础上构建NB 模型,分析并获得对TAIDME影响较大的因素;第3 阶段为基于RFNB 构建耦合度模型,最终得到上述因素影响TAIDME的耦合关系。模型运行的具体流程如图2所示。
图2 RFNB-耦合度模型运行示意图Fig.2 Operation diagram of RFNB Model
RF 模型[14]是一种机器学习算法,是由多颗决策树组成的一种组合分类模型,多用于分类、回归以及降维,且精度较好。将RF 作为第1 层模型进行特征提取,以捕获单词组合的高层特征,在RStudio中建立RF模型,模型训练目标为事故伤害程度,为尽可能降低误差,需求出最佳分割点kw的值,即
国庆节那天,程晓去机场路中段的一家凯迪拉克专卖店看了看,立即被一辆香槟色的凯迪拉克3.6L迷住了。漂亮的售车MM极力游说道:“这辆车无论是大气的外观、卓越的动力、宽敞的空间,还是豪华的配置,都是为您这种年轻的极品男人特意打造的。”程晓被说得心花怒放,决定试驾一次——他坐进驾驶室,启动发动机,心也不禁颤抖起来,随后一踩油门,转速升到了2500,车子开始飞驰起来,过高架桥时,再次提速,转速升到3500,时速120公里,像一条铂金色的箭鱼在大海里乘风破浪……程晓浑身血脉贲张,他要不惜一切代价买下这辆车。
式中:m为数据集变量个数。
由式(1)得出kw的值为4,经实验筛选得到最佳ntree 值为620。将事故伤害程度设置为目标变量进行训练,将事故数据分为训练集与测试集,并将它们七三分,缺失值设置为na.pass,进行RF 模型构建。
假设Bi为预测特征属性Xj的类,D={(X1,B1),(X2,B2),…,(XM,BN)}为数据集合,根据贝叶斯定理,可知最高后验概率。当后验概率P(Bi|Xj)的值大于阈值λ时,则判定为重大伤害事故发生,定义为
本文使用NB 模型作为RFNB 模型的第2 层,NB算法是bayes算法中实用性较高的一种算法,具有较好的统计学习能力。1;反之为不发生,定义为0。
式中:Xj为事故特征;Bi为影响事故特征的事件;Y为重大伤害事故是否发生的判定结果。
通过归一化加权平均方法,Bi对于TAIDME的影响程度可以定义为
式中:N为影响事故特征的事件数量;Zi为Bi对于TAIDME的影响程度。
式中:n为构成一级指标的数量;m为构成二级指标的数量;wk为一级指标权重;wkl为二级指标权重;Skl为二级指标重要性系数。
利用NB 得出各因素的后验概率P(Bi|Xj),通过全概率公式确定各类二级风险指标对TAIDME的功效值Ukl,则各类指标对整个TAIDME 的有序贡献度Uk为
可求出各指标的耦合度Cm为
其中,当Cm∈[0.0,0.3]时,为低耦合;当Cm∈(0.3,0.7]时,为中耦合;当Cm∈(0.7,1.0]时,为强耦合。耦合度越高,代表耦合作用后导致TAIDME越高。
将数据集输入RF 模型,得到按模型平均基尼指数[15]降序(Mean Decrease Gini)排列的各特征变量的重要度排序;为提取重要度较高的特征变量,需对较为冗余的特征变量进行筛除,采用后向搜索方法,每次去除一个重要性最低的特征变量,最后获得一个特征变量最少、分类精度最高的特征集作为本文最终的特征指标体系,并采用10 折交叉验证进行验证以保证模型稳定性。RF特征选择结果如图3所示。最终提取出的事故伤害特征指标集为:{事故形态,纵断面线形,事故车辆数,行驶状态,路侧防护设施,车辆类型,路表面状况,中央隔离设施,事故时间段,车辆使用性质,照明条件}。
图3 RF特征选择结果Fig.3 RF feature selection results
将新的特征指标集输入NB 模型,可得各影响因素的后验概率P(Bi|Xj),并得到其对TAIDME的影响程度Zi,如表4所示。
相比于传统RF 模型(模型1)与NB 模型(模型2),本文采用的RFNB 模型(模型3)分类性能更好、准确率更高,分类性能分别提升了5.56%和14.79%,3类模型分类结果对比情况如表5所示。
表5 模型分类结果比较Table 5 Model classification results
根据表4,将18:00-次日6:00、事故车辆数2辆、追尾碰撞、下坡段、夜间无路灯照明、道路表面干燥、路侧金属防护、中央绿化带隔离、货运、大中型货车和直行匀速等11类对TAIDME影响较高的因素作为事故伤害程度耦合的对象,分为事故信息、道路信息和肇事机动车辆信息这3 类,通过耦合度模型确定各因子的指标权重及功效值,如表6所示。
表4 TAIDME各影响因素的影响程度Table 4 Influence degree of TAIDME factors
表6 TAIDME的各因素风险指标权重及功效值Table 6 Weight and efficacy value of risk indicators for TAIDME
通过上述结果,可由耦合度模型得到TAIDME致因耦合的单因素耦合、双因素耦合模型的耦合度,TAIDME 影响因子耦合拓扑分析结果如图4所示。
图4 TAIDME影响因素的单、双因素耦合拓扑分析结果Fig.4 Topological analysis results of TAIDME's influence factors were coupled by single and double factors
由图4可知,事故发生时存在追尾碰撞、18:00-次日6:00、事故车辆数2 辆、下坡段、夜间无路灯照明、货运、大中型货车和直行匀速这几类因素时,TAIDME高,当直行匀速与追尾碰撞发生耦合作用时,TAIDME最高;存在路侧金属防护、中央绿化带隔离和道路表面干燥这几类因素时,可有效降低TAIDME,当路侧金属防护与道路表面干燥发生耦合作用时,TAIDME最低。
(1)以云南省1760起山区高速公路交通事故数据为基础,构建了RFNB-CDM,对TAIDME的影响因素进行分析,模型采用RFNB模型对TAIDME进行单因素分析,并提取影响程度较大的因素,采用耦合度模型分析各因素的耦合特性,量化各因素耦合作用时对TAIDME 的影响程度。该方法可为预防山区高速公路事故、减轻事故伤害程度提供一定决策参考。
(2)RFNB分析结果表明:18:00-次日6:00、事故车辆数2辆、追尾碰撞等11类因素对TAIDME的影响较大。耦合分析结果表明:追尾碰撞、18:00-次日6:00、事故车辆数2辆、下坡段、夜间无路灯照明、货运、大中型货车和直行匀速等8 类因素存在时,事故造成的伤害程度更高;路侧金属防护、中央绿化带隔离和道路表面干燥等3类因素存在时,事故造成的伤害程度更低。