基于随机森林—递归特征消除的道路交通事故成因分析

2018-07-12 09:37黄卫卫
电脑知识与技术 2018年14期
关键词:随机森林相关因素成因分析

黄卫卫

摘要:为研究道路交通事故的成因及其相关因素重要程度,收集了英国2015年的交通事故数据,从中选出与交通事故严重程度相关的15个因素。利用随机森林-递归特征消除模型对数据严重程度进行预测,并对相关因素的重要程度排序。结果表明随机森林-递归特征消除模型比单一的随机森林模型泛化能力更好,与交通事故严重程度最相关的三个因素分别是事故中车辆数量、限速和天气条件。并针对交通事故相关因素提出道路建设的建议,为道路交通事故预防提供决策参考。

关键词:交通事故;相关因素;随机森林;递归特征选择;成因分析

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2018)14-0240-04

Abstract:In order to study the causes of road traffic accident and the importance of relevant factors, collect data of vehicle accident in Britain in 2015 and select 15 factors related to severity of traffic accident. Using random forest-recursive feature elimination model to predict the severity of the accident and prioritize the relevant factors. The results show that RF-RFE model is better than simple RF model, and the three most relevant factors to the severity of traffic accidents are the number of vehicles, the speed limit and the weather conditions. Based on these results, suggestions of road construction are put forward.

Key words:traffic accident; related factors;random forest;recursive feature elimination;cause analysis

世界卫生组织2015年道路安全全球现状报告指出,平均25秒便有1人死于车祸。[1]在我国,根据国家统计局数据,2015年我国共发生交通事故187781起,事故共导致58022人死亡,199880人受伤,共计直接财产损失103692万元。[2]随着国民经济的发展,居民消费水平不断改善,我国汽车保有量也在不断增加。然而交通事故依然是影响居民幸福的重要原因,交通事故的发生不仅会造成直接的经济损失,对于交通事故而导致人员伤亡的家庭来说,亦是极大的不幸。因此,分析交通事故产生的原因具有非常重要的意义。本文旨在从微观角度分析交通事故的相关因素,并对相关因素重要程度进行排序。

道路交通系统是由车、人、路和环境构成的系统。车包括机动车和非机动车,人又包括驾驶人、行人和乘客,路指的是道路的类型、等级、限速等,环境则包括光线条件、天气条件等。在这些因素中,人是影響道路交通安全最重要的因素,人通过控制车辆因素来影响交通安全,而道路和环境等外部因素通过影响驾驶人的判断来影响道路交通安全。

在交通事故成因分析中,多位学者利用灰色关联分析[3]-[7]、神经网络[8][9]等方法,计算宏观统计指标与交通事故死亡人数、受伤人数和直接经济损失的灰色关联度,并将灰色关联度作为影响交通事故因素的重要程度,然而作者选取的因素均为宏观统计指标,包括国内生产总值、居民消费水平、机动车保有量等等,这些因素虽然与交通事故存在一定的关系,却并不能直接影响交通事故,对道路交通建设没有很大的意义。另一类研究采用了仿真学[10]的方法,由于我国道路交通事故数据难以获取,作者用仿真软件获取道路交通实时数据,选取特征变量并对事故进行预测。徐铖铖[11]等重点研究了恶劣天气环境对高速公路交通事故的影响,作者提取了美国加州一段高速公路上的实时交通流数据、事故数据和气象数据,并利用Logistic模型对事故风险进行预测,结果表明,天气对事故风险有显著影响。也有研究采用故障树[12]-[14]的方法,分析交通事故成因,通过建立故障树模型,并对故障树模型的最小割集和结构重要度的求解,了解不利因素的最小组合与不利因素的重要程度。

Chong M M[15]等收集了美国1995-2000年的交通事故数据,分别用决策树、神经网络、支持向量机、决策树与神经网络的组合模型对事故的严重程度进行预测,发现组合模型对无伤亡类别的预测准确率较高,而决策树则在有伤亡事故预测上去得了较好的效果,该文章侧重于模型的对比,没有深入分析影响交通事故严重程度的各个因素。

为从微观角度对交通事故成因进行分析,收集了英国2015年的道路交通事故数据,研究了道路交通事故相关因素的重要程度。本文接下来的内容安排如下:

第一节介绍了数据的来源和数据清洗;

第二节利用传统的统计学方法,从单因素角度进行分析,统计路面情况、限速、天气条件等因素下各类交通事故的比例;

第三节利用随机森林-递归特征消除模型对交通事故的严重程度进行预测,并将递归特征消除的顺序作为相关因素的重要程度,对相关因素的重要程度进行排序。

1数据描述

由于我国信息化发展较晚,道路交通事故数据不易获取,公开数据均为宏观统计数据,事故现场调查数据多为交通管理部门内部资料,且涉及驾驶员隐私,所以并未对公众公开。因此本文选取英国2015年道路交通事故数据进行研究,共计140056条事故数据,由于数据量较大,故对于存在缺失数据的事故记录采取直接删除的方式进行数据清洗,删除包含缺失数据的数据项后剩余139615条事故数据。一般认为导致交通事故的原因包括四个方面:车、人、路和环境,英国道路交通事故数据包括三张表格,事故表、事故车辆表和事故伤亡人员表,其中事故表中包括事故发生时的车辆数量、伤亡人数、道路条件、环境条件等于交通事故相关的因素。本文将根据事故数据表进行分析,即重点考虑事故发生时的道路、环境因素。

猜你喜欢
随机森林相关因素成因分析
拱坝变形监测预报的随机森林模型及应用
道路桥梁结构加固措施与方法分析