基于数据挖掘的交通安全影响因素研究

2022-11-23 11:35魏思远刘佳李蓓蓓
关键词:交通事故湿度关联

魏思远,刘佳,李蓓蓓

(1.北京信息科技大学 自动化学院,北京 100192;2.32381部队,北京100072)

0 引言

数据挖掘是一种重要的信息处理技术,是从大量的实际应用数据中提取隐含在其中的有用信息和知识的过程,其主要通过对数据进行抽取、转换、分析和模型化处理等,来提取辅助预测或决策的规律。常用的数据挖掘方法包括分类、聚类、关联分析和异常检测等。应用数据挖掘技术对交通事故数据进行分析处理,对道路交通中发生事故的原因进行评价和预测,可为交通部门制定相应的预防性政策,优化交通系统提供有用的指导。

先验(Apriori)算法是经典的关联分析方法,在交通事故挖掘中应用较多。Apriori算法利用支持度和置信度指标来分辨数据中存在的规则:通过设定最小支持度,获得支持度大于最小支持度的集合——频繁项集;通过设置最小置信度,得到置信度大于最小置信度的关联规则,即强关联规则。李佳敏等[1]基于保险公司提供的交通事故数据,通过Apriori算法分析了驾龄、时间段以及月份与事故发生的关联性。李妙梅等[2]基于Apriori算法探讨了电动自行车危险驾驶行为的影响因素。杭福兵[3]采用Apriori算法对公交车交通事故数据进行了分析。牛毅等[4]以高速公路货车交通事故数据为样本,用Apriori算法和可视化技术挖掘了事故影响因素间的关联关系。但是Apriori算法挖掘效果受最小支持度和最小置信度参数设置影响较大,并且在大数据集上执行效率较低。

模型化方法通过建立数学模型分析事故特征及其主要影响因素。金雪纯子[5]基于特大交通事故数据集,分析特大交通事故的分布特征,构建随机参数评定模型(logit model)以揭示特大交通事故严重程度的关键影响因素。毛应萍等[6]提出了基于事故严重程度的地理信息系统(geographic information systems,GIS)事故多发点段动态分析模型。罗圣西[7]利用逻辑回归和随机森林算法建立了基于空间环境特征的事故严重程度预测模型,用以识别影响事故严重程度的主要特征。Feng等[8]用时间序列和深度学习模型对英国交通事故数据进行分析和预测。Jiang等[9]应用云计算技术和物联网技术构建模型进行事故数据分析。这一类方法的分析效果受模型特性影响,一般选择代表性因素进行建模,无法考虑更多更全面的影响因素。

不同于只基于关联分析算法的研究和构建模型的方法,本文融合运用统计、分类、关联分析算法,对交通事故数据进行挖掘和分析,以寻找对交通事故严重程度有重要影响的因素。通过多种算法融合和互相验证的方式,避免了单一方法的局限性,提高了获取信息的全面性和可靠性。

1 数据挖掘系统流程

交通事故数据挖掘系统流程如图1所示。对预处理后的数据进行汇总统计,并应用分类、关联分析算法进行挖掘分析。本文基于开源数据挖掘软件Weka进行实验。

图1 数据挖掘系统流程

首先进行数据的预处理,剔除无关属性并对数值属性进行离散化。

其次进行汇总统计和可视化,以发现数据的规律性,从而决定后续的挖掘策略。

再次,应用决策树算法C4.5、支持向量机(support vector machines,SVM)算法和贝叶斯(Bayes)算法对交通事故数据进行分类,通过不同因素对分类准确率的影响程度筛选出交通事故的重要影响因素。C4.5算法是一种经典的决策树算法,用信息增益率来选择属性。由于决策树算法具有可解释性,本文选用该算法进行分类挖掘。支持向量机是一种具有强大的正则化能力的判别分类模型,具有统计学理论基础,可以很好地应用于高维数据。贝叶斯分类算法是统计学中的一种分类方法,利用概率统计知识进行分类。该算法能运用到大型数据中,而且方法简单,分类准确率高、速度快,对噪声鲁棒。本文选用支持向量机和贝叶斯这两种算法进行分类,目的是与决策树算法结果进行对比,以验证分类结果的有效性。

通过分类可得到影响事故严重程度的因素。这些因素之间,以及与其他因素之间存在哪些规律性,可以通过关联分析来获得。本文应用Apriori算法进行关联分析,利用支持度和置信度指标来获取数据中存在的规律。

2 数据预处理

交通事故数据指与交通事故有关的驾驶员、车辆、道路和环境信息数据,具体包括事故发生时间、地点、事故车辆型号、载客数量、乘客伤亡情况、驾驶员状态和行为,以及事故发生时的天气等环境信息。

在这些信息中,驾驶员状态和行为、车辆状况、道路周边情况,以及天气环境都是事故发生的潜在原因。具体来说,驾驶员的状态和行为包括是否存在酒驾、疲劳驾驶、未系好安全带、操作失误等不当行为;车辆原因指车辆是否发生故障;道路周边情况指事故发生时周边车辆和行人情况、道路基础设施和交通条件;天气环境包含天气状况、温度、湿度、风速、气压等环境信息。

本文基于kaggle网站[10]的美国2016-2021年车辆事故数据集[11-12]对影响交通事故严重程度的因素进行研究。该数据集约有280万条事故记录,是由美国执法机构和49个州的道路交通传感器在2016年2月到2021年12月间收集到的数据。每条数据都记录了事故发生时的47个现场要素,如:事故发生的时间、所在的位置、影响的道路长度、事故严重程度、附近的道路设施情况,以及天气、温度、湿度、风向、风速、气压等天气环境状况。对该事故数据集的预处理过程如下。

1)剔除了17个与本次挖掘无关的属性,如“事故编号”、“邮政编码”、“国家”、“州”、“城市”、“道路编码”、“GPS定位”、“时区”等;删除了有重复含义的3个不同标准下的时段属性。选取剩余的27个属性用于研究,如表1所示。

表1 数据属性

2)为了进行分类和关联分析,对除了“时区时间”和“天气时间戳”之外的数值属性进行了离散化处理。

3 交通事故影响因素挖掘

3.1 汇总统计

针对预处理后的数据,首先进行汇总统计,以发现数据的规律性,获取交通安全影响因素,并为后续的挖掘策略奠定基础。具体实验过程如下。

1)首先对美国交通事故数据集[11-12]中2016-2021年数据进行随机抽样,共抽取约6 300条数据。

2)对温度、湿度、风速等数值属性计算最大值、最小值、均值、方差等统计量;对天气状况、风向属性计算不同取值所占的比例,找到占比前三的属性值;对严重程度属性及所有二元属性统计不同取值的比例。

3)基于统计量计算及可视化结果来分析数据分布的规律性,挖掘事故影响因素。

4)通过不同属性之间的线性相关性的可视化,发现属性之间的相关关系,后续挖掘时可去除相关属性。

图2~4分别为2016-2021年温度、湿度、风速几种数值属性的抽样数据分布情况。

图2 温度分布

图3 湿度分布

图4 风速分布

由图2可知,温度在较适宜的6~26.7 ℃范围内时发生的事故数量较多,而较低和较高温度区间的事故数量较少。由图3可知,随着湿度的增加事故的数量也增加。由图4可知,风速较小时事故数量较多。

表2是2016年和2021年天气状况排名前三的取值占比情况,图5、6显示了天气状况的具体分布。

表2 2016、2021年天气状况占比排名情况

图5 2016年抽样集天气状况分布

图6 2021年抽样集天气状况分布

由表2和图5、6可知,两组抽样数据里,排在前三位的天气都是晴、多云和阴,并且都是晴朗天气占比最大,发生事故数量较多,而一些极端天气,如大雨、大雪、雾等发生事故数量占比非常小。

分析以上统计规律出现的原因:在气温适宜、风速不大、无雨雪、无雾的天气下,交通出行量较大,因此发生事故的数量也较多;由于湿度的增加能够增加车灯、制动系统、地盘的故障率,因此湿度越大发生事故的数量越多。

表3统计了2016年数据中“严重程度”和“时段”不同取值的比例。可以看出,较轻程度事故(等级2)所占比例最大,白天发生事故的比例高于夜晚。

表3 严重程度、时段取值占比

对表1中9个数值属性间的相关性进行判定。任意选择两个属性,分别以两个属性的取值作为数据点的横、纵坐标绘制散点图,根据图上数据点的分布来判定两个属性的相关性。通过对所有属性组合的散点图进行观察,发现属性“温度”和“风寒温度”有较强的正相关性。图7显示了 “温度”和“风寒温度”的正相关性关系(数据点大体分布在斜率为正的一条直线上),因此可选择去除“风寒温度”属性后再进行挖掘。

图7 “温度”和“风寒温度”的相关性

3.2 基于分类算法的数据挖掘

为了进一步找出与事故严重程度关系密切的因素,对抽样事故数据集应用决策树C4.5算法、SVM算法和Bayes算法,基于10折交叉验证进行分类挖掘,具体实验过程如下。

1)选择描述交通事故严重性的属性“严重程度”作为类别属性,选择表1中的其余属性作为特征属性,进行分类,验证属性集合和事故严重程度之间的关联性。用C4.5算法分类,正确率为85.1%;用SVM算法分类,正确率为84.7%;用贝叶斯算法进行分类,正确率为81.9%。

2)去掉某特征属性,重新进行分类,看分类正确率的变化,以验证该属性对事故严重程度的影响。例如,去掉与“温度”属性有正相关性的“风寒温度”属性,重新进行分类,3种分类算法平均正确率下降了约0.1%。验证了“风寒温度”属性对交通事故等级分类有较小的影响,原因在于其与“温度”属性的相关性。而去掉“湿度”属性,3种算法平均分类正确率下降了约0.5%,可见“湿度”属性与事故严重程度相关性较强。

3)测试所有特征属性对“严重程度”分类的影响,得到与事故严重程度相关性较强的属性为天气状况、温度、湿度、风速、可见度、时段、是否交叉路口。但分类挖掘算法存在的问题是,去除冗余属性后,事故影响因素挖掘结果可能不全面,因此后续的关联分析分两种情况进行:一是保留大部分属性(只去除“风寒温度”);二是只保留重要属性组。

比较不同分类算法的分类效果,发现:决策树算法对属性的变化不太敏感,原因是该算法对冗余属性具有鲁棒性[13];在本实验中SVM算法运行速度最慢,Bayes算法对属性的变化更敏感。

3.3 基于Apriori算法的关联分析

由3.1~3.2节分析结果可知:天气环境因素、时段、是否交叉路口是事故严重程度的重要影响因素。这些因素之间存在哪些相关性,可以通过关联分析来获得。

本文应用Apriori算法进行关联分析,具体步骤如下:

1)针对原始的属性组去掉相关属性,即表1属性组去掉“风寒温度”,进行关联分析;

2)对3.2节分类算法筛选出的重要属性,即天气状况、温度、湿度、风速、可见度、时段、是否交叉路口,进行关联分析。

得到如下关联规则:

1)可见度为15.3~20.1 km,非交叉路口→事故严重程度为轻;

2)白天,晴天/多云,可见度为15.3~20.1 km→事故严重程度为轻;

3)事故严重程度为重→非交叉路口。

基于以上关联规则,可知:白天,可见度较好的非交叉口路段,容易发生交通事故,但一般较轻,其原因可能是在路况较好情况下,司机容易懈怠;较严重的交通事故更易发生在非交叉路口路段,原因可能是在非路口路段,司机车速较快。

3.4 信息汇总

综合第3.1~3.3节分析过程,汇总出以下信息,并尝试分析了原因:

1)适宜天气下交通事故发生数量较多,其原因是交通出行量较大;

2)湿度越大发生事故的数量越多,其原因可能是湿度增加了汽车部件的故障率;

3)温度、气压、湿度、风速、天气状况、可见度等环境因素、时段(白天/夜晚)、是否交叉路口等信息与事故严重程度相关性较强;

4)白天,晴天/多云,可见度较好的非交叉口路段,容易发生事故,但一般较轻,其原因可能是路况较好时,司机容易大意;

5)较严重的交通事故一般也发生在非交叉路口。其原因可能是司机在非路口路段驾驶时,车速往往较快。

为了避免交通事故的发生,给出以下出行建议:在出行前应检查车辆状况,尽量选择湿度较小的天气出行;在路况较好的情况下,司机也不可以放松警惕;控制好车速,是避免严重交通事故的关键。

3 结束语

本文基于美国2016-2021年交通事故数据集,运用C4.5、SVM、Bayes、Apriori等算法,研究了交通事故各相关因素的关系,获得了影响交通事故严重程度的主要因素,避免了单一方法的局限,提高了获取信息的全面性和可靠性。通过数据挖掘给出了结论:在天气状况较好、视线较清晰的非路口路段,更容易发生事故;湿度会增大事故发生的可能性;严重的交通事故更易发生在非路口路段。最后基于挖掘结果给出了交通出行注意事项。本研究可以作为交通管理政策制定的信息参考。

猜你喜欢
交通事故湿度关联
路基上CRTSⅡ型板式无砟轨道湿度场分析
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
不同寻常的交通事故
预防交通事故
“一带一路”递进,关联民生更紧
基于湿度控制的室内空气净化器高压电源设计
奇趣搭配
智趣
一起高速交通事故院前急救工作实践与探讨
跟踪导练(二)(2)