基于CNN-LSTM网络的道路交通事故严重程度致因分析

2024-03-04 13:35程世达王铭鑫王健宇

交通工程 2024年2期

程世达, 王铭鑫, 张蕊, 王健宇, 郄堃

(1.北京建筑大学土木与交通工程学院, 北京 100044;2.伦敦大学学院土木,环境与地理工程学院, 伦敦 WC1E6BT)

0 引言

世界卫生组织发布的《2018年全球道路安全现状报告》显示,因道路交通事故,全世界每年死亡约130万人,受伤2 000～5 000万人. 道路交通事故是造成人口非正常死亡的一大原因[1]. 而在我国的道路交通中,事故量多发,死亡率高. 随着交通强国战略的施行,降低道路交通事故的严重性是极其重要的[2].

降低道路交通事故的严重性可从事故的严重程度致因进行分析[3]. 针对事故数据对道路交通事故的严重程度进行致因分析是制定交通安全对策的基础,可高效识别出不同地区发生的交通事故的关键因素[4-5]. 这些关键因素有利于让交通管理部门针对不同影响的因素制定相应的解决对策,从而减少因交通事故引发的生命财产损失[6]. 目前的研究中,王希琳等[7-8]使用了多项Logit模型进行事故影响因素层级的排序,这种基于回归的事故分析方法能较为精准的拟合数据间的相关性. 在数据挖掘方面,孙铁轩[9]利用交通事故的大数据普遍分析事故的影响致因,有助于精准定为事故的易发生因素以及快速锁定影响事故严重程度的主要因素,但是这种方法需要较大的数据量进行支撑,因此在面对较少的事故数据时适用性较差. 对于大量的交通事故数据,传统回归的方法没有考虑到交通事故数据的时间相关性,而在熊晓夏等[10]研究中,利用时间序列的预测方法能较为精准地利用时间相关性分析事故的主要致因. 根据这些原因,在本文的研究中,引入时间序列的方法对事故数据分析进行建模. 另外考虑到事故还存在着空间分布,因此同样对数据的空间关联性进行考虑. 对此选用LSTM模型和2D CNN模型进行其特征提取,集合2种模型的优势构建出1种考虑时空相关性的CNN-LSTM时空卷积模型,利用该模型分析事故严重程度与其影响因素之间的关联性,分析事故的主要致因,以提出有针对性的意见,促进事故的管理以及道路安全性的提升.

综上所述,本文的主要贡献如下:①针对道路交通事故数据的时空特征,构建了1种基于CNN-LSTM时空卷积模型的关联性分析方法,通过对事故影响因素进行关联性分析,寻找事故的主要致因;②根据CNN-LSTM模型分析出的事故主要致因,有针对性的提出提升交通安全,降低事故发生率的管理建议,促进道路交通安全水平的提升.

1 数据描述

1.1 数据选取

本文基于美国的公开交通事故数据进行分析,数据集代号“US-Accidents”. “US-Accidents”覆盖美国49个州的车祸数据. 在此基础上选择加利福尼亚州洛杉矶市进行深入研究. 洛杉矶市位于美国加利福尼亚州西南部,是美国第2大城市,并且是美国最拥堵的城市之一,在专注于交通领域的数据分析公司 INRIX2022年公布的“世界拥堵城市榜单”中排名美国第6,全年平均拥堵程度达到了41%,尤其在早晚高峰时段和工作日,道路上的交通拥堵情况非常普遍,早高峰拥堵率达到了64%,晚高峰达到了80%. 主要高速公路和主干道经常会出现拥堵,导致车辆行驶速度缓慢,交通延误.

本文所选研究城市为美国加利福尼亚州洛杉矶市,选取2021年洛杉矶市中心区域的道路交通事故进行研究.

首先将道路交通事故的特性进行梳理,在后续研究中对比其对交通事故发生率和严重程度的影响情况,选取主要影响因素进行相关性分析和提出针对性措施. 并且选取分析区域,进行道路交通事故数据的补齐并进行数据结构化及预处理.

最后基于对数据分析和预处理,选定了包括事故发生季节、能见度、体感温度等因素作为自变量,选定了交通事故持续时间作为因变量.

1.2 交通事故影响因素概分析

以“US Accidents (2016—2021)”数据库中道路交通事故属性为依据进行交通事故影响因素划分,可分为时间因素、环境因素、位置因素.

1.2.1 时间因素

时间因素是指道路交通事故的发生时间,根据全年划分为季节,根据1 d内时间划分为白天和黑夜以及是否处于高峰小时. 不同时间因素会对事故产生一定影响.

季节会影响到昼夜长短、温度、湿度和出行习惯. 节假日与非节假日的区别会影响道路交通状况. 高峰小时期间,道路拥堵可能会增加. 白天黑夜会影响道路上的光线条件,也可能对驾驶员的注意力和反应速度产生影响.

1.2.2 空间因素

空间因素是指道路交通事故发生的位置,包括在路网中的位置和在道路横断面上的位置,同时也考虑了周边设施的情况.

在路网中的位置包括事故发生位置是否在公路上、交叉口附近、轨道交通附近,这些因素会对事故的性质和发生机理产生影响. 另一方面,事故发生地点在道路中的位置也很重要,比如事故发生的车道位置、路侧等. 该位置可提供关于事故类型和影响因素的重要信息. 此外,发生地周边的设施情况也需要考虑,如是否在交通标识附近、是否位于交通信号灯附近等,这些信息也会对事故发生时的驾驶员行为产生一定程度的影响.

1.2.3 环境因素

环境因素是指道路交通事故发生时的自然环境,包括气温、湿度、风力、能见度、体感温度、气压以及天气等外部环境. 这些因素对事故发生具有着较大的影响,特别是在极端天气环境下,如雾雨雪天气.

不良或极端天气可能导致路面湿滑,甚至结冰. 路面潮湿时,由于天气条件导致的路面摩擦系数降低. 另一方面,不良或极端天气还会影响能见度,使驾驶员视线受阻,导致交通事故的发生概率增大.

因此,时间、空间、环境因素均对交通事故具有重要的影响. 了解事故发生地的时间、空间、环境等特征因素,有助于分析事故的致因及特点,进而采取相应的交通安全措施,提出相应的管理建议,以减少事故的发生和减轻事故造成的后果.

2 数据预处理

从“US-Accidents”数据库中直接得到的2021年洛杉矶市道路交通事故数据中包含有32 768条事故记录,每条事故都含有47条事故属性,经过分析,发现数据集中存在数据异常值、自变量无效等问题,针对这些问题进行事故预处理工作.

2.1 异常数据与无效数据剔除

经过初步分析,数据集中存在着异常数据,包括时间过长“本研究规定超过24 h”或为负值,体感温度极高或是极低等异常数据,我们通过针对各项事故的属性进行异常检查,剔除异事故数据179条.

另外,因为总数据集包含了美国大部分州和城市,本研究仅针对洛杉矶市,故国家、城市、时区等自变量唯一,将此种自变量进行剔除. 经过剔除,原数据中的32 768条事故数据剩余31 742条,现有数据量满足本研究项目.

2.2 变量转换与优化

在进行特性相关性分析时,需要对自变量进行适当的优化. 其中部分属性已经以虚拟变量的形式表示,例如白天黑夜等属性,而对于一些连续的变量,如风速或是能见度,需要将其转化为分类变量. 根据以往的研究经验,体感温度对于交通事故也是会呈现一定的影响,因此可通过使用大气压、湿度、气温和风速等属性来计算体感温度,见式(1). 并将计算的体感温度作为CNN-LSTM模型的自变量. 而原始数据中的大气压、湿度、气温和风速等特性在分析中选择舍弃.

AT=1.07T+0.2e-0.65V-2.7

(1)

式中,AT为体感温度(℃);T为气温(℃);e为水汽压(hPa);V为风速(m/s);RH为相对湿度(%).

通过这样的转化和选择,可使得自变量更加符合CNN-LSTM模型的要求,并能更好地捕捉到体感温度对交通事故的影响. 这样的分析方法可提供更准确和有用的分析结果,提升后续特性分析与提取的精度.

2.3 变量选取

将事故持续时间定义为因变量Y,将事故严重程度的影响因素定义为自变量Xk,影响因素Xk共包含 13项,如表3所示.

2.3.1 因变量选取

本文选取事故的持续时间作为衡量事故严重程度的因变量,而不是采用事故中已经划分的四级事故标准为因变量,由于利用原本的四级事故标准,99.8%的事故为一般事故(具体的划分结果如表 1所示),使得因变量设为原本的四级事故标准很难分析出有效的结论.

表1 原始数据因变量取值定义

选取事故持续时间作为衡量事故持续时间作为衡量事故严重程度,事故持续时间具体指的是事故从开始时到事故现场处理结束并恢复正常通行所消耗的时间,因变量有其优点:以此作为因变量,既可反映事故本身的严重程度,同时在另一方面也可反映事故对整体交通的影响程度,以此我们对数据进行3分类,如表3所示,其分布结果显示数据量分布均匀.

表2 本研究因变量取值定义及分布情况

在表2的结果中可看到,根据事故的持续时间把事故分成3个等级,而事故数量的分配呈现出一定的平均分布,不同严重程度的事故数量差异最大不超过15%.

2.3.2 自变量选取

交通事故持续时间影响因素不同取值定义如表3所示.

表3 事故严重程度影响因素不同取值定义

3 CNN-LSTM模型构建

CNN-LSTM模型结合了CNN在空间特征提取方面的优势和LSTM在时间序列建模方面的优势,能有效地捕捉数据序列中的空间和时间相关性. 这使得它在处理时空数据时具有以下优点:①多尺度特征学习:该模型结合了CNN和LSTM的优势,能在不同时间尺度上学习特征. CNN层可学习局部和全局的空间特征,而LSTM层可学习时间序列中的短期和长期依赖关系. 这种多尺度特征学习可更全面地捕捉数据中的有用模式和结构; ②参数共享和减少过拟合:该模型中的卷积层具有参数共享的特性,这意味着同一卷积核可在整个输入空间上共享. 这种参数共享可减少模型的参数量,降低过拟合的风险,提高模型的泛化能力. 因此我们构建的CNN-LSTM模型在特征及图上的较大优势,能较好的捕捉数据之间的相关性.

为了充分捕捉道路的时空拓扑关系,并考虑城市道路平均车速的时空相关性,本文使用CNN-LSTM模型进行预测. 在城市路网中加入构建空间特征,并且根据模型训练过程能判断数据间的相关性. 确定2类输入特征:①路网中发生事故时,事故的空间分布位置以及事故的发生时间;②因变量:事故严重程度的评价指标数据;③自变量:影响事故的多项特征. 通过选择适当的批量大小,将这3种输入特征输入到CNN网络中. 经过卷积层、池化层和Relu激活函数的处理后,得到3个(batch size·s)特征矩阵a、b、c. 将这3个特征矩阵整合展平为1个(3·batch size·s)的矩阵,并输入到LSTM网络中. 接下来经过3个全连接层,输出整个路网中事故特性分析结果RMSE、MAE、R-squared、EVS、MAPE等指标,为了判断在自变量与因变量之间的影响程度强弱,选择了RMSE与R-squared来表示. 然后输出预测值与实际值进行比较,验证模型的精准度,证明特性强弱的准确性. 通过这样1个叠加的CNN-LSTM网络模型,充分考虑了数据的时空相关性,提升了模型的精准度. 为了更直观的表达模型的结构,Algorithm 1简单表述了代码的架构:

Algorithm 1: CNN-LSTM Algorithm

Input:X:输入数据集,形状为 [batch_size, num_channels, height, width]y:测试集,形状为 [batch_size, num_classes]

Output:predictions: 预测结果,形状为 [batch_size, num_classes]

1: model = Sequential()

2: for each layer_params in layer_parameters:

3: layer_type = layer_params[0]

4: layer_args = layer_params[1]

5: layer_kwargs = layer_params[2]

6: if layer_type == ‘Conv2D’ the

7: layer= Conv2D(layer_args[0], layer_args[1], activation=layer_args[2], input_shape=(num_channels, height, width))

8: else if r_type == ‘MaxPooling2D’:

9: layer = Flatten()

10: else if layer_type == ‘LSTM’ then

11: layer=LSTM(layer_args[0], activation=layer_args[1])

12: else if layer_type == ‘Dense’ then

13: layer=Dense(layer_args[0], activation=layer_args[1])

14: end if

15: model.add(layer)

16: model.compile(optimizer=optimizer, loss=loss_func, metrics=metrics)

17: predictions = model.predict(X)

4 实验结果分析与讨论

4.1 实验结果分析

在结果验证中,根据所建立的CNN-LSTM模型去对数据进行验证. 首先选取了季节、工作日、高峰小时等多项因素进行实验,分析这些特性对事故严重程度的影响程度,利用如下指标进行评价.

表4 特性分析指标评价标准

根据这2项评价指标,多项影响因素相关性结果如图1、2所示.

图1 事故严重程度与13项影响因素相关性的RMSE

图2 事故严重程度与13项影响因素相关性的R-squared

4.2 实证分析

本文中所用的CNN-LSTM模型是1种在原有CNN与LSTM模型上进行融合与改进的模型,因此本文中模型的精度还需要进一步验证. 在本章节中,引入了XGBoost这模型进行对比验证,将从XGBoost模型的结果中区对比本文CNN-LSTM模型的实验结果,进行模型精度的验证.

XGBoost是1种强大的集成学习算法,用于解决回归和分类问题. 它是基于梯度提升树的改进版本,具有高效性和准确性. XGBoost可通过特征的重要性排名来帮助识别最重要的特征. 通过训练XGBoost模型并检查特征的重要性分数,可获得哪些特征对目标变量具有更大的影响力. 这有助于缩小特征空间,减少冗余和不相关的特征,提高模型的效率和准确性.

在本章节的实验中,通过XGBoost模型来进行特征相关强弱的排序,具体实验结果如图3所示.

图3 XGBoost实验结果

图3利用XGBoost模型的实验结果,从中可看到,在事故影响因素强弱的重要性排序上,与本文所使用的CNN-LSTM模型具有较高的相似性,在能见度、高峰小时、工作日节假日、停车标线附近、白天黑夜、车站附近这六项最重要的影响因素中,呈现出相同的结果. 在其他影响程度较小的7项因素中,也产生了较高的相似性. 因此本文所使用的CNN-LSTM模型的精度可达到实际分析的需求.

4.3 结果讨论

根据模型的实验结果,可知能见度、高峰小时、工作日节假日和停车标志附近是事故发生时,其严重程度的主要致因,对此结果,为了提升城市道路中的安全性,降低事故严重程度,提出如下建议:

1)能见度较差,行车的视距会产生明显的缩短,驾驶员无法明确了解实时路况,如果驾驶员不能正确判断道路实时状况,会导致交通事故的发生率增加,交通事故的影响程度加剧. 类似的结论发现在Cai Z等[11-12]普遍认为道路的能见度与事故的发生概率与严重程度有较高的相关性,这更加印证了本文的观点. 因而,考虑到能见度主要影响行车的视距,可设置更加清晰的路面标线和交通标志,以及增强道路的照明设施,以提升能见度,从根源上降低严重事故发生的可能性.

2)高峰小时会对路段的交通流量产生较大的影响,交通流量增加时,交通拥堵和车辆密度增加意味着车辆之间的安全距离减少,驾驶员的注意力和反应时间受到影响,增加了相互之间的碰撞和事故的可能性. Liu J等[13]表明类似的观点,他们认为对交通流量与速度实施管理控制会对路段的安全性有所改善. 因而考虑到高峰小时所影响的主要因素是交通流量,通过合理的交通流量管理措施,如交通信号灯优化、车道限制、交通导向等,以平衡高峰小时的交通流量,减少交通拥堵和事故风险.

3)工作日与节假日也会对交通流量产生一定的影响,另一方面也会对驾驶人员的行为产生一定的影响. 在工作日驾驶员可能会因为通勤时间紧张,出现超速、不遵守交通规则和驾驶疲劳等不良驾驶行为. 这些行为增加了事故的发生概率. 同样的观点在Chatterjee K等[13]研究中出现过,他们认为通勤时间紧张、驾驶者压力大以及其他因素可能导致超速、不遵守交通规则和驾驶疲劳等不良驾驶行为,从而增加事故的发生概率. 因此为了提升交通安全,可改善道路和交通基础设施,提升道路的弹性承载能力,包括增加交通信号灯、改善交叉口和道路标线等,以提高道路的安全性和流畅性,减少驾驶员的通勤压力.

4)在停车标志附近,驾驶员会因为停车标线的干扰而产生注意力分散等行为,另一方面还会因为停车意图产生不适当的速度变化,这些都是对交通安全产生威胁的成因. Skinner N P等[15]研究中同样表明了这个观点,对此可加强交通标志的可见性、提供额外的警示标志以及对停车设施周边的道路进行重新规划,改善停车路径的合理性,以此来提升交通安全.

5 结论

本文针对“US Accidents”公开数据集中的美国洛杉矶市进行了事故的主要致因分析,利用CNN-LSTM模型进行了交通事故的主要致因分析,发现能见度、高峰小时、工作日节假日和停车标志附近是影响事故严重程度的主要致因,并对此提出管理建议,改善交通安全.

值得一提的是,洛杉矶市是个人口密集的地区,存在交通流量大以及驾驶行为多样的问题. 为了提升交通安全,可在道路容量和交叉口信号配时以及利用交通监控技术强化执法和交通规则的违规执行上进行管理,从而在根本上提升交通安全.

在本文的研究中,选用的CNN-LSTM模型进行事故的主要致因分析,但是该模型存在着数据的长期依赖以及特征的提取限制等问题. 在后续的研究中可利用GCN等模型结合自注意力机制,对事故严重程度的影响因素进行全局性关联性判断,提升对主要事故致因的定位的精准性.