冯战雨, 张健,3, 姜涵
(1.东南大学江苏省城市智能交通重点实验室, 江苏 南京 211189; 2.东南大学交通学院, 江苏 南京 211189;3.西藏大学工学院, 西藏 拉萨 850000)
近年来,随着共享经济的快速发展以及中国“双碳”政策的施行,作为一类特殊交通群体的电动自行车因其突出的经济性和便利性已日趋大众化[1]。但在其给交通参与者带来出行便利的同时,也增加了与机动车发生交通冲突乃至事故的概率,对道路交通安全造成了严重威胁。据中国统计年鉴公布的数据显示,中国2020年的电动自行车完成产量2966.1万辆,同比增长29.7%。发生涉及电动车的造成人员伤亡的交通事故19.88万起,致1.99万人死亡[2]。在这些非机动车事故中,由骑行分心行为直接或间接导致的事故占了相当一部分比重。以杭州市为例,在近3年来杭州辖区的电动自行车交通事故中近40%和骑行分心行为有关[3]。骑行分心行为,即骑行人员在骑行过程因为各种原因而产生的分心操作进而影响骑行的行为[4]。如在骑行过程中使用手机,不仅会阻碍骑行者对动态道路环境的信息收集,还会造成骑行者的反应能力及操控稳定性的下降,进而造成事故风险的增加[5]。骑行分心行为在现阶段道路交通系统中已经较为普遍,但总结现阶段国内外研究,针对骑行分心行为这一对象的研究仍然较少[6]。因此在当前背景下,亟需关注电动自行车骑行者在分心骑行状态下的安全现状与风险成因。
现有围绕电动自行车分心事故的研究主要包括电动自行车事故特性与分心行为分析两方面。在电动自行车事故特性方面,许霖欢等[7]以杭州市电动自行车事故数据为基础,从交通事故时间、空间等方面进行了统计分析,得到了影响电动自行车交通事故的主要因素,并提出了针对性对策建议;于昊等[8]总结了近年来全国城市道路中不同类型电动自行车的交通事故特征的区别;马景峰等[9]基于既有事故数据,选取时空、环境、车型等潜在影响因素,采用多项Logistic模型、有序Logistic模型、广义有序Logistic模型,量化分析了各因素对事故严重性影响的显著性与差异性;李英帅等[10]基于某市的电动自行车交通事故历史数据,通过描述性统计分析,利用随机森林模型对电动自行车骑行者受伤严重程度进行预测,得到了各潜在因素对电动自行车事故严重性的影响程度。在分心行为分析方面,Stelling-Konczak等[11]指出在电动自行车骑行过程中听音乐或打电话,均会影响电动自行车骑行人对周围环境的感知能力。Zheng等[12]通过对电动自行车骑行者进行问卷调查,分析了在骑行过程中使用手机对骑行人控制水平的影响;张存保等[13]针对信号交叉口处行人使用手机对其安全产生不利影响的问题,以实测数据为基础,对行人使用与不使用手机情况下的过街行为与安全性差异进行统计分析;Ren等[14]用易受伤害的道路使用者(行人、自行车手和摩托车手)作为研究对象,采用案例交叉研究设计,通过对在道路参与者进行抽样调查,发现在走路或在骑行过程中,分心行为会增加道路伤害的风险。
总结以往学者的研究,从事故数据获取的角度来看,由于中国交通事故具体信息难以获取,现阶段针对电动自行车分心事故的研究大多基于问卷调查或历史事故信息所得的原始数据,获得的数据虽可以较宏观地反映出骑行过程中的风险概率及交通特性,但难以囊括原始事故过程的丰富信息,尤其是事故所涉及到的分心行为、风险行为及其他潜在因素。从事故数据的分析方法来看,Logistic回归及其衍生模型仍为现阶段针对电动自行车事故风险致因分析的主流方法,但模型本身对事故数据以及变量自身的特性要求较苛刻,在电动自行车事故数据分析过程中较难完全契合。
针对上述研究中存在的不足,本文提出基于视频数据的电动自行车分心事故风险行为研究。通过搜集现阶段网络平台公布的电动自行车视频数据,并全面提取事故特征信息形成原始数据集,建立随机森林模型、逻辑回归模型、决策树模型和支持向量机模型进行拟合度对比分析。以最佳模型量化分析各类事故潜在因素对事故严重程度影响的显著性,并依据数据分析结果对道路交通系统中的不同群体提出相应建议。
本文涉及到的事故数据来源于各城市交管部门在网络上发布的近五年的电动自行车事故视频。通过在微博、bilibili等网络平台,输入“电动自行车分心”、“骑行分心”“非机动车分心事故”等类似关键词,对交管部门发布的事故主体为电动自行车的事故报道视频进行下载,相关事故视频截图如图1所示。每起事故均为相互独立事件,通过数据编码形成事故数据集。
图1 事故视频截图Fig.1 Screenshot of the accident video
对上阶段搜集到事故视频进行数据的预处理,遍历所收集的事故视频进行筛选,考虑到可能存在事故视频的重复问题,去除相同的事故视频,并删除发生在2017年前的事故视频,最终得到2017~2022年的电动自行车事故案例共计468例。
《道路交通管理信息采集规范》[15]将交通事故严重程度分为4个层次:死亡事故、重伤事故、轻伤事故和财产损失事故。依据此标准对事故信息进行提取可得到财产损失、轻伤、重伤、死亡事故数分别为57,169,148和94起,其占比分别为12.1%,36.1%,31.6%和20.2%。考虑到现阶段国内外对事故伤害程度较多采用2分类方法[16-17],即将事故结果归类为“未发生”与“发生”。本文对事故严重程度等级进行重新划分,将财产损失事故与轻伤事故归为轻微事故;重伤和死亡事故归为严重事故。
电动自行车分心事故信息具有多维度复杂性,本文从时间、空间、事故双方、事故形态等共6个方面选取了12个因素进行分析,各因素描述性计数统计结果如表1所示。
表1 事故因素描述性统计结果Tab.1 Descriptive statistical results of accident factors
为了准确分析出从各类事故潜在因素对电动自行车事故严重度的影响机理,需构建合理事故因素模型对所提取数据进行分析。选取事故发生时间、事故空间位置、分心行为、风险行为、事故双方、事故形态、保护设备为自变量,以事故严重程度作为因变量,建立事故分析模型。选取随机森林模型、Lo-gistic回归模型、决策树模型和支持向量机模型进行事故因素分析。模型训练目标为事故等级,对于模型训练与测试,选取75%的数据进行训练,25%数据进行测试,寻找模型的最优参数。使用正确预测的概率Precision作为衡量分析准确度的评价指标:
式中TP(True Positive)指正确预测到的正例的数量,FP(False Positive)指把负例预测成正例的数量。
随机森林[18]是一个包含多棵决策树的分类模型,不需要测算就能够处理二分特征、分类特征、数值特征的数据,并且提供一个很好的特征重要度的选择指标。随机森林分类模型的主要参数包括内部节点再划分所需最小样本数min_samples_split,最大深度max_depth和树的个数n_estimators。
Logistic回归模型是一种广义线性回归模型,该模型假设因变量服从伯努利分布,在线性回归基础上利用Sigmoid映射函数来实现。其主要用于分类。它在线性回归的基础上加入了Sigmoid函数,将线性回归的结果输入至Sigmoid函数中,通过Sigmoid函数引入了非线性因素,可以适用于分类问题。Logistic回归模型的重要参数主要包括penalty和C,分别代表正则化强度的方式和系数。
决策树模型是一种常见的分类预测模型,该模型的核心思想是基于树结构对数据进行划分,它包含一个根节点、若干个内部节点和叶子节点。其中根节点包含全部的样本。每个内部节点代表了一个属性测试,每个子节点对应于一个决策结果,模型的重要参数主要包括内部节点再划分所需最小样本数min_samples_split,最大深度max_depth和特征选取方法criterion。
支持向量机(Support Vector Machine)[19]是一种二类分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,该模型的重要参数主要包括惩罚系数C,核函数 kernel和核函数参数。
在Python3.7环境下训练模型所得到的最优参数调整结果如表2所示。
表2 模型最优参数调整结果Tab.2 Model optimal parameter adjustment results
四种模型的ROC曲线依据在测试集中的分析精准度结果分别如图2和表3所示。随机森林、Lo-gistic回归、决策树和支持向量机模型的AUC指标均保持在80%以上,表明上述模型均能保持良好的分析效果。其中随机森林模型的AUC值为0.937,明显高于另外三类模型,并且在模型分析精准度上,随机森林模型的准确率为88.0%,同样高于另外三类模型。故本文最终选定随机森林模型对事故数据进行分析。
表3 模型预测正确率结果Tab.3 Model prediction accuracy results
图2 ROC曲线对比图Fig.2 Comparison of ROC curves
考虑到初步提取的事故数据集包含的特征维度较多,有必要在诸多因素中选择对事故结果影响较大的特征,以便分析对事故进行进一步的分析。基尼系数作为随机森林的核心指标之一,可以计算出特征重要程度。将变量按照模型输出重要性排名进行降序排序,如图3所示,选取预测重要度占比超过5%的变量进行分析。
图3 各变量预测重要程度Fig.3 Predicted importance of each variable
由随机森林输出模型的各变量预测重要程度图可以看出:分心行为对于事故等级的影响程度占比为18.4%,显著高于其他预测变量。逆向行驶、闯红灯、并排骑行、占用机动车道四类风险行为对事故等级的影响程度占比分别为12.7%,11.3%,7.8%和7.5%,均超过了5%。事故涉及双方、事故形态、事故位置三类变量对于事故等级的影响程度占比分别为10.4%,8.0%和6.1%,同样超过5%。
考虑到各个因素之间可能存在关联关系,并且结合原始数据类型均为分类型变量,因此考虑分析事故的二维频率关系,进而得出变量之间关联程度的强弱。事故频率次数的二维热力图如图4所示,由图4可以看出:
图4 事故频率次数热力图Fig.4 Thermal diagram of accident frequency
当电动自行车使用者在骑行过程中出现占用机动车道、未戴头盔、手机分心、闯红灯或逆向行驶等危险驾驶行为时,单项因素造成事故程度严重的概率往往会相对较高。
当电动自行车使用者在骑行过程中使用手机,出现占用机动车道、未戴头盔、手机分心、闯红灯或逆向行驶这些危险驾驶行为时,造成事故严重的概率会相对较高。
当电动自行车使用者在骑行过程中出现其他分心行为时,与手机分心行为相似,当涉及到闯红灯、占用机动车道、为佩戴头盔等风险行为时,事故程度严重的概率也会相对偏高。
在电动自行车与小型机动车之间造成严重交通事故中,事故形态往往以侧面相撞较多,并且往往伴随着电动自行车使用者闯红灯或占用机动车道行驶行为。
综上所述,对于电动自行车群体来说,首先需要对其开展对应的安全教育培训,规范安全意识,减少在骑行过程出现的各种骑行分心现象。同时强调在骑行过程中应观察自身周边环境尤其道路中车辆运行状态,在此基础上减少在骑行过程中突然变道或不规律行驶,与大中型车辆并肩骑行的现象,并在骑行过程中要正确佩戴安全头盔。
对机动车驾驶员群体来说,需要强化对经验尚浅的机动车驾驶员的安全意识教育,强调在交叉口周边或未规划机动车道路段时对周边环境的观察,提前减速,避免事故的发生。尤其是大型车辆驾驶员,由于大型车辆在转向时会存在视觉盲区,往往造成事故严重程度更高。要避免与电动自行车交通群体的并肩、并排行驶的现象,以免造成同向刮擦类型的事故。
对于行政执法人员来说,需要加大道路执法力度,对电动自行车骑行者不佩戴头盔、载人骑行等风险情况进行严格执法;在道路交通流量较大的区域增添护栏及标志标线,并逐步推动构建非机动车道路网,实现机非隔离,改善电动自行车骑行者的交通环境。
本文基于2017~2022年的468起电动自行车分心事故视频,从事故的时间特性、空间特性、交通参与者特性、分心行为、风险行为及事故严重程度六个方面对所收集视频进行了事故信息的提取。采用随机森林模型、Logistic回归模型、决策树模型和支持向量机模型进行拟合度对比分析,模型拟合度结果表明使用随机森林模型量化分析各类潜在事故因素最佳。使用随机森林模型对各因素进行排序,并基于排序结果分析了变量间的潜在关联关系。结果表明,电动自行车分心事故中,影响骑行人受伤害程度最主要的5类因素分别为:分心行为、逆向行驶、闯红灯、事故双方、事故形态,存在明显关联关系的变量主要为手机分心行为、逆向行驶、占用机动车道及闯红灯等。并依据该分析结果对道路交通系统中的不同群体提出了相应建议。
未来在针对涉及电动自行车分心事故中,可以扩充研究数据规模,并且将更多与事故严重程度存在潜在联系的事故因素如天气状况、行驶速度等纳入研究范畴中,以探讨其对电动自行车交通事故的伤害程度。