柴浩男,马彬,2,3,李鹏辉,姜文龙
(1.北京信息科技大学 机电工程学院,北京 100192;2.新能源汽车北京实验室,北京 100192;3.北京电动车辆协同创新中心,北京 100192;4.北京交通大学 交通运输学院 综合交通运输大数据应用技术交通运输行业重点实验室,北京100044;5.中国人民公安大学,北京 100038)
海因里希事故法则指出,一起重大事故的发生是多种因素累积作用的结果。研究机动车与非机动车事故严重度的多因素影响,对制定针对性机动车与非机动车事故预防决策、提高道路交通安全具有重要意义。
当前,主要利用参数回归方法对机动车与非机动车事故严重度的潜在影响因素进行分析。参数回归方法主要包括广义有序[1]、二项[2]、多项[3]及混合[4]Logit模型。利用上述参数回归方法,分析探索人、车辆、道路和环境属性等因素对电动自行车骑行者伤害严重度的影响。但多数研究仅从单一维度分析事故致因和严重度,对风险因素间的相互作用研究较少。此外,上述参数回归分析依赖于严格的模型假设,且离散的分类变量无法满足参数回归模型的要求。
非参数方法在不需要样本先验假设的情况下便能有效进行分类和预测,适合处理涉及交通事故数据中多离散变量的问题[5],已被广泛用于确定与事故严重度相关的因素。而机动车与非机动车碰撞事故数据多为离散的分类变量,利用数据挖掘方法,可将机动车与非机动车死亡事故多因素影响的提取视为一个分类问题。在众多非参数分类模型中,C5.0决策树模型能够总结数据中的规律进行数据分类和预测,对事故严重度及其影响因素进行分析,且面对多分类输入变量和数据缺失时表现稳健[6-7]。2014年,孙轶轩等[7]最先建立了C5.0决策树模型,通过决策规则集揭示了影响事故严重度分类的因素,获得了满意的效果;Xu等[8]研究表明死亡事故是多因素相互作用的结果。而非参数决策树模型具有提取决策规则识别死亡事故促成因素集合的典型优势,有利于分析机动车与非机动车死亡事故多因素影响。然而,以往的研究在构建C5.0决策树时缺少对各因素间及其与事故严重度的关联程度进行分析,由于掺杂对事故严重度无显著性影响的因素会导致错误的分类结果,需在构建决策树前对各因素间及其对与事故严重度的关联程度进行分析。列联分析能够分析多个变量在不同取值下的分布,进而获得变量间的相互影响和关系特征,剔除与事故严重度无显著性关联的因素,避免错误分类。
本文采集了某市1 304起机动车与非机动车碰撞事故数据,在使用列联分析方法对事故严重度与事故因素进行显著性分析的基础上,建立决策树C5.0模型对所提取的显著性因素进行关联性分析,通过提取决策规则获得机动车与非机动车死亡事故多因素影响,为制定交通安全改进政策以预防机动车与非机动车事故提供参考和理论依据。
列联分析是分析变量间关联程度的重要方法,用于分析多个变量不同取值下的分布,进而获得变量间的相互影响和关系特征,因此选用列联分析来研究机动车与非机动车事故严重度影响因素的显著性特征。其中,使用卡方检验(χ2)来确定潜在因素与事故严重度的显著性关联[9]。
(1)
本文采用优势比θ说明每个变量中各因素发生死亡事故的相对风险水平[10]。
(2)
决策树是一个包含根节点、叶节点和中间节点的树状结构(包括二叉树和多叉树),采用自顶向下的生长过程对内部节点进行相关属性比较,进而确定对应的分支并在叶节点得到相关结论[7,11],决策树结构如图1所示。
图1 决策树结构
由于事故数据的输入变量多为分类变量和非二元变量,同时考虑到由于二叉树结构导致的信息损失,且面对多分类输入变量和数据缺失时C5.0模型表现稳健,因而选择C5.0多叉树算法进行事故严重度分析。C5.0多叉树算法以信息增益率的分支准则为标准进行最佳分组变量和分割点的划分。当将事故数据集视为具有n个属性X的训练样本集U[12],此时,训练集U的信息熵可表示为
(3)
式中:q(ci,U)为属于ci(i=1,2,…,N)类的样本数;|U|为样本总数;q(ci,U)/|U|为当前样本集合U中第i类样本(i=1,2,…,N)所占的比例。E(U)的结果越小,说明事故数据的子集划分程度越好。
根据属性X分割训练集U,分割后的类别条件熵为
(4)
式中:|Uj|为属性X中第j个值(j=1,2,…,n)的样本数;E(Uj)为Uj的信息熵。
根据具有最大信息增益的属性来划分每个子集。特征X的信息增益为
G(X)=E(U)-EX(U)
(5)
为自动避免因大量分类而导致的信息熵下降过快,引入信息值I,并对信息增益的计算方法进行修正,进而提高决策树模型的准确性。信息值定义为:
(6)
因此,C5.0算法使用信息增益率代替原有的信息增益值,为
(7)
在获得决策树分类模型后,利用分类器评价指标对C5.0决策树模型分类结果的有效性进行评估。分类器评价指标主要包括准确度、精度、召回率和F1[13]。
准确度A是指分类模型的所有正确结果(即识别出死亡事故与非死亡事故样本)占总观测值的比例。
(8)
式中:nTP为非死亡事故识别为非死亡事故;nTN为死亡事故识别为死亡事故;nFP为死亡事故识别为非死亡事故;nFN为非死亡事故识别为死亡事故。
精度P为模型预测在所有正结果中(即识别非死亡事故样本)预测对的比例。
(9)
召回率R为模型预测在所有结果中真实值为正的比例,即非死亡事故样本的识别率。
(10)
在上述3个指标的基础上,引入F1,最后,对精度和召回率的结果进行综合处理,对模型准确性进行评价,评价指标为
(11)
本文采集了某市1 304条真实机动车与非机动车碰撞事故数据,删除了驾驶员的姓名、身份证号码和地址以及相关乘员的全部信息,对人员、车辆、道路和环境等基本信息进行了编码,分析事故严重度影响因素分类。
本文将事故严重度分为两组:非死亡事故(财产损失和伤人事故)和死亡事故,分别占总事故量的73.5%和26.5%。此外,本文将机动车驾驶员因素、非机动车骑行者因素、车辆因素、道路因素和环境因素5个类别共14个变量作为交通事故自变量,事故严重度作为因变量,具体变量分类如表1所示。其中,机动车驾驶员和非机动车骑行者受教育程度依据其职业进行划分[14];机动车类型根据文献[15-17]分为摩托车、小微型客车、大中型客车、小微型货车和大中型货车,其他类型归于其他;机动车驾驶员年龄和驾龄、非机动车骑行者年龄和时段变量依据文献[11,15-16]进行划分。
表1 事故变量分类说明
对各因素与事故严重度的关联程度进行检验,获得各因素的显著性水平检验值,如表2所示。其中,p为显著性水平检验值,p值越小,该变量对事故严重度的影响越显著。卡方检验显示,有9个变量与事故严重度显著相关,包括机动车驾驶员性别及受教育程度、非机动车骑行者年龄及受教育程度、机动车和非机动车类型、道路类型、天气和时段;机动车驾驶员年龄及驾龄、非机动车骑行者性别、事故形态和季度对事故严重度均无显著性影响。
表2 机动车与非机动车事故严重度显著性因素卡方检验
9个显著性因素变量中的死亡事故分布情况如图2所示。从图中可看出,男性机动车驾驶员、受教育程度低的机动车驾驶员、46~65岁的非机动车骑行者、受教育程度低的非机动车骑行者、小微型客车、电动自行车、未记录道路、晴天和上午时段分别达到了死亡事故的最高占比。
图2 基于列联表的机动车与非机动车各变量死亡事故占比
根据式(2)计算了各因素在死亡事故中的相对风险水平即优势比,表3列出了优势比值大于1的变量组。
表3 机动车与非机动车死亡事故显著性因素优势比
优势比大于1,说明前一类别发生死亡事故的概率比后一类别大,且优势比值越高,类别间的相对风险水平越高。比如,男性驾驶员比女性驾驶员更容易卷入死亡事故中;受教育程度低的驾驶员比受教育程度高的驾驶员发生死亡事故的风险更高,等等。优势比的计算结果说明各类别间导致死亡事故的相对风险水平存在显著性差异。
利用列联分析法检验出上述9类因素与事故严重度显著相关后,将其输入至C5.0决策树模型中,针对事故严重程度二分类构建C5.0决策树,以探寻机动车与非机动车事故严重度的多因素影响。将1 304起事故数据按照约7∶3的比例划分为训练集(913个)和测试集(391个),依据列联表(图2)和优势比(表4)分析各因素间导致死亡事故相对风险水平的显著性差异,挑选对事故预防决策有意义的分类结果,利用混淆矩阵对分类结果进行评价,验证挑选决策树结果的合理性。最终,建立了一个深度为5、包含16个节点和9个终节点的C5.0决策树模型,如图3(a)所示。同时,将未引入列联分析方法的数据导入C5.0决策树模型作为对比,如图3(b)所示。
图3 C5.0决策树模型分类结果对比
根据图3(a)中C5.0决策树模型分类结果,事故严重度的发生主要受机动车类型、时段、非机动车类型和非机动车骑行者受教育程度的影响。生成C5.0模型的根变量是机动车类型,表明机动车类型的划分最能说明事故的严重程度。节点0根据机动车类型属性的信息增益率将摩托车、小微型客车、大中型客车和其他类型车辆引导到左边,形成节点1,并将小微型货车和大中型货车置于右边,建立节点2。以此类推,自顶向下进行分类形成图3(a)中的分类结果。对于死亡事故,机动车类型为小微型和大中型货车时发生死亡事故样本为其他车辆类型的2.8倍(节点1,19.4%;节点2,54.5%)。另外,大中型货车发生死亡事故样本为小微型货车的1.4倍(节点3,43.0%;节点8,61.2%)。在涉及小微型货车与非机动车发生碰撞的事故中,时段为下午时发生死亡事故样本为其他时段(节点4,36.0%;节点5,55.2%)的1.5倍,且非机动车骑行者受教育程度为低时发生死亡事故样本为受教育程度高的2.3倍(节点6,30.0%;节点7,68.4%)。非机动车类型为三轮车时发生死亡事故样本分别为电动自行车和自行车的1.4倍和1.8倍(节点9,63.3%;节点12,48.6%;节点15,88.9%)。在涉及大中型货车与电动自行车发生碰撞的事故中,时段为凌晨、上午和下午时发生死亡事故样本为夜间的2.1倍(节点10,70.8%;节点11,33.3%)。在涉及大中型货车与自行车发生碰撞的事故中,自行车骑行者的受教育程度为低时发生死亡事故样本为受教育程度高的1.7倍(节点13,38.1%;节点14,64.3%)。
总结上述结果可知,大中型货车、三轮车、受教育程度低的非机动车骑行者、时段为下午发生的小微型货车与非机动车碰撞和时段为凌晨、上午和下午发生的大中型货车与电动自行车碰撞造成死亡事故的概率更高。
对比图3(b)所示,节点12根据时段分为节点13和节点14,表明时段为凌晨时发生死亡事故概率高于其他时段。节点3、节点12和节点15依据事故形态进行划分,而根据表3中事故形态对事故严重度无显著性影响,且依据事故形态继续划分的叶节点结果(节点13和节点14)与列联分析中的结果(图2和表4),即上午和下午时段发生死亡事故的优势比均高于凌晨的结果不一致,对比图3(a)的节点10和11分类的结果与表4中的时段优势比结果一致,即相较于夜间时段,凌晨、上午和下午更容易发生死亡事故,说明在构建决策树时掺杂对事故严重度无显著性影响的因素会导致错误分类结果,需在构建决策树前对各因素间与事故严重度的关联程度进行分析,从而证明了引入列联分析的必要性。
引入列联分析构建的C5.0决策树模型的评价指标,如表4所示。
表4 引入列联分析的数据集模型评价指标 %
从表4可以看出,引入列联分析构建的C5.0决策树模型能很好地拟合事故严重度与上述因素的关联准确性,从而验证了利用列联分析结果挑选决策树结果的合理性。
选择引入列联分析后的决策树结果,通过提取模型的分类结果,得到基于C5.0模型的变量重要性排序,如图4所示,由图可知机动车类型是事故严重度发生的决定性因素,与表3和图3的结论一致。该结果也与文献[16-17]的结果是一致的。
图4 C5.0预测变量重要性
上述分类结果阐述了车辆因素、非机动车骑行者因素和环境因素均会导致死亡事故的发生,但死亡事故是多因素共同作用而不是单一因素的结果[18]。通过提取C5.0模型中的决策规则获得4种多因素叠加的死亡事故诱发路径,如表5所示:①规则1表明,大中型货车与三轮车发生死亡事故的可能性很大;②规则2表明,大中型货车与受教育程度低的自行车骑行者发生的碰撞增加了死亡事故的风险;③规则3表明,在凌晨、上午或下午时,大中型货车与电动自行车发生的碰撞与死亡事故高度相关;④规则4表明,在下午时段中,小微型货车与受教育程度低的非机动车骑行者发生死亡事故的概率为68.4%。其中,规则3包含的事故样本数最多,共72起,概率为70.8%。
表5 机动车与非机动车死亡事故多因素叠加
在这4条路径中,货车由于其制动性能不佳及盲区大等特点,更容易使碰撞的骑行者死亡[19]。同时,三轮车的灵活性较差,电动自行车的速度较快且行车稳定性较差,进一步增加死亡事故的风险;另外,由于事故认知与教育水平为正相关[20],受教育程度低的骑行者安全意识较弱,更容易导致死亡事故;在凌晨时段,存在光照条件差、驾驶员易疲劳的情况,增加了死亡事故的风险,而在上午或下午时段存在早晚高峰,车流量较大,导致死亡事故的风险增加。
综上,导致机动车与非机动车事故严重度的决定性因素为机动车类型,而非机动车骑行者受教育程度、机动车与非机动车类型和时段是死亡事故的重要影响因素。另外,针对规则3发生的事故应作为重点事故防范情境,合理进行车种限行管理及增设机非隔离栏。同时,需要对受教育程度低的人群和货车驾驶员进行系统的安全教育培训,提高交通参与者的安全意识,并要求骑行者积极佩戴头盔。同时,加强对死亡事故多发的时段进行监管及合理的错峰出行。
本文采集了某市1 304起真实机动车与非机动车碰撞事故数据,用于分析事故严重度的多因素影响。采用列联分析方法对事故严重度相关因素进行了显著性分析,发现9类因素与事故严重度相关,包括机动车驾驶员性别及受教育程度、非机动车骑行者年龄及受教育程度、机动车和非机动车类型、道路类型、天气和时段。在此基础上,通过建立C5.0决策树模型对所提取的显著性因素进行关联性分析,根据混淆矩阵对分类结果进行评价并与未引入列联分析方法的分类结果进行对比。最终,通过提取决策规则获得机动车与非机动车死亡事故的多因素影响诱发路径。模型分类结果的对比表明构建决策树时掺杂与事故严重度无显著性影响的因素会导致错误的分类结果,证明了引入列联分析的必要性。从C5.0决策树模型的决策规则中获得了4条死亡事故的诱发路径,其中机动车类型为影响事故严重度的关键因素,而非机动车骑行者受教育程度、机动车与非机动车类型和时段因素、骑行者因素、车辆因素和环境因素是死亡事故多因素影响的结果。在时段为凌晨、上午或下午时段、大中型货车、电动自行车的多因素叠加下,造成死亡事故的样本最多,共72起,概率为70.8%,应作为重点事故防范情境。研究结果证明了机动车与非机动车死亡事故是由多种因素叠加造成的,因此预防死亡事故的方法之一是避免风险因素的聚集。本文有助于针对非机动车骑行者进行安全教育和机动车与非机动车事故预防。