基于深度神经模糊系统的交通事故严重程度预测研究

2024-08-06 00:00:00王园园史东辉甘书灵
软件工程 2024年8期

关键词:交通事故严重程度;深度学习;可解释性

中图分类号:TP311 文献标志码:A

0 引言(Introduction)

在当今社会,交通事故频发,对人们的生命和财产构成了严重的威胁。因此,精准预测交通事故的严重程度,成为交通安全领域亟待解决的关键问题。为了应对这一挑战,本文提出了一种具备可解释性的深度神经模糊系统,旨在结合深度学习和模糊推理的优势,提高对交通事故严重程度的预测能力和模型的可解释性。

该系统深度融合注意力可解释性表格学习网络(AttentiveInterpretable Tabular Learning Network,TabNet)和自适应神经网络模糊推理系统(Adaptive Neuro Fuzzy Inference System,ANFIS),通过挖掘数据属性之间的相关性对决策的影响,以期实现对事故影响因素更精准的建模,为模型提供更准确和可解释的决策依据,从而增强决策者对模型预测的信任。

1 相关研究(Related research)

据国家统计局的数据统计,2021年全国共发生了273 098起交通事故,导致62 218人死亡。这一严峻形势凸显了预测交通事故严重程度对于应急响应人员的重要性[1]。为应对交通管理和事故预测方面的挑战,研究者使用了多种模型,包括统计学模型、机器学习模型和深度学习模型实现对交通事故严重程度的预测。

统计学模型在预测事故严重程度方面有着广泛应用,例如回归分析[2]和方差分析[3]。然而,统计学模型通常会对变量施加严格的假设,一旦违反这些假设,便可能会导致错误的结果,同时在处理非线性关系和复杂模式方面存在一定的局限性。随着机器学习技术的不断发展,研究者开始将支持向量机[4](Support Vector Machine,SVM)、决策树[5](Decision Tree,DT)、随机森林[6](Random Forest,RF)等机器学习算法应用于事故严重程度的预测。这些模型能够从大量的数据中学习复杂的模式,并且适应不同类型的变量HHJvTbSHaZBlKkz9C1vqeiLjX9zx2WZETKPuYxzZ/TI=。随着深度学习技术的发展,卷积神经网络[7](Convolutional Neural Networks,CNN)、长短时记忆网络[8](Long Short Term Memory,LSTM)和贝叶斯网络[9](Bayesian Network,BN)等深度学习模型被引入,用于捕捉更复杂的时空关系和非线性模式。深度学习模型由于具有网络深、参数多、复杂度高的特性,导致其在进行决策时缺乏可解释性。相比之下,ANFIS有助于弥补深度学习模型在可解释性方面的不足[10],能够为决策提供更清晰的可解释性依据。然而在交通事故严重程度预测领域,对于ANFIS模型的应用相对较少。

2 深度神经模糊系统的理论及构建(Theoryand construction of DNFS)

DNFS在TabNet的基础上融合了ANFIS的优势,弥补了深度学习模型在可解释性方面的不足,显著提高了DNFS对交通事故严重程度预测的准确度和可解释性。

2.1 注意力可解释性表格学习网络

TabNet是一种创新性的深度学习模型,它利用神经网络模拟树模型[11],使网络能够将注意力集中于数据中最重要的特征。TabNet的基本网络结构主要包括特征转换器和注意力转换器(图1)。

与传统的深度学习模型相比,TabNet充分利用了特征的稀疏性,通过稠密特征和稀疏特征两个分支,分别处理连续型和离散型特征。在特征处理过程中引入特征重构机制,通过学习特征之间的潜在关系,提高了模型的表达能力。

2.2 自适应神经模糊推理系统

ANFIS融合了神经网络和模糊推理的优势,因此在很多领域得到了广泛应用。ANFIS融合了模糊推理的能力,使其能够有效地处理模糊规则和不确定信息,其体系结构主要由模糊化层、规则层、归一化层、后验部分层和聚合层组成(图2)。

在模糊化层中,原始的输入数据经过模糊化处理后,由隶属度函数映射到模糊集合中,将清晰的输入值转化为不确定、模糊的值。在规则层中,每个节点对应一个模糊规则,采用逻辑运算对模糊化层传入的隶属度进行合并,生成规则激活度。在归一化层中,对规则的激活度标准化,确保在后续的加权求和中,每个规则的贡献度都是合理的。在后验部分层中,通过神经网络自适应地调整参数,以获得规则的最佳输出关系。在聚合层中,根据规则的激活度对各个规则的后验部分进行加权求和,形成最终的输出。

2.3 深度神经模糊系统的构建

为了更好地处理交通事故数据中的模糊性和不确定性问题,并确保模型的可解释性,本文采用自上而下的方法将TabNet和ANFIS融合成一个端到端的深度神经模糊系统DNFS,DNFS模型结构如图3所示。

DNFS模型结构主要包含特征转换器、特征切分、注意力转换器和模糊推理网络4个部分。

2.3.1 特征转换器

特征转换器用于学习数据中的高级表示,实现决策步的特征计算,特征转换器结构如图4所示。

2.3.3 注意力转换器

注意力转换器根据特征切分网络的输出结果,获取当前决策步的Mask矩阵,并使Mask矩阵是稀疏且不重复的,注意力转换器结构如图5所示。

3 数据选取与处理(Data selection and processing)

3.1 数据选取

本文选择的数据源自公开网站Kaggle所提供的美国交通事故数据集,该数据描述了2016—2022年美国49个州的交通事故数据。数据的收集涉及多个来源,包括美国的交通运输部门、执法部门,以及交通摄像头、路网中的交通传感器,涵盖事故地点、天气、时间、POI(Point of Interest)等方面的信息,充分考虑了交通事故发生时的多方面因素。

3.2 数据处理

为确保实验结果的可靠性和有效性,通过多重共线性分析对变量进行筛选,保留相关性较强的变量,以提高数据的质量。最终得到包含119989条交通事故记录的数据集,每条记录由31个特征变量和1个目标变量组成。表1描述了变量的详细信息。

目标变量表示交通事故严重程度,根据严重程度的不同,将其分为3个有序的层次:0级表示轻微事故、1级表示严重事故、2级表示致命事故。

表2展示了交通事故数据集中的数据缺失情况。

为了能更有效地利用当前数据,采用线性回归的方法拟合观察到的数据,从而填补缺失值,提高数据的完整性和可用性。

4 模型对比与结果分析(Model comparisonand result analysis)

4.1 交通事故严重程度预测的评价方法

为了确定算法预测的准确性,需要确定评估测量指标。实验选择以混淆矩阵作为基础的评价框架,选取常见的分类预测评价指标,包括准确率(Accuracy)、精确度(Precision)、召回率(Recall)和F1值(F1-Score)。

4.2 实验结果分析

将交通事故数据按照8∶2的比例划分为训练样本集和测试样本集,训练集用于训练模型,而测试集用于验证模型的预测效果。

本文设计的对比实验采用了XGBoost(Extreme GradientBoosting)、Logistic(逻辑回归)、随机森林(Random Forest,RF)、决策树(Decision Tree,DT)、贝叶斯网络(Bayesiannetwork,BN)、可解释性表格学习网络(Attentive InterpretableTabular Learning Network,TabNet)和自适应神经网络模糊推理系统(Adaptive Neuro Fuzzy Inference System,ANFIS)。

DNFS模型参数如表3所示。

表3中,N_c表示模糊集的数量,N_d表示决策预测层的宽度,N_a表示注意力嵌入层的宽度,N_steps表示决策步数,Optimizer_fn表示优化器,Lr表示学习率,Epoch表示训练轮次。

在DNFS模型中,N_c、N_d、N_a和N_steps这4个参数共同决定了模型的规模,减少这些参数可以防止模型过拟合,同时对模型预测的精度不会产生较大的影响。

将DNFS的预测结果分别与BN、Logistic、RF、DT、XGBoost、ANFIS及TabNet模型进行对比,其结果如表4所示。

DNFS在对轻微事故、严重事故和致命事故的预测上都取得了最佳的结果,分别为0.91、0.93和0.93,在多类别预测任务中展现出卓越的性能。在4个评价指标上,DNFS的表现均优于其他模型,说明DNFS在交通事故严重程度的预测方面胜过传统的预测模型。

在DNFS的损失值逐渐收敛至稳定状态的同时,模型的各项指标也趋于稳定状态,表明DNFS应用于交通事故严重程度的预测具有一定的可行性。DNFS的收敛图如图6所示。

根据图7可以发现,Visibility(mi)特征对交通事故严重程度的预测贡献度较高,其次是Wind_Chill(F)、Temperature(F)、Humidity(%)、Sunrise_Sunset和Pressure(in)。以上结果表明,天气因素在决定事故严重程度上发挥着至关重要的作用。然而在事故发生的环境中,其中的天气状况受到多种因素影响,呈现出复杂多变的状态。DNFS的模糊推理层能够对影响天气的因素进行模糊化处理,将具体的天气信息转化为模糊集合。通过隶属度计算,可以量化每个特征在不同模糊集合中的隶属程度,从而捕捉到天气的复杂多变性。此外,DNFS规则推理层的规则可以学习不同因素之间的复杂关系。通过对规则权重的解释,可以揭示DNFS是如何从影响天气的因素中提取关键信息,有助于DNFS解释如何处理不确定性和模糊性,使得决策更具有鲁棒性。

5 结论(Conclusion)

在交通安全领域,对事故严重程度的准确预测至关重要,因为不同的交通事故的影响程度有很大的差异,对救援时资源的调配和紧急响应有很大的影响。本文通过构建深度神经模糊系统(DNFS),在深度学习和模糊推理的基础上综合利用了TabNet和ANFIS的优势,旨在解决交通事故严重程度预测中影响因素多、预测偏差大、可解释性低等问题。

实验验证结果表明,与其他模型相比,DNFS在误差、准确性和可解释性等方面表现出色,说明模型在交通事故严重程度预测中具有较高的可行性和有效性。DNFS的性能优势体现在对复杂数据的学习和对不确定性的处理方面,为交通管理部门提供了更准确的预测结果,有助于其更好地制订应急和预防措施。

作者简介:

王园园(1997-),女,硕士生。研究领域:数据挖掘,机器学习,人工智能。

史东辉(1966-),男,博士,教授。研究领域:知识工程,数据挖掘,机器学习,人工智能。本文通信作者。

甘书灵(1999-),女,硕士生。研究领域:数据挖掘,机器学习,人工智能。