吕 露 曾叙坚 王 东
(桂林电子科技大学数学与计算科学学院 广西·桂林 541004)
基于车联网系统以及天气状况,我们建立了道路交通安全评价模型。通过此模型,分析驾驶员的危险驾驶行为是否与天气相关,以及天气状况以多大的程度影响驾驶员的驾驶行为。
2.1.1 数据处理
首先,利用Excel对450个评价对象进行去重,得到175个评价对象,为了消除量纲的影响,我们使用均值法进行无量纲处理,得到103个评价对象,为了较好的处理,我们选取其中100个评价对象,通过对车辆不良驾驶行为的挖掘,得到对行车安全影响最大的四个因素有急加速、急减速、超速和疲劳驾驶。
2.2.1 流程图
2.2.2 数据预处理
在题目给出的数据中,自然气象条件和道路状况等情况都是文字信息,为了我们后续的模型建立与求解,需要用独热编码方法对其进行编码处理,并在原始数据上进行去重处理。
2.2.3 方法与模型
(1)气象数据编码:
为了方便,需要把文字信息的气象数据转变为我们的数字信息,因此,需要用到独热编码方法。独热编码即One-Hot编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。可以这样理解,对于每一个特征,如果它有m个可能值,那么经过独热编码后,就变成了m个二元特征。并且,这些特征互斥,每次只有一个激活。因此,数据会变成稀疏的。这样做的好处主要有:
①解决了分类器不好处理属性数据的问题;②在一定程度上也起到了扩充特征的作用。
(2)过滤式特征选择。
过滤式方法先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。这相当于先用特征选择过程对初始特征进行“过滤”,再用过滤后的特征来训练模型。在此我们选用Relief(Relevant Features)[Kira and Rendell,1992]特征选择方法,这是一种著名的过滤式特征选择方法。
该方法最终只需指定一个阈值 ,然后选择比 大的相关统计量分量所对应的特征即可;也可指定欲选取的特征个数k,然后选择相关统计量分量最大的k个特征。
(3)神经网络。
第一步,网络初始化。
第九步,判断网络误差是否满足要求。当误差达到预设精度或学习次数大于设定的最大次数,则结束算法。否则,选取下一个学习样本及对应的期望输出,返回到第三步,进入下一轮学习。
首先,气象数据独热编码如下。
接下来进行特征选择,根据Relief算法原理,我们将急加速或急减速状况作为训练集的因变量,天气状况以及气温作为特征子集进行训练,特征子集的最终分类器的误差如下,误差越小,说明该特征对于因变量的越显著有效,选取的23个特征及误差如图1、图2所示。
图1:23个特征向量及误差
图2:18个特征向量及误差
根据Relief算法原理,我们疲劳驾驶状况作为训练集的因变量,天气状况以及气温作为特征子集进行训练,特征子集的最终分类器的误差如下,误差越小,说明该特征对于因变量的越显著有效,所以我们选取了18个特征向量,从特征的选择结果看,在疲劳驾驶中,天气的大多数是晴天或多云状况,这也解释了:在天气情况良好的情况下,司机逐步放松警惕,选择长时间驾驶。在急加速和急减速的情况中,天气的特征为下雨天气和大风天气,这解释了:在道路湿滑的情况下,汽车的轮胎与地面摩擦减少,司机的刹车或油门控制受到影响,容易照成急加速或急减速的情况发生。
最后,进行神经网络算法:
在急加速和急减速的神经网络中,将因变量变为0和1,0代表着急加速或急减速的情况不发生,1代表急加速或急减速的情况发生,自变量为特征选取出来的23个变量,将总数据的70%作为训练数据集,剩下的30%作为验证数据集。设置该神经网络的层数为3,输入层的节点为23,输出层的节点为1,训练次数为400次。从图3的损失函数可以看出,在训练次数为400时,验证集的损失在0.1左右,训练集的损失在0.15左右,从图4的精度函数中可以看出,在训练次数为400时,验证集的精度在90%左右,训练集的精度在85%左右,可以认为该模型可以很好地预测驾驶员的急加速急减速行为。
图3:急加速急减速神经网络损失函数
图4:急加速急减速神经网络精度函数
在疲劳驾驶神经网络中,将因变量变为0和1,0代表着疲劳驾驶的情况不发生,1代表疲劳驾驶的情况发生,自变量为特征选取出来的18个变量,将总数据的70%作为训练数据集,剩下的30%作为验证数据集。设置该神经网络的层数为3,输入层的节点为18,输出层的节点为1,训练次数为400次。从图5的损失函数可以看出,在训练次数为400时,验证集的损失在0.16左右,训练集的损失在0.18左右,从图6的精度函数中可以看出,在训练次数为400时,验证集的精度在79%左右,训练集的精度在73%左右,可以认为该模型可以较好地预测驾驶员的疲劳驾驶行为。
图5:疲劳驾驶神经网络损失函数
图6:疲劳驾驶神经网络精度函数
对行车安全进行分析研究,了解那些是不安全的行车行为的特点与危害,对社会的每个人的安全是息息相关的,同时这也是本文分析的一个难题。传统的处理行车安全的方法已经不适应于如今数据量庞大的车辆和道路信息。本文采取灰色关联分析法建立行车安全的评价模型,利用独热编码、过滤式选择和神经网络建立行车安全的综合评价指标体系于综合评价模型。
考虑自然气象条件和行车安全,我们先把文字信息独热编码,再选取特征,最后通过神经网络得出模型及其结果。从结果分析来看,在天气情况良好的情况下,长时间驾驶和天气的特征为下雨天气和大风天气,急加速和急减速是危害行车安全的主要原因。