基于稀疏时空特征描述的驾驶者多种非安全驾驶行为识别

2018-10-31 07:31王春明李磊军郭培智

智能计算机与应用 2018年6期

杜勇，王春明，崔金，李磊军，崔尧，郭培智

(1 东北农业大学电气与信息学院，哈尔滨 150030； 2 哈尔滨工业大学计算机科学与技术学院，哈尔滨 150001)

引言

近年来，汽车工业得到了迅猛发展，车辆人均占有率在不断提高。然而随着车辆的增多，在为人们提供快捷便利现代生活的同时，也在相当程度上给社会带来了一定的隐忧及困扰。交通事故的发生频率已不容乐观，驾驶人员车内的异常驾驶情况也正日趋严峻，这不仅增加了交通系统的风险，对于每个人的人身财产也构成了不可小觑的安全威胁。

研究可知，截止到目前，因道路交通伤害导致的人类死亡已经位列全球十大死亡原因之一，并且另据一系列调查可知，道路交通事故也是导致年龄在15～29岁之间朝阳群体死亡的主要原因[1]。而源于道路交通事故的增加更会使全球经济损失愈加严重：在全球的国内生产总值损失中，因道路交通死亡和伤害导致的国内生产总值损失占比大概为3%；而在中低收入国家的国内生产总值损失中，这一数字更是接近了5%[2]。因此在高速发展的当今社会中，交通安全业已成为备受多方瞩目的焦点研究课题。

经大量调研显示，交通事故的发生很多时候都是与驾驶员车内的违规操作、经验不足、以及不规范的动作行为等主观因素有关，而与其它客观因素(如道路问题、车辆本身存在问题)的关联性却并不显著。因此科学规范驾驶员车内异常驾驶行为，并于必要时友好提醒驾驶员注意自己的不规范行为，则已成为亟待解决的主要问题。

实际上，在经过了对各种驾驶实例的归纳总结后，研究认为驾驶员的不规范行为举止将集中表现为：接打手持电话、吃东西、梳头发、玩手机、剪指甲和疲劳驾驶。其中，避免疲劳驾驶对于驾驶安全将尤为重要。究其原因即在于：对于短时间的驾驶，大多数驾驶员由于长期累积的驾驶习惯或下意识的动作而难以判断自己的实时驾驶状态，从而无法做出快速、准确的反应，就可能导致某一刻交通事故的发生；对于长时间的驾驶，驾驶员的精神状态往往会随着时间的持续发生改变，在生理情况、对方向盘的操控能力等方面均可能存在波动性，并因注意力的下降而表现出精神不集中、判断错误、操作失误、视角疏忽以及违反交通规则等异常驾驶的情况，导致交通事故的发生[3]。

目前，国内外已有学者在卫星定位数据的基础上对于异常驾驶行为识别开展了一定的研究[4]。国内许多大型的运输企业、如快递物流企业，则都选择安装了基于GPS和北斗等基于卫星定位系统技术的监控系统，但该系统主要识别的仅是驾驶员超速、驾驶路线异常等车辆外部行为，同时虽采用了设置固定的监控阈值，超过则报警的方式，但仍然未能获得实时的识别效果[5]。

在对于驾驶者非安全驾驶行为的研究中，针对疲劳驾驶的行为识别居于主导地位，而有关异常驾驶行为识别，也有研究者指出可通过安装传感装置的方法，用以协助识别驾驶员的异常驾驶行为，例如使用加速度传感器远程监控车辆的急剧加速和突然刹车行为的方法[6]。刘永涛等人即在研究中提出，为了提升危险驾驶行为的识别性能，车载实时采集路面图像和方差贝叶斯网络模型来判断识别危险驾驶行为；牛增良等人也在研究中从危险驾驶行为的角度审视外部影响因素与驾驶行为之间的关系，就此提出基于大量的交通事故数据，以视线因素、道路状况、车辆状况因素及其它伴随行为作为评价指标，再研究通过聚类方法来定量分析潜在的危险驾驶行为[7]；陈志军等人则提出并建立了大型车辆危险驾驶行为综合监控系统，同时又将Q学习算法融入监控系统中。时下，也有美国公司研发推出了方向盘监控装置，可用于检测方向盘的异常运动。

大部分方法都是从外部因素如路面等情况来间接检测驾驶行为的，而直接针对驾驶者行为进行监控的方法却少有提及。对于驾驶行为的最直接描述方式是依赖机器视觉进行辅助监控[8]，而这一项目内容也相应成为该领域的研究主流。基于视频信息的有效检测途径大致可归纳为2种，可具体描述如下。

(1)采用光流场的方式。Horn和Schunch 首先提出了采用光流法检测运动目标，计算了一种稠密的光流场，随后Ali和Shah则从光流场中提取出可以表示运动的光流特征[9]。

(2)构造串接的视频序列信息。这也是得到有效行为特征描述的技术研发方法[10]。近年来，基于时空信息的描述子已然成为了国内外学术界的研究热点，通过直接对视频中的动作行为同时进行与时空域相关的特征点提取，并用此结果设计构造了特征向量描述，省去了关键帧对齐的处理过程，使识别效率大大提高。

在此基础上，本文将重点针对驾驶员的主要非安全驾驶行为(包括吃东西、剪指甲、梳头发、打电话、玩手机等情况)进行识别，在这些异常行为出现时发送警报，以提醒驾驶员集中注意力并规范自身的驾驶行为，旨在于更广阔范围内能够有效防范和避免交通事故的发生。

1 方法研究概述

本文提出的通过构造时空描述特征对驾驶者非安全驾驶行为进行识别的方法框架，主要包含训练以及识别2个阶段。研究可得系统工作流程如图1所示。其中，训练阶段构造用于识别的Cuboid原型是整个方法框架的核心之一，其性能在本质上将依赖于描述算子Cuboid的优劣。

图1 基于时空描述特征的非安全驾驶行为识别方法框架

Fig.1Frameworkofnon-safedrivingbehaviorrecognitionmethodbasedonspatio-temporaldescriptionfeatures

在驾驶员非安全驾驶行为的识别任务中，构造针对不同驾驶行为的合适的特征描述是实现有效识别的前提。一个动作往往通过一段视频来展示，或者说体现为一系列的视频帧。对于2D图像而言，Harris角点检测、LOG算子，以及扩展到图像序列，纵览该领域后可知有效的描述算子较为有限，而3D Harris检测算子即是一个选择，但通常情况下，该算子却不能检测出足够数量的特征点，从而影响最终的识别效果。

研究中，本文使用了Cuboid时空特征构造算法，这是一种有效行为表达方法。对其机理要点可阐释分述如下。

(1)Cuboid算子能够对周期性运动或空间运动特征明显的动作做出有效描述，适用非安全驾驶行为具有明显动作表现这一特点。

(2)Cuboid在保证兴趣点稀疏的前提下，可以从视频中提取大量特征信息，这又规避了3D Harris算子的不足。

(3)Cuboid描述特征对于平移运动或微小运动并不敏感，从而可以过滤掉车辆运动过程中的颠簸、震动，这同样满足本文研究任务的需求。

(4)Cuboid算法默认假定拍摄视频序列的摄像头是静止的，或者摄像头的运动可以通过其它算法进行运动补偿，该假设前提又与驾驶环境比较吻合。

2 基于时空特征描述的非安全驾驶行为识别原理

2.1 时空兴趣点检测

Cuboid(s)是一种针对视频提取时空特征的算法，在时空域上进行特征提取，除了空间域上的位置信息以外，还需要增加时间t作为其描绘的一个维度。通过将视频看作连续的图像序列，视频中任意一点均可以表示成为一个三维数据点[11]，如图2所示。研究中，将以此为基础进行特征提取，从而得到Cuboid特征描述子。

图2 视频中的像素点表示

与大多数兴趣点检测算子构造方式一样，这里响应函数由空域与时域2个线性可分的滤波器构成。Cuboid兴趣点的响应函数的数学形式可表述如下：

R=(I(x,y,t)*g(x,y;σ)*hev)2+

(I(x,y,t)*g(x,y;σ)*hod)2

(1)

其中，I(x,y,t)为视频的图像序列，g(x,y;σ)为空间域上的二维高斯平滑核函数，其数学定义如下所示：

(2)

而hev与hod则是时间维度上的一对互相正交的一维Gabor滤波器。研究时可用于探测具有周期运动的成分，其数学定义分别表示如下：

(3)

(4)

其中，ω=4/τ，参数σ和τ分别表示空间和时间的探测尺度。

2.2 构建具有稀疏性的Cuboid时空描述特征

2.2.1 建立Culoid区域

每一个Cuboid兴趣点(xi,yi,ti)，对应响应函数R的一个局部最大值，为了能将对该兴趣点局部极值发挥作用的数据都充分包括进来，研究以兴趣点为中心，N(xi,yi,ti)作为邻域来构造一个Cuboid区域[12]。推导可得数学公式如下：

N(xi,yi,ti)=(xi±[3σ],yi±[3σ],ti±[3τ])

(5)

2.2.2 Cuboid区域的特征描述

对于建立的Cuboid区域，考虑到度量研究所需，则将对其进行变换处理，首先需要进行特征描述。可以通过3种方法计算Cuboid特征。这里将给出研究论述如下。

(1)归一化像素值。

(2)计算亮度梯度。计算在每个时空位置(x,y,t)，对应时空域3个通道上的亮度梯度(Gx,Gy,Gt)，并使每一个通道的大小和Cuboid一致。

(3)计算窗口光流。为了提取运动描述，计算每一对连续视频帧之间的Lucas Kanade光流，并创建2个通道(Vx,Vy)，每个通道同样与Cuboid的大小相同。

2.2.3 Cuboid区域特征的二次抽象编码表达

经过上述特征抽取后的Cuboid特征表示是规范的，但为了度量方便，还要对Cuboid区域特征进行二次抽象编码表达，即对已经得到的Cuboid特征描述在经过归一化处理后又进一步转换为二次抽象的特征向量。相应3种处理方式，可解析阐述如下。

(1)将Cuboid直接拉直成一个向量的方式。这种方式得到的向量对于数值比较小的Cuboid特征来说，抗干扰能力很差。

(2)在Cuboid中使用全局直方图的方式。这种方式得到的向量具有很强的抗干扰能力，但是也会丢弃其所有位置信息(包括空间信息和时间信息)。

(3)在Cuboid中使用局部直方图的方式。将Cuboid划分为若干区域，并为每个区域创建一个局部直方图，这样在保留一些位置信息的同时，对小数值的Cuboid特征来说，抗干扰能力将有所增强。

上述2步特征构造过程将产生3×3=9种选择，可以任意组合最终得到Cuboid区域大的特征向量[13]。

本文按照一种已为业界广泛采用的组合方式，选择先对Cuboid做亮度梯度标准化的处理，得到转换后的Cuboid，再将其直接进行PCA降维处理，生成特征向量，在实质上可将其视作为一种PCA-SIFT特征[14]。

2.2.4 构建Cuboid动作原型字典

对于动作识别而言，如果是同一种动作，即便会有一些差异，但总体上，对于这个动作的描述在宏观上应该具有一致性。而这种一致性应当由该段视频上的全部Cuboid(s)共同体现出来。因此，单一的Cuboid的相似性价值不大，应当统观衡定全部Cuboid(s)的表现倾向。要为每个Cuboid划分所属类别，就要先建立不同动作的类别中心，即Cuboid不同动作原型。因此，在训练阶段，针对不同驾驶者行为，当得到Cuboid特征表达后，将大量的Cuboid特征进行K-means聚类处理[15-16]，生成一组Cuboid原型，称为Cuboid字典。

2.2.5 行为描述子以及相似性度量

综上处理环节可归为训练的研究过程。至此，当给定需要识别的行为视频后，接下来就是将Cuboid(s)特征向量用Cuboid字典再表达的过程。换言之，就是用一个Cuboid原型类别直方图来描画这个待识别的行为。

对于2个行为描述子的相似性可以运用欧氏距离或卡方距离来度量。对于相同维度的2个向量x和y，两者之间欧氏距离以及卡方距离分别为：

(6)

χ2(x,y)=

(7)

其中，在卡方距离中E(·)为计算数学期望。

在文中，研究度量驾驶行为的相似性时，使用了欧氏距离，分类时则采用了KNN分类策略，即：

y=arg MAXcj∑xi∈NK(x)I(yi=cj)i=1,2,...,N

(8)

其中，I为指示函数，yi=cj时，I=1,否则I=0；NK(x)表示样本x的K个近邻。当K=1时，KNN分类器将退化为最邻近分类器，即将待分类样本划归至与其最邻近的样本类中，实际分类时，本文采用的是最近邻分类器。

3 实验分析

本文实验选用的数据集为在光照、角度、背景等基本保持不变的实验环境下，用固定摄像头所拍摄得到的。包括10名不同人员吃东西(eat)、剪指甲(finger)、梳头发(hair)、打电话(phone)、玩手机(play)、正常(normal)情况共6大类动作视频，每类动作每人拍摄9段视频，共计540段视频序列，每个视频序列时长为4 s，摄录帧率为15帧/s，每个视频可得到60帧图像，有关动作的视频片段如图3所示。

图3 非安全驾驶行为示例

本文用混淆矩阵来验证文中方法的分类性能，运行得出实验结果如图4所示。

图4 非安全驾驶行为识别能力

通过实验结果可以看出，对于非安全驾驶行为的分类问题仍然呈现一定的难度，目前很多混淆都出现在驾驶者具有一定类似动作的行为上，如吃东西与剪指甲就容易混淆，分析原因在于研究认为是这2类都有手部抬起的动作，虽然动作幅度不尽相同，但是Cuboid描述特征的主要特点之一就是如果不同人是在做相同的动作，即便存在一定差异，也能够判为相同的动作。这既是该方法的一个优点，同时也容易造成识别上的混淆。另外，不同个体性别和着装的外观差异以及不同个体的一些习惯附加动作都对识别施加了较大干扰，后续研究将致力于消除这些干扰，以及转换视角研究其它的识别框架来实现方法的改进和完善。

4 结束语

非安全驾驶行为识别是一项颇具现实意义的模式识别任务，但由于个体差异，以及描述上的困难使得这一任务面临一定的挑战。目前，本文研究提出的基于Cuboid特征的识别方法，在手工构造特征的识别方法中的性能堪称良好。这种方法能够成功提取给出驾驶者的关键动作描述，而且对于细微的动作干扰具有较好的鲁棒性。考虑到一些非安全行为的相似性以及个体差异，对于某些动作的区分还应予以深度细化，同时也要强化稀疏表示能力，如此才能有效避免混淆的情况发生，而这也将是未来工作的一个研究重点。