基于iCAN 的加油站员工动作行为检测

2021-03-25 04:06:06余雪源

现代计算机 2021年4期

余雪源

（西南交通大学信息科学与技术学院，成都610000）

0 引言

随着我国交通基础设施建设趋于完善，机动车数量不断增长，加油站遍布城市的各个角落。与此同时，加油站的安全问题也成为城市安全保障的重要一环，在人口密集的市区，一旦由于员工操作失误造成安全隐患，会产生无法弥补的后果。目前针对加油站员工行为的检测还没有一套智能化方案，当前主要通过对员工进行严格培训以及人工巡检的方式进行，这种方式的自动化以及智能化的程度不高，耗费了大量人力成本的同时，无法对员工的危险操作进行及时报警。

随着深度学习的不断发展，常用的多阶段算法Faster R-CNN[1]和单阶段算法YOLO[2]、SSD[3]等被用于目标检测任务，但这些方法只能获取视觉场景下各物体的类别和位置信息，不能表达人物之间的语义关系这种深层信息，从而无法判断员工操作某一物体时是否违规。目前对于人体动作识别使用的主要方法有3D 人体姿态识别，这种方法虽然可以带来良好的准确度，但计算成本太大，不适用于实际生产环境。Alpha-Pose[4]可以提供一个轻量级的实时人体关键点检测模型，但如何有效利用这些关键点信息，得到人物之间的交互关系和交互动作也是一大难点。

本文着眼于人物交互检测这一热门的计算机视觉研究领域，在以实例为中心的注意力网络iCAN[5]（Instance-Centric Attention Network）的基础上，利用目标检测结果，判断人和物体之间的交互关系以及交互动作类别，为检测员工的操作行为是否符合规范提供了一种智能化方法。并且本文结合了AlphaPose 的关键点检测结果，将关键点特征与卷积特征结合，取得了更好的效果。iCAN 算法由Chen Gao 和Yuliang Zou 于2018 年提出，引入了在自然语言处理中常用的注意力机制（Attention），在人物交互检测的公开数据集HICODet[6]上取得了极好的准确度，是目前常用的人物交互检测方法。

1 数据集构建与处理

1.1 数据采集与整理

由于我国的交通基础设施建设不断提升，我国加油站数量已突破10 万座，加油站中存在大量摄像头，本文选取了加油站的卸油口场景作为研究对象，卸油口是加油站中安全风险等级最高的场景之一，并且在卸油口场景下，员工需要进行大量手动操作，因此对于一些危险行为需要进行及时报警。首先，我们选取了市区20 余座加油站，在不同的天气情况下，收集了员工操作卸油过程视频。由于视频中员工抽烟、打电话等危险行为样本较少，因此让员工对这些行为进行模拟。对收集的视频进行抽帧后得到6832 张图片，对图片数据进行清洗，删除大部分无人物交互以及出现模糊的图片后，最终得到6397 张图片，将这些图片按照7:3 的比例划分为了训练集和测试集。

1.2 数据标注

通过观察整理加油站卸油口场景下员工操作行为，在该数据集上定义了21 个人物交互关系，设计以<人，物，交互动作>三元组的形式对人物交互类别进行标注，人物交互关系类别定义如表1 所示。本文的数据标注借鉴了V-COCO 数据集的处理方式[7]，V-COCO 是MS-COCO 的一个子集，包含了80 个目标类别以及28 个交互动作类别，常用于人物交互检测任务。本文首先对图片中目标的包围框位置和类别进行标注，对于和物体产生交互关系的员工，我们记录下物体和员工所对应的包围框ID，将这两个ID 进行关联，按三元组的形式标注其交互动作类别。因为员工可能会同时进行多项操作，因此在一张图片上，针对某一员工可能会存在多个三元组以表示同一人员同一时间存在多组人物交互关系。

表1 人物交互关系类别

1.3 数据增广

本文仅在市区20 余座加油站进行了数据采集，由于各加油站卸油区的设计不统一，摄像头的位置和角度也会随之变化，导致不同加油站采集的数据差异明显，并且户外的光照以及天气差异对目标检测的效果有较大影响。为了提高算法的泛化能力，以适用于更多的加油站卸油区场景，本文采用图片旋转、水平翻转、伽马变换的方式对训练数据进行增广，产生大量相似却不相同的训练数据，满足深度学习对训练数据多样性的需求。

2 模型设计

本文采用了Faster R-CNN 作为目标检测网络，得到人和物体的位置及分类，使用ResNet 50[8]提取输入图片的卷积特征，将卷积特征送入以实例为中心的注意力模型iCAN，检测得到人和物体之间的交互动作类别，最终得到完整的<人，物，交互动作>三元组。为了提高交互动作检测的准确性，在原有的iCAN 算法基础上，本文使用了AlphaPose 提取人体关键点特征，将关键点特征与卷积特征结合，预测人的交互行为，模型结构如图2 所示。

图1

图2 模型结构图

2.1 目标检测

Faster R-CNN 是目前常用的目标检测算法，它是一个完全的端到端算法，在检测的速度和准确度上均取得了出色的效果。不同于Fast R-CNN 中的Selective Search 方法，在Faster R-CNN 中使用了候选区域生成网络RPN（Region Proposal Network）提取候选区域，在保证精度的同时减少了候选区域提取的耗时操作。RPN 对于特征图上的每一个锚点（anchor），生成具有不同宽高比和尺寸的锚点框，然后将这些锚点框送入分类以及回归模块计算目标类别以及位置，RPN网络结构如图3 所示。本文使用了ResNet 50 作为特征提取主干网络，结合Faster R-CNN 产生目标的位置以及分类，将得到的卷积特征作为人物交互检测模块的输入特征。

图3 RPN网络结构图

2.2 人物交互检测

人物交互检测模块包含了以人为中心、以物为中心以及人物结合三个不同的分支。将目标检测得到的卷积特征作为分支输入，在以人为中心和以物为中心的分支上，使用了以实例为中心的注意力网络iCAN，在人物结合分支上使用了人和物的联合特征，在各分支上预测人物交互动作得分，最后采用多分支融合的策略，得到最终的交互动作得分，得分计算公式定义为：

式中，sh与so分别为预测的人和物类别得分，，分别是以人为中心、以物为中心以及人物结合三个分支预测的交互动作得分。

以实例为中心的注意力网络iCAN 将卷积特征作为输入，使用RoI 池化、ResNet 残差块，以及全局平均池化（Global Average Pooling，GAP），得到实例级外观特征。使用1×1 的卷积核改变特征的维度，使用矢量点积的形式将卷积特征与实例级外观特征一起嵌入到512 维的空间中，然后通过Softmax 函数计算得到以实例为中心的注意力图。Softmax 将特征图中的每个像素点的值映射到（0，1）区间，让所有值的和为1，每个点的像素值就转化成了概率值。Softmax 函数表达式为：

将注意力图与卷积特征进行矢量点积运算，通过全局平均池化以及全连接操作得到上下文特征，将上下文特征与实例级的外观特征进行拼接得到该分支的输出特征。将该分支的输出特征通过21 个二分类器进行分类，我们将分类的结果输入到sigmoid 函数中，将输出映射到（0，1）区间，sigmoid 函数表达式为：

本文使用到的损失函数为交叉熵损失，该损失函数常用于分类问题，N 个样本的总交叉熵损失表达式如下：

3 实验结果与分析

本文设计了实验验证算法的可行性，并且参考了大量文献后设计了多个对比实验，研究不同特征提取算法对生成注意力图的影响，以及关键点检测方法对人物交互动作的分类是否有帮助。本实验基于Linux 系统，使用了两块NVIDIA TITAN XP 显卡、32G 内存，使用的深度学习框架为TensorFlow，实验检测结果如图4 所示。

图4 实验检测结果

3.1 评价指标

平均精度均值（mean Average Precision，mAP）常作为多标签图像分类任务的评价标准，衡量的是在所有类别上的平均好坏程度。本文使用了交并比（Intersection over Union，IoU）来判断预测包围框结果的准确性，IoU 指预测框与真实框的交集与并集的比值，通过设定阈值来衡量正负样本。

3.2 对比实验

为研究不同特征提取算法对生成注意力图的影响，本文分别使用了VGG 16、ResNet 50、ResNet 101 作为特征提取网络，根据大量的参考文献表明，ResNet 101 提取的特征相较于VGG 16 以及ResNet 50 具有更丰富的视觉和语义信息。实验结果如表2 所示，从表中我们可以得出，更丰富的特征，会使网络生成更具有表现力的注意力图，利用注意力图可以凸显特征中与目标更加相关的部分，将网络的注意力集中到该部分，可以提升检测的准确性。但ResNet 101 的检测速度不够理想，出于实用性的考虑，本文选择了ResNet 50 作为特征提取网络，以此达到速度与精度的平衡。

为研究人体关键点对人物交互动作检测的影响，本文使用了目前常用的关键点检测算法AlphaPose，获取人体的关键点信息，关键点检测如图5 所示。本文设计了两组对照试验，一组是将图片的卷积特征与关键点特征结合，一组只使用了卷积特征。实验结果如表2 所示，两组实验都可以取得不错的效果，但是由于关键点特征对人体动作具有较强的指示性，同一动作其人体关键点特征符合一定的模式，因此使用了关键点特征最多会高出4.4%的mAP。

表2 实验结果

图5 关键点检测

4 结语

本实验以目前计算机视觉中的重点研究领域为基础，对加油站中卸油口场景下的人物交互动作进行了研究，不仅从目标检测的角度确定目标的位置以及类别，而且分析图片中各目标之间更深层的交互关系。本文使用了以实例为中心的注意力模型iCAN，同时结合了AlphaPose 检测的人体关键点特征来提高检测的准确度，相较于加油站现有的人工巡检方式节省了大量人力成本，具有一定的使用价值。

这一研究不仅可以在加油站场景中及时检测到员工的违规操作，避免危险的产生，同时基于人物之间的交互关系分析人类的行为，判断这些行为的危险性，可以对不法分子在公共场合下的危险行为及时预警。随着这一领域的不断发展，随之产生的应用会为社会带来更加稳定和智能化的安全保障。