孙宝聪
(大连国际机场基建工程部,大连 116003)
安防是“平安机场”建设中的重要问题,尤其是极端人员管控,是安防工作的重点和难点。通过人防、技防相结合,将5G通信、边缘计算、人工智能等前沿技术应用于机场安防场景,实现极端人员异常行为实施布控、及时发现、智能识别,是建设“智慧机场”的重要组成部分。随着深度学习及计算机视觉的发展,行为识别已经取得了重大的进展,并广泛应用于公共安全领域[1]。目前人体行为识别领域大多从原始视频帧中直接提取相关特征,并利用深度学习网络模型进行识别。基于人体关键点的行为分析在安防监控、人体追踪、行为检测、步态识别等领域起着重要作用[2],该技术可广泛应用于机场、高铁站等大型公共场所,实现可疑目标异常行为的自动识别。
人体关键点识别首先通过YOLO v3进行人员目标识别,以获取适当的感受野,加快关键点识别的速度,其次利用卷积姿态机对图片人员目标区域进行关键点预测。在目标识别的过程中采用Multitracker方法进行目标跟踪,以获取各人体目标的时序关键点信息。
YOLO v3的网络结构分为骨干网络(Darknet-53)和检测网络,如图1所示。骨干网络由52个卷积层组成,并输出13×13、26×26及52×52三种尺度的特征,送入检测网络。检测网络对三种尺度的特征回归,预测出多个预测矿,并使用非极大抑制(Non-Maximum Suppression,NMS)算法去除交并比(Intersection over Union,IOU)较大与置信度较低的预测框,保留置信度较高的预测框为目标检测框[3]。
图1 Yolo V3网络结构
YOLO v3模型在416×416分辨率下,对人体目标的识别精度和识别速度都远超其他网络模型,具备较高的准确率和良好的实时性。图2为YOLO v3模型在视频帧中的人体识别结果。
光流是由对象或相机的移动引起的两个连续的帧之间图像对象的明显运动的模式,是2D矢量场,每个矢量是位移矢量,表示第一帧到第二帧点的运动[4]。
图2 YOLO v3目标识别
假设第一帧的像素I(x,y,t)在时间dt之后的下一帧中移动距离(dx,dy),由于是相同像素且亮度不变,因此:
其泰勒近似为:
其中:
式(2)为光流方程,fx和fy为图像梯度,ft为时间梯度,但由于有两个未知量(u,v),导致方程不可求解。Horn-Schunck[5]求解方程的方法是假定一个速度(u,v)的平滑约束,其原理是对光流变化剧烈的局部区域增加一个惩罚系数,约束方程如下所示:
其中α是预先设置的常量。较大的α值可以获得国家满足局部一致条件的运动流向量。Horn-Schunck方法求解的是全局的光流值,其效果如图3所示,其中左图为视频原图,右图为Horn-Schunck光流图。
图3 Horn-Schunck光流跟踪
卷积姿态机(Convolutional Pose Machines,CPM),是目前最先进的2D人体姿态估计算法。CPM是一种FCN全卷积网络结合VGGNet的神经网络,CPM通过热力图识别人体关键点,并实现人体关键点的跟踪[6]。其网络结构如图4所示。
该算法将深度学习应用于人体姿态分析,通过多层卷积神经网络来识别人体18个关键点[7]。识别的关键点序列如表1所示,图5为关键点识别效果图。
图4 CPM模型网络结构
表1 人体关键点编号
图5 关键点识别效果图
行为识别模型采用SK-CNN模型,包含两部分:一是对样本视频进行时序关键点提取,并将时序信息转换成空间信息;二是设计采用SK-CNN模型对样本进行训练并保存模型。
样本标注流程如下:
(1)对单目标视频每一帧,采用Yolo v3进行目标识别,并保存目标框图片范围。
(2)对保存的图片,进行动作提取,若连续N(N取18)帧包含某类动作,则提取连续N张图片信息,并标注相应的动作类别。其中动作类别包含:0-快速接近,1-持械攻击,2-投掷,3-攀爬,4-持枪瞄准。
(3)对提取的动作样本每一张图片进行关键点识别,提取18个关键点的像素坐标,并转化为归一化坐标其中T代表帧数,N代表关键点序列,width 和height 为图片的宽度和高度。
(4)将骨骼关键点的时序信息转换成2通道的空间信息。
设计如图7所示结构的SK-CNN卷积神经网络模型,该模型包括如下几层:
(1)输入层:参数为18×18×2,其中18表示图片大小,2表示图片通道。
(2)卷积层:参数为3×3,卷积核深度为6,不使用全0填充,卷积步长为1,输出矩阵大小为16×16×6。
(3)池化层:池化层卷积核大小为2×2,不使用全0填充,卷积步长为2,输出矩阵大小为8×8×6。
(4)卷积层:卷积核大小为2×2,卷积核深度为16,不使用全0填充,卷积步长为1,输出矩阵大小为4×4×16。
(5)全连接层:全连接神经元数量为120。
(6)全连接层:全连接神经元数量为64。
(7)输出层:输出节点为5,代表5个异常行为类别。输出层采用softmax激活函数。
为验证本论文所研究技术在真实场景下的性能,通过Nvidia DGX深度学习服务器,对深度学习模型进行了训练。该服务器搭载Intel至强E5-2600 v4处理器以及4块Nvidia Tesla V100显卡,单块显卡显存为16G。同时,将已训练模型加载至Nvidia Jetson Xavier边缘计算硬件平台,该平台CPU硬件配置为8核ARM64,GPU配置为512CUDA核心。本文分别在室内、室外复杂环境2种应用场景进行测试,每人每组动作做20次,并统计模型对每个动作的识别率,统计结果如表2所示。
表2 异常行为识别测试结果
本文研究了一种基于图像检测的机场人员异常行为分析技术,可以广泛应用于机场、高铁站等公共场所,实现对可疑目标危险行为的自动识别和报警。在野外复杂环境和室内场景对本文算法识别精度进行了测试,结果表明,该模型的行为识别精度可达89%。
通过理论分析和实验验证表明,本文算法实现了公共场所可疑目标危险行为实时、准确检测,通过本文算法的应用,可以极大地降低治安人员工作压力,提高安全指数,同时,本文所提算法不仅可以运行在服务器,同时也可以搭载于通用的边缘计算平台,便于工程化和产品化。