雷振轩
(西安建筑科技大学 信息与控制工程学院,西安 710055)
行为检测作为计算机领域中的研究热点之一,在智能监控[1]、人机交互[2]等领域有着广泛的应用前景。行为检测可用于室外公共场合人员的危险、暴力行为检测监控与报警,室内场景下可用于老人和儿童的安全监控[3-4]。
现有的行为检测技术中有部分是通过红外传感器来感知人体在空间中的位置信息,并结合场景中的物品位置信息综合判断人体当前的行为状态[5-6]。这种方法可以大致判断人体处于何种运动状态,但是由于其传感器工作原理的限制,只能感知人体空间移动状态,而对于细致的肢体动作并不能做出精确的检测。随着移动设备和可穿戴设备的发展,李鹏欢[7]和黄龙等人[8]采用加速度传感器获取人体运动信息,并结合相关的分析算法对获取的运动信息进行分析得出人体行为;石磊鑫等人[9]设计了基于可穿戴设备的行为识别系统,通过将可穿戴设备上的加速度传感器、心率传感器检测到的人体信息通过蓝牙发送到手机等处理设备上综合判断人体行为。相比基于红外传感器的检测方法,惯性传感器的应用能够更加精细的获取人体的运动信息,但是通过惯性信号也只能检测一些行走、跑步等简单的行为。这种基于惯性传感器的行为检测方法并不适用于公共场合的群体行为监控场景。
分析现有行为检测技术的长处和问题,也观察到骨骼和关节在人体运动过程中的行为表达直观性,以及对背景、光线等外部因素干扰的鲁棒性,设计了基于人体骨架信息的行为检测系统。系统以NVIDIA公司推出的Jetson Nano作为硬件平台的核心,搭建具备行为画面采集、行为类别检测、危险行为报警和行为画面显示功能的硬件系统平台;另外在人体关节坐标基础上构建关节位移矢量和骨骼夹角变化的关节行为模型,借助长短时记忆网络LSTM提取行为特征,实现行为检测功能。
系统主要由图像采集模块、主控模块、显示模块和报警模块组成,系统结构如图1。其中图像采集负责采集当前行为画面并输入主控模块;主控模块对行为画面进行人体关节提取以及行为检测,然后将检测结果通过串口发送至显示模块和报警模块;显示模块将人体骨架姿态和检测结果与原画面叠加实时显示;报警模块由Atmega328P单片机、蜂鸣器和发光二极管组成,对接收到的行为类别进行判断,如果当前行为为危险行为或者有潜在危险,则报警模块报警。
图1 行为检测系统结构图
作为行为检测系统工作流程的第一步,需要图像采集模块对人体运动画面进行拍摄采集。传统的摄像头大多由数据总线、时钟总线和同步信号线组成,这一类摄像头的接口需要的数据线数量较多,内部的逻辑结构也较为复杂,同时对于水平同步信号、垂直同步信号和时钟信号的同步性要就较高,这使得摄像头数据的输出端和画面信号的接收端均需要具备较好的性能以满足信号的传输。除此之外,在摄像头数据的传输过程中,所传输到信号比较容易受到外界的干扰,这就难以保证在持续性传输画面过程中的画面质量以及传输画面的速率。而CSI摄像头在对画面像素信息传输的过程中采用数据差分信号,保证了较好的稳定性,而且该摄像头能够仅使用一组数据信号线和差分时钟线完成数据传输,降低了接口线的使用数量。
考虑到嵌入式系统在图像处理性能上的局限性,在对比了CSI摄像头和传统摄像头后,选择占用计算资源较少的CSI摄像头来完成图像采集工作,在满足相应的传输速率的同时,也具有较高的传输质量。CSI摄像头参数如表1所示。该摄像头除了占用计算资源少的优点外,还具备体积小、分辨率高、感光器件尺寸大、画面畸变小的优点。
表1 摄像头参数
主控模块主要有以下3个功能:(1)接收图像采集模块发送的视频数据。(2)运行人体行为检测器对接收的画面提取关节信息并检测行为类别。(3)通过串口将行为检测结果发送至显示模块和报警模块。
主控模块作为整个系统的核心单元,在运行人体行为检测器对接收的画面提取关节信息并检测行为类别时,需要具备较强的数据运算处理能力。Jetson Nano是NIVDIA 公司推出的一款性能强大、体积小巧的人工智能计算设备,采用最高频率为1.43 Ghz 的64位四核ARM处理器、128核NVIDIA Maxwell GPU、4G运行内存,支持 5 V DC输入[19]。Jetson Nano能够运行多种算法和人工智能框架,为各种复杂的深度神经网络模型提供实时计算和推理,可以实现图像分类、目标检测、人脸检测与识别、语音处理等功能,其较强的运算能力,比较适合处理摄像头拍摄的图像数据以及运行人体行为检测网络模型。因此,系统中采用Jetson Nano作为主控模块,除了运行训练好的人体行为检测模型以外,还兼顾对其余模块发送控制指令和检测结果信息的功能。
报警模块负责接收主控模块发送的行为类别信息,并判断行为是否属于危险行为,同时发送控制信号控制蜂鸣器、发光二极管进行声光报警。
聚人心、强群团,共建幸福和谐新企业。努力做到“小事办好,好事办快,大事办成”。抓实“职工小家、建功立业、选树典型、精准帮扶、金牌班组、青字工程、青年建功立业”等品牌工程,做好“完善班组基本配置,改善食堂、提升澡堂、改造单车棚,发放餐费补贴、解决子女就学、关注棚户区改造、组织健康体检、开展员工疗养、做好精准困难帮扶、丰富文体活动”等实事,不断提升群团组织影响力。
报警模块采用Atmega328P作为控制器,通过串口与主控模块进行通信,并输出高低电平信号给蜂鸣器和发光二极管从而实现报警功能。Atmega328P是一个高性能、低功耗的8位微控制器以AVR作为核心处理器,闪存容量为32 KB,时钟频率为20 MHz,支持5 V输入,具备I2C、SPI、USART等接口。以Atmega328P单片机为核心设计报警模块及其外围电路,电路原理图如图2。将单片机XTAL1和XTAL2外接一个16 MHz晶振和两个20 pF电容组成外部震荡电路,为单片机内部提供稳定的时钟信号流;同时,将两个发光二极管以共阳极的接法分别连接至单片机的IO接口PD2和PD3,通过IO接口高低电平来控制发光二极管亮灭,IO接口置低电平,发光二极管亮,IO接口置高电平,发光二极管灭。
另外,对比了有源蜂鸣器和无源蜂鸣器的特点,有源蜂鸣器内部含有震荡源,通电后只能发出一种类型的声音,无源蜂鸣器内部不含震荡源,需要通过改变输入信号即可自由控制声音频率;由于无源蜂鸣器的声音频率可控,因此采用无源蜂鸣器作为报警器件,将蜂鸣器控制端连接至Atmega328P单片机IO接口的PD4端,通过单片机输出1.5~2.5 kHz频率的高低电平信号即可控制声音频率变化。
图2 报警模块电路原理图
行为检测方法作为系统软件的核心,主要包括人体关节点提取、关节行为模型构建和行为特征提取与分类三大部分。
通过Jetson Nano控制CSI摄像头并实时读取摄像头拍摄到的视频画面,在此视频画面基础上首先需要提取目标人体的关节信息。随着人体姿态估计算法的不断成熟,现在已有从原始视频画面中提取人体关节信息的深度神经网络模型,例如OpenPose、DensePose、Mask R-CNN等,但考虑到Jetson Nano模块的计算资源有限,同时为了便于后续在此基础上扩展其他目标检测功能,因此选用兼具目标检测、实例分割和人体姿态估计功能的Mask R-CNN从视频中获取关节信息,后续再构建关节行为模型,支持人体行为识别。
在Mask R-CNN网络中,掩码分支网络mask branch是用于预测并生成目标分割掩码的分支网络,通过双线性插值的方法来保证输入与输出的像素一一对应。在进行特征提取后,mask branch对每个感兴趣区域进行分类预测,并根据其分类结果对预测的目标使用不同颜色的掩膜进行渲染可视化,作为对目标整体轮廓的描述,来实现像素级的实例分割。这种像素级的实例分割方式也可用于检测并分割人体的关节点,将每一个关节点的位置设为一个二进制单点,每一个mask中若有对应的关节点标为1,反之则为0,即热图中仅保留概率值为1的关节点像素。然后利用全卷积网络作为姿态检测器对感兴趣区域内的人体特征图进行卷积池化和反卷积,得到高分辨的特征输出,同时利用ROI Align进行像素到像素的对齐,级联边界框回归与关节点分类。每一个感兴趣区域的ROI Align都对应K×m2维度的输出,其中K代表mask的类别个数,m2代表池化分辨率,在这里仅指m×m的二进制掩码。对于一个人体实例的18个关节点,输出18个掩码特征图,18个掩码相互独立,并对每个像素的误差值进行交叉熵损失迭代,最终使关节点像素的输出为1,其余输出为0,从而实现对于人体关节点的检测提取。
Mask R-CNN网络输出的关节点为COCO格式,包括18个点的坐标位置数据,然而这18个点中的左眼、右眼、左耳、右耳这4个点在人体运动过程中相对位置不会发生变化同时与人体行为的相关性较小,而且这4个点的空间位置相近,在后续的行为检测中容易对识别产生干扰。因此从中剔除这4个点,仅保留能够代表肢体运动的14个关节点数据,作为后续关节行为模型的输入信息。
观察人体行为中的各关节运动规律,可发现在一个行为中并非所有关节同时运动,每个关节的运动幅度大小不一,这就意味着各关节的运动信息与当前人体行为的相关性存在差异。因此,将各关节的位置坐标序列送入LSTM网络,即可学习行为中前后帧之间的关节时序特征;但是这种直接采用原始关节点位置坐标的方式不能明显的表征人体运动过程总各个关节点的运动幅度差异,为了进一步描述各关节点运动幅度的差异性,针对人体的每个关节点构造了当前帧与上一帧之间的关节点位移矢量模型,通过同一关节点在前后两帧中的位置坐标,计算出该点在前后两帧之间的位移矢量,以每个关节点的帧间位移矢量大小来表征该关节点的与运动幅度。
除此之外,一些关节点在人体行为过程中并没有发生明显的空间位置移动,但是仍对于当前的行为具有较大的影响。例如人体在执行挥手动作时,除了肘部、手部两个关节点与当前行为动作的相关性较高以外,该侧肩部的运动也对当前行为动作具有较大的影响,但是肩部关节点在挥手动作中并没有产生较大的空间位移而是发生了旋转。这种情况下,帧间位移矢量模型并不能描述旋转点与当前行为的相关性大小,然而关节点发生旋转时该点与其两侧相邻关节点构成的夹角也会发生明显变化,因此,考虑以除过肢体末端以外的其余关节点与其两侧相邻的两个关节点构成的夹角来表征该点的旋转情况,具体构成夹角的关节点组合包括:左右手臂的手、肘、肩;左右腿部的足、膝、胯;左侧肘、肩和颈;右侧肘、肩和颈;左侧膝、胯和颈;右侧膝、胯和颈;头、颈、左肩;头、颈、右肩;头、颈、左胯;头、颈、右胯;左肩、颈、左胯;右肩、颈、右胯;共计14个夹角数据。然后,计算每个夹角在前后帧间的夹角变化量,得到一个帧间骨骼夹角变化模型。
(1)
(2)
图3 行为检测方法结构图
为了印证位移矢量和骨骼夹角变化量表征人体行为信息的可行性,以Li等人[20]于2010年建立的MSR Action 3D数据集开展实验,它记录了10个被试者、20种类型的人体行为,每个被试者执行每个行为2~3次,总共包含了567个行为的关节运动序列。以挥手、侧踢的序列数据为例,计算每个行为的关节位移和骨骼夹角变化,并以关节半径的大小来直观表达该点与当前行为的相关程度,关节半径越大,则说明该点与当前行为的相关程度越高,反之则相关程度越低,结果如图4。从图4可以看出人体在挥手和踢腿时,仅有手臂和腿部关节的半径明显增大,即手臂和腿部的关节与当前行为具有较高的相关性,其余关节相关性不明显。说明补充这类信息可进一步明确行为识别应重点学习的关键部位。
图4 各关节的行为相关性表征图
在通过关节行为模型计算得出位移矢量序列和骨骼夹角变化序列后,与原始关节点序列进行组合,形成一个尺寸为4×14的二维数组,以此作为前帧中人体的行为信息。考虑到人体行为具有连贯性和时间上的持续性,多帧行为信息序列相比于单帧行为信息能够更加完整表征人体行为,所以,对多帧行为信息进行特征提取的方式更加合理。
由于长短时记忆网络LSTM在处理序列长时间依赖关系上展现出较好的效果,因此可以借助LSTM进行动作序列依赖特征提取并结合Softmax分类得出行为检测结果。LSTM结构如图5所示。
图5 LSTM结构图
it=σ(wi·[ht-1,xt]+bi)
(3)
(4)
遗忘门机制能够将存储单元中的部分信息剔除,选择性地遗忘时间窗之前的信息。式(5)为遗忘门计算公式。
ft=σ(wf·[ht-1,xt]+bf)
(5)
单元状态更新可用式(6)计算,在输入门和遗忘门的控制下结合上一时刻的单元状态信息来更新t时刻的单元状态。
(6)
式(9)、式(10)为t时刻隐藏层输出信息ht。
ot=σ(wo·[ht-1,xt]+bo)
(7)
ht=ot*tanh(Ct)
(8)
其中:w为权重;b为偏置;σ是sigmoid激活函数;Ct-1是t-1时刻的单元状态;ht-1是t-1时刻的隐藏层输出;xt是时间t的输入。
最终,设计的LSTM网络结构为两层,输入层送入行为序列信息,两个LSTM层进行时间序列特征提取,然后在第二个LSTM层后连接Softmax层对LSTM隐藏层的输出向量分类,得出行为分类结果。
另外考虑到检测系统的实时性要求以及多帧序列读取的问题,在多帧行为序列输入检测分类模块之前,还需设计一个特定帧长的滑动窗,将长视频的行为序列通过滑窗截取后再输入检测分类网络,图6为滑窗示意图。滑窗从首帧开始沿时间序列向后逐帧滑动,滑动过程中每检测到最新一帧的行为序列,就将新帧的行为序列加入到滑窗序列尾部,并删除滑窗序列头部的一帧行为序列,以此方式实现检测分类网络对长视频序列的固定帧数读取。
图6 滑窗结构示意图
为了得到滑窗帧数长短的参考值,在MSR Action 3D数据集上展开分析、研究,该数据集记录了10个被试者、20种类型的人体行为,每个被试者执行每个行为2~3次,总共包含了567个行为的关节点运动序列。将每种行为的手、肘、膝、足部的横纵坐标沿时间序列绘制成关节运动时序曲线,从中统计每种行为的时序变化周期,指导滑窗帧长的确定,最终统计得出20种行为的平均周期帧长为14.95,因此确定滑窗帧数长度取15帧。
系统设计完成后,首先需要在计算机上对行为检测网络进行训练,使其能够达到理想的检测效果,然后,将训练好的行为检测器部署到主控模块中运行并验证系统行为检测效果。
为了能达到理想的行为识别效果,采用MSR Action 3D数据集对行为检测网络模型进行训练和测试。数据集中的20类动作见表2。从这20类动作中筛选出日常生活中最常见的高挥臂、水平挥臂、双臂挥动、捶打、前冲、拍手、侧拳、弯腰、前踢、侧踢、慢跑、接抛等12种行为对行为检测网络模型训练、测试。
表2 MSRAction3D数据集行为类别
实验训练平台基于Windows10操作系统,计算机处理器为英特尔酷睿i5-10600kf,运行内存为16G,显卡为NVIDIA GTX1060,实验框架采用TensorFlow深度学习框架。
实验将MSR Action 3D数据集以8:2的比例划分为训练集和测试集,采用梯度下降算法对行为检测器进行迭代训练。为了能够充分训练从而获取性能良好的行为检测器,同时为避免行为检测器在训练过程中发生出现过拟合现象,使用早停法控制训练效果达到最佳时停止训练。当迭代训练次数达到1 200次时,识别准确率逐渐趋于稳定,训练停止。最终得出行为检测网络模型的识别准确率为93.7%。
将训练后得到的行为检测器部署到主控模块中,运行该检测系统,并对该系统的工作情况进行检验,包括图像采集模块是否正常工作、显示模块是否正常显示画面和行为检测结果、报警模块能否针对危险行为类别发出警报。
经检验,该系统各部分均能够正常工作,摄像头采集画面正常、行为检测结果准确且能够在显示屏上正常显示,当行为检测结果为危险行为时,报警模块能够正常发出警报,当行为检测结果不是危险行为时,报警模块不工作,屏幕仅显示当前行为类别,测试达到预期效果,系统实际工作情况如图7。图7(a)中目标人体执行挥手行为,显示模块左侧显示真实画面,右侧显示人体关节姿态,同时屏幕显示当前行为类别为挥手,报警模块二极管呈熄灭状态,蜂鸣器不发出报警;图7(b)中目标进行出拳击打,屏幕显示侧拳行为,该行为被报警模块判断为危险行为,则二极管闪烁提示,蜂鸣器发出报警。
图7 行为检测系统工作情况
针对现有行为检测系统中依赖惯性传感器、检测结果不够准确的问题,设计了一种基于人体骨架信息的行为检测系统。以Jetson nano人工智能计算设备、图像采集模块和报警模块搭建硬件平台,并以关节坐标为基础,结合肢体间的运动差异,建立了关节位移矢量和骨骼夹角变化的行为表征模型。在主控模块部署训练好的行为检测器,提取行为表征模型中的人体行为特征并分类,将分类结果输入报警模块进行危险行为判断并决策是否报警。实验结果表明系统能够有效检测常见的人体行为。但对于复杂度较高和相似度较小的行为识别问题上仍存在不足,今后将针对此类问题继续研究。