基于Kinect的双流时空卷积人体行为识别技术

2023-08-21 12:20熊新炎

哈尔滨商业大学学报（自然科学版） 2023年4期

熊新炎,张童

(哈尔滨商业大学轻工学院,哈尔滨 150028)

随着科技日新月异的发展,对于智能安防检测[1]、人机交互领域[2]、虚拟实现领域[3]的应用需求,人体行为识别成为计算机视觉领域中的研究热点之一[4],在国内外人受到广泛研究人员的关注.人体行为识别的方法大致可分为两种:1)基于传感器采集数据方法,再利用识别算法对数据集进行训练和测试.Zhang等[5]提出一种多传感器数据融合人体行为识别,该方法通过LSTM网络,增加数据之间的联系,保留了其中有效的数据,而且所需要的参数相对于其他网络减少,但是,该网络模型的训练速度较慢,消耗的网络资源较多.Tran[6]等提出一种C3D网络进行人体识别,该网络是在原有的2D网络模型的基础上进行修改,提高了网络的计算效率,但是三维网络的参数容易出现过拟合现象.Guo[7]等人提出一种深度学习网络来对可穿戴设备人体行为数据进行识别,在网络模型中增加了多个分支结构,其目的是对不同传感器数据进行分别特征提取与融合,使该网络具有较强的泛华能力,但是这种方法增加了网络的计算复杂度,增加了训练的时间与模型计算的成本.2)基于相机采集数据方法,人体骨骼序列可以通过Kinect和OpenPose进行采集建模,通过一些算法达到识别人体行为的目的.Xin等[8]提出一种基于特征选择的模板识别方法,但是这个方法每个动作的参考模板过于单一,这使动作之间的差异性降低.Li等[9]提出一种人体关节点角度测量的姿势识别算法,该方法能够实时监测人体骨骼节点之间的角度,但是对于一些细微动作的检测还是不够明显.

综合上述方法的分析研究,针对文献[10]提出的一种双流时空卷积方法存在的一些问题,本文提出一种基于Kinect的改进双流时空卷积神经网络方法进行人体动作识别.该方法首先使用RestNet-50网络模块替换了原网络中的VGG-16网络模块,增加其网络的深度,然后引入了残差连接和批标准化,减少了梯度消散和数据过拟合问题,实现良好的网络效果.进过HMDB-51和UCF-101两个数据集上的实验对比分析,验证了改进的双流卷积神经网络是可行的.

1 人体骨骼特征提取

1.1 关节点的坐标获取与转换

人体是一个复杂的结构,为了方便计算与分析,将复杂的人体结构,简化为图1所示的人体关节点骨骼模型.其选取人体中的20个主要关节,并进行数字标记,将整个人体结构进行简化.为了计算方便,就必须对这些关节点的坐标转化到世界坐标系中.设第一个关节点的坐标为M1(x1,y1,z1)并将这个关节点定位主要关节点,然后带入式(1)中求出剩下关节点转换后的坐标.

图1 关节点标记图Figure 1 Joint point marking diagram

M′i=M1(x1,y,z1)-Mi(xi,yi,zi)

(1)

其中M′i为转换后的坐标,M1(x1,y1,z1)为关节中心点.

1.2 关键点的行为特征提取

人体的行为是动态的,为了提取动态人体行为特征,假设输入一张时空图片为G(N,E),某一段视频的帧数为T,将每个关节点在T帧内的特征矩阵表示为Ni,则所有关节点在T帧内的特征矩阵集合表示为:

N={nti|t=1,2,3,…,T,i=1,2,…,20}

(2)

E分为两个部分,一个是单帧内所有关节点连接集合Es,另一个是在T帧内同一位置关节点的连接集合Ef.图2为人体关节点的时空图构建图.

图2 人体关节点的时空图构建图Figure 2 Construction of spatiotemporal map of human joint points

Es={ntintj|(i,j=1,2,…,20) }

(3)

Ef={ntin(t+1)i}

(4)

为了更好地区分动作之间的差异,可以使用余弦相似度来到达区分的目的.假设两个节点的坐标为A(xi,yi,zi),B(xi+1,yi+1,zi+1),

那么两个相邻关

节点的向量就可以表示为:

(5)

通过式(3)求得两个相邻节点之间形成的特征向量,就能根据式(4)求出两个相邻向量之间的夹角θ.

(6)

其中i=1,2,…,20.

2 时空卷积神经网络

2.1时空双流神经网络

时空双流卷积网络进行人体识别时,会从两个方面对视频数据进行处理,一个是空间维度,空间维度处理的是单帧内的人体行为信息,而另一个时间维度处理的是连续视频帧的光流信息产生的光流图像[11],图3是时空双流神经网络的结构示意图.

图3 时空双流神经网络结构Figure 3 Structure of spatiotemporal dual flow neural network

双流神经网络结构采用的是VGG-16网络[9],VGG-16网络有13个卷积层和3个全连接层,该网络在每次池化之后,经过卷积通道数都会翻倍,这样的好处就是为了保留更多的特征.但是,随着层数不断提高,准确率反而降低.所以本文便提出一种改进的时空双流神经网络来解决这一问题.

2.2 改进时空双流神经网络

根据上文所述,双流卷积网络VGG-16模型所存在的问题,本文提出使用RestNet-50网络模型替代了原有的VGG-16模型,并且在该网络中加入了残差模块,便增加了双流网络的深度,同时减少了数据过拟合,降低了梯度爆炸问题,实现良好的网络效果.表1是RestNet-50的网络结构.每个网络层都有不同数量的残差模块,在第一层和第五层结束后面分别有一个最大池化层和一个平均池化层,最后还有一层全连接层.

表1 RestNet-50网络结构

2.3 残差连接

RestNet-50网络相对于 VGG-16 网络模型来说,增加双流网络的网络深度,但同时也会出现一些新的问题,梯度消散、网络退化等等,为了解决这一问题,本文在网络中加入了残差连接模块.图4为残差模块的结构图.

图4 残差模块Figure 4 Residual module

2.4 整体识别网络设计

本文设计的基于Kinect的双层时空卷网络结构如图5所示,首先通过Kinect提取到的骨骼关节点序列,然后通过软件将这些序列分成两个部分,传入空间模块和时间模块两个子网络中,这两个网络由5个卷积层构成,卷积完成之后再送入dropout层中减少数据的过拟合,然后进行数据的融合与连接,最后再分类输出.

图5 整体识别网络结构Figure 5 Overall Identification Network Structure

3 实验与结果分析

实验环境:Windows 10 操作系统;CPU:Intel core i5-10200H;显卡:NVIDIA GTX1650Ti 4G GDDR6 独立显卡;运行内存:8G;利用 MatlabR2020b 搭建深度学习框架.

3.1 数据集

本文所使用的数据集为HMDB-51和UCF-101这两个被广泛使用的数据集.HMDB-51数据集和UCF101数据集都是从YouTube收集来的具有真实动作视频的动作识别数据集.HMDB-51拥有来自51个动作类别的6 849个视频,每个动作至少包含101个视频,分辨率320*240.UCF101拥有来自101个动作类别的13 320个视频,在动作方面具有最大的多样性,101个动作类别的视频分为25组,每组可以包含4～7个动作的视频.

3.2 数据训练和实验测试

利用OpenPose 在VS2017软件上将 HMDB-51和UCF-101 数据集里面的视频分解为空间和时间两个部分,空间为单帧RGB图像,时间为光流图像,视频的帧数设置为20帧,通过Kinect相机中算法对扫描单帧RGB图像中的骨骼关节点.在Matlab2020上构建深度学习框架,将单帧RGB图像和光流图像分别输入到空间和时间两个子卷积网络中,融合卷积完成之后再送入dropout层中减少数据的过拟合,然后进行数据的融合与连接,最后再分类输出.训练次数设置为100,数据集中70%作为训练集,30%作为实验集,最终实验的结果如图6所示,HMDB-51的识别准确率为70.8%,UCF-101的识别准确率为91.4%,在准确率上有明显提高.

图6 HMDB-51和UCF-101的验证结果Figure 6 Validation Results of HMDB-51 and UCF-101

3.3 与其他方法对比

在HMDB-51和UCF-101 数据集上面与其他研究方法进行对比,识别准确率进行对比结果如表2所示.本文算法与多个文献中所使用的方法都有略微的提高,通过结果的比较,可以看出本文所提出的方法能更好完成动作识别任务.

表2 与其他研究方法对比Table 2 Comparison with other research methods

4 结语

本文提出一种基于Kinect的双流时空卷积网络进行人体动作识别的方法.该方法在舍去了原有的双流卷积模块中的VGG-16框架,用RestNet-50网络框架代替,并加入残差模块,增加了网络深度,减少梯度消散和数据过拟合,在HMDB-51和UCF-101这两个数据集上的识别率分别是70.8%和91.4%,对比其他方面,本文方法在识别率上有明显提高,但是由于网络深度的增加和残差模块的加入,增加了网络模型中的参数,且识别训练花费的时间较长,前期对视频的处理方式有一些复杂化,这些问题将在今后的工作中进一步完善.