基于3D卷积神经网络的人体行为识别方法

2017-12-02 15:08张颖袁和金

软件导刊 2017年11期

张颖　袁和金

摘要：

为了提高视频中人体行为识别的准确率，更好地利用视频中的原始信息，提取出更具有代表性的特征，提出一种基于3D卷积神经网络的人体行为识别方法。该方法构建了一个深层三维卷积神经网络模型，使用三维卷积核进行卷积操作，提取视频中人体行为的时域和空域特征，通过多层卷积操作对底层特征进行再组合，得到抽象的高维特征。在KTH数据集上的实验结果表明，该方法有较好的识别效果。

关键词关键词：

人体行为识别；3D卷积神经网络；深度学习

DOIDOI：10.11907/rjdk.172515

中图分类号：TP301

文献标识码：A文章编号文章编号：16727800（2017）011000903

0引言

智能视频分析一直是具有重要学术价值的研究领域，人体行为识别作为该领域必不可少的一部分，成为新的研究热点，在智能视频监控、高级人机交互、体育运动分析和基于内容的视频检索等方面有着广阔的应用前景。

目前主流的人体行为识别方法大多使用人工设计的特征对视频中的人体运动进行表征，如轮廓、剪影、HOG、Harris、SIFT以及这些特征在三维上的扩展等。人工设计特征是一种利用人类智慧和先验知识，将这些知识应用到目标和行为识别技术中的很好方式[1]。但这种方式需要人工发掘能够表现运动的特征，而人工选择的特征有时较难表现出动作的本质特征，对识别结果影响较大。

深度学习作为机器学习的重要发展，能够自动学习合适的表示特征，因而在众多领域得到了广泛应用。其典型应用之一的卷积神经网络（Convolutional Neural Networks，CNN），它继承了深度神经网络强大的特征提取能力，模拟人脑认知过程的多层次模型结构，建立特征层次结构以获得更有效的特征，通过局部感知、权值共享等减少训练参数，在图像处理方面有着突出表现。卷积神经网络最早由Fuksushima[2]提出，之后，LeCun等对神经网络结构等进行了大规模改进，先后出现了如LeNet5[3]、AlexNet[4]、VGGNet[5]、GoogleNet[6]和ResNet[7]等一系列具有良好性能的卷积神经网络结构，这些网络在被应用到各类不同的图像识别任务中时有不错的表现。

视频作为相互关联的图像在时间维度上的连续序列，同样可以通过卷积神经网络进行处理。为了利用CNN的良好特性识别视频中的人体行为，本文构建了3DCNN模型，通过三维卷积操作对视频中的人体行为进行时域和空域的特征提取。

1卷积神经网络

卷积神经网络主要由特征提取和分类器两部分组成，其中特征提取部分由多个卷积层和下采样层交叠组成，分类器一般使用一层或两层全连接神经网络。图像数据无需过多预处理直接作为网络输入，经过多个特征提取阶段后连接分类器得到输出。

（1）卷积层。卷积层包括一系列可学习的卷积核，卷积核有一个很小的感受域，局部感受区域以一定步长在输入图像上滑动并卷积，计算像素的点积加偏置后，通过一个激活函数产生一个激活映射输出，通过卷积操作提取图像的局部特征得到特征图，遍历整个原始图像之后得到的所有输出组成特征图。

（2）下采样层。原始图像经过卷积操作几乎不损失信息，如果将卷积操作后得到的特征直接进行分类，将产生很大的计算量。另外，原始图像中丰富的细节信息容易使网络出现过拟合现象。通过下采样可以逐步减小特征图规模，计算量也随之减少，分类变得较为容易，也使特征具有平移、缩放不变性。通常的做法是在卷积层之间加入池化层，具体方法包括平均池化、最大池化、随机池化等。

23D卷积神经网络

3D卷积神经网的输入是多个连续帧堆叠在一起的立方体，可以在3个尺度上同时提取特征。通过三维卷积核，可以对连续的多个帧进行特征提取，特征立方体可以连接到上一层中的多个连续帧，从而捕获一段时间内的运动信息。

（1）3D 卷积层。3D卷积神经网中的卷积核是三维立方体，在网络当中，卷积层中的每个特征立方体都可与上一层中多个邻近的连续帧相连，进行卷积操作。三维卷积過程如图1所示，一个特征立方体某一位置的值是通过卷积上一层的多个连续帧同一位置的局部感受得到的。

第k层隐含层第m个特征立方体位置（x， y， z）处神经元的输出值计算公式如下：

vxyzkm=f（bkm+Pk-1p=0Qk-1q=0Rk-1r=0wpqrkmnu（x+p）（y+q）（z+r）（k-1）n）（1）

式中，v为第k层（x， y， z）处的输出，u为第k-1层隐含层到第k层的输入，第k层卷积核大小为Pk ×Qk×Rk，f（·）是激活函数，bkm为该特征立方体共享的偏置，n为k-1层与当前特征立方体连接的特征立方体索引；wpqrkmn为第k层第m个特征图位置（p， q， r）上的神经元和k-1层第n个特征图之间的权值。

（2）3D下采样层。在将视频序列输入3D卷积神经网中时，如果想要表达完整的动作信息，就要持续采集较长的连续帧，使数据量急剧增加。所以同时在时间、空间维度上进行三维下采样，逐步缩小特征图规模，减少卷积层之间的连接，也能起到降低训练难度、提高训练准确率的目的。同2D卷积神经网一样，常用的下采样方法也有最大池化、平均池化、随机池化等。三维最大池化公式如下：

vx，y，z=max0≤i≤S1，0≤j≤S2，0≤k≤S3（ux×s+i，y×t+j，z×r+k）（2）

式中，u为池化层三维输入向量，v为池化后得到的输出，s、t、r分别为3个方向的采样步长。采样后特征图尺寸减少，计算量也会大大减少，同时网络对时间域和空间域上的变化更加鲁棒。

33D卷积神经网络框架构建

本文构建的3D卷积神经网络框架如图2所示，1个输入层、5个3D卷积层和5个3D池化层互相交错穿插，最终连接两个全连接层后得到分类结果。endprint

第一层为输入层。由连续15个相邻视频帧的灰度图像组成，尺寸为120×160。C1～C5为卷积层，每层的卷积核均为3×3×3，卷积核数量由16～256依次递增，以便从低级的特征组合产生更多类型的高层特征；S1～S5层为下采样层，使用最大池化方法，降低特征图分辨率，缩小特征图规模，减小计算量，提高对输入图像畸变的容忍能力。其中S2、S4层使用2×2×2的窗口同时对时间维度和空间维度进行下采样，其它层使用1×2×2的窗口，只在空间维度上进行下采样。D1层是全连接层，包含256个神经元。S5层输出的特征立方体与D1层的256个神经元相连。D2层是第二个全连接层同时也是输出层，神经元个数为6，与目标类别数目相同。D2层每个神经元与D1层256个神经元全连接，最后由分类器softmax回归进行分类，得出能够标记行为类别的输出。

4实验结果及分析

4.1数据集

本文在KTH人体行为数据集上进行实验。KTH数据库包括在4个不同场景下25个人完成的6类动作（walking、jogging、running、boxing、hand waving和hand clapping），共计600个视频，每个视频中相同行为进行了3～4次，总共可提取出2 391段视频样本，包含了尺度变化、衣着变化和光照变化。本文选取数据集25人中的16人作为训练样本，9人作为测试样本。

4.2实验过程

实验首先将数据集中的人体行为视频处理为灰度模式，提取一个动作序列中的15帧关键帧作为本文构建的3D卷积神经网的原始视频输入，每帧大小为120×160。其中，卷积层使用的卷积核大小为3×3×3，D卷积层C1～C5和全连接层D1使用ReLU作为激活函数，输出层D2使用Softmax作为激活函数，优化函数使用SGD（随机梯度下降）函数，学习率为0.01，损失函数使用多类交叉熵函数。训练迭代50次，每训练10个样本进行一次梯度计算。

4.3结果及分析

图3显示了在本文构建的3D CNN模型下，KTH数据集上训练次数和人体行为识别准确率的关系曲线。可以看出本文构建的模型在进行30轮左右的训练后开始收敛，训练好的网络拥有较好的人体行为识别效果。

图3训练次数与人体行为识别准确率关系曲线

表1给出了KTH数据集上一些常用的人体行为识别方法的识别准确率[810]。本文构建的3D卷积神经网模型识别准确率为91.67%，高于Ji[8]构建的3D CNN模型。Ji构建的3D卷积神经网模型只有2层卷积层，每层卷积核数较少，较少的卷积核只能提取出少量特征，而较少的卷积层层数，则使网络无法提取出更为抽象的高层特征。本文构建的网络模型，使用了多层卷积层，卷积核数依次增加，后面的卷积层可以通过对前面卷积层提取出的特征进行组合，得到更加抽象的特征。

另外可以看出，使用HOG、光流、SIFT等人工设计特征的模型相对准确率较高，其原因是这类方法通常需要对视频进行充分的预处理，然后进行特征提取，而在复杂环境下，视频中难以提取到足以描述复杂行为的准确特征。而本文方法不依赖于人工设计的各种特征，输入网络的是原始视频数据，利用深度神经网络强大的自学习能力，从大量训练样本中自行习得人体行为特征。随着层数加深，学习到的特征会更加抽象，更加能够从本质上描述不同的人体行为，同样取得了较好的识别效果。

5结语

本文构建了识别视频中人体行为的3D卷积神经网，通过3D卷积神经网对视频中的人体行为进行识别。使用3D卷积神经网可以将原始视频数据进行简单预处理后直接作为网络输入，同传统的人工提取行为特征的方法相比，避免了传统行为识别算法中复杂的特征提取和数据重建过程，能够充分利用原始视频数据信息，捕捉深层次特征；同2D卷积神经网络相比，3D卷积核可以同时在时间维度上进行特征提取，让网络自行学习时间维度上的特征，使得人体行为识别更加准确。该模型在KTH数据集上有较好表现。

參考文献参考文献：

[1]郑胤，陈权崎，章毓晋.深度学习及其在目标和行为识别中的新进展[J].中国图象图形学报，2014，19（2）：175184.

[2]FUKUSHIMA K.Neocognitron：a hierarchical neural network capable of visual pattern recognition[J]. Neural Networks， 1988（2）：119130.

[3]Y LECUN， L BOTTOU， Y BENGIO， et al. Gradientbased learning applied to document recognition[J]. Proceedings of the IEEE， 1998，86（11）：22782324.

[4]ALEX KRIZHEVSKY， ILYA SUTSKEVER， GEOFFREY E HINTON. ImageNet classification with deep convolutional neural networks[C].NIPS12 Proceedings of the 25th International Conference on Neural Information Processing Systems，2012：10971105.

[5]K SIMONYAN，A ZISSERMAN. Very deep convolutional networks for largescale image recognition[J]. Computer Science， 2014.

[6]SZEGEDY C， LIU W， JIA Y， et al. Going deeper with convolutions[C].Computer Vision and Pattern Recognition（CVPR）， 2015：19.

[7]HE K， ZHANG X， REN S， et al. Deep residual learning for image recognition[C].Computer Vision and Pattern Recognition （CVPR）， 2016 IEEE Conference on.2016：770778.

[8]SHUIWANG JI，WEI XU，MING YANG，et al. 3D convolutional neural networks for human action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence，2013，5（1）：221231.

[9]WANG H， ULLAH M M， KLSER A， et al. Evaluation of local spatiotemporal features for action recognition[C]. British Machine Vision Conference， BMVC ，2009：710.

[10]谢飞，龚声蓉，刘纯平，等.基于局部和全局特征视觉单词的人物行为识别[J].计算机科学，2015，42（11）：293298.

责任编辑（责任编辑：黄健）endprint