胡 韬
美国、欧洲对人体行为识别已开展了深入的研究,国内的研究机构比如中科院、浙江大学对人体行为识别也积极地开展了研究。人体行为识别中已有各种算法,而把深度学习技术应用于人体行为识别于近几年来才慢慢开展。深度学习在人体行为识别中进展迅速并且有着不错的表现,长时递归卷积神经网络、双数据流卷积神经网络在不同的数据集中都能表现良好,并且所用的特征提取方法代替了原先低效、复杂的人工特征提取。因此,深度学习在人体行为识别有着巨大的研究价值和潜力。
在人体行为识别中有两个常用的简单数据集:Weizmann 数据集和KTH 数据集。这两个数据收集人体行为数据,将数据分成样本集和标签集。Weizmann 数据集发布于2005 年,标签集中共包含10 种人体行为,分别为走路、跑步、前跳、跑步、弯腰、挥单手、挥双手、原位置跳、连续跳和单脚跳,数据集一共90 个视频,视频的分辨率为180×44。KTH 数据集发布于2004 年,由25 个实验员在4 个场景中完成,标签集中共有6 种人体行为,分别为拳击,拍手,挥手,慢跑和走路,一共包含600 个视频,视频的分辨率为160×120。
在深度学习特征提取方法之前,大量采用了人工特征提取方法,即人基于自己的经验从视频中找出所需要的特征。2013 年,iDT 算法逐渐被广泛接受和使用,其准确率和效率远远高于传统的人工特征提取方法,但其计算过程较复杂。而深度学习的算法在某些方面表现更优,深度学习神经网络一般由以下3 种结构组成:卷积神经网络、循环神经网络和全连接神经网络,通过这三种不同的结构可以组合出无数种神经网络,适用于不同的特征提取情况。在组合出神经网络模型的结构以后,我们通过已有的数据训练神经网络,正向传播得到预测值,通过预测值和真实值之间的差距,反向传播不断调整神经网络中的参数,直到参数达到最佳值,保存模型和最佳值,用于特征提取。
双通道深度卷积神经网络模仿人类大脑视觉皮层的信息处理,人类大脑视觉皮层的信息处理有两个通道:一个通道用于对目标物体的感知,另一个通道用于处理物体的动作信息的处理。双通道深度卷积神经网络采用了双通道来获取视频信息,空间通道用于获取物体的静态特征,时间通道用于获取物体的动态特征,最后综合空间和时间通道信息来综合分析和判断。
双通道深度卷积神经网络通过两个通道来获取信息,空间通道处理视频中每一帧的图像信息,时间通道处理光流图像信息,最后将两个通道的信息融合来分析最终结果,如图1。时间通道处理光流图像信息基于高精度光流估算算法,该算法有以下假设:像素值连续假设,即视频中同一像素点在位置发生变化以后,像素点的值不发生变化;光滑性假设:位移场在物体的边缘处保持连续。在以上假设的基础上,我们可以用能量方程和欧拉-拉格朗日定理对光流图像信息进行提取。在提取水平和竖直方向的光流值后,将光流值存入一张RBG 图片的三个通道值,得到一张彩色图片,即实现光流信息的表达。
图1
双通道深度卷积神经网络空间通道结构基于VGGNet 卷积神经网络,一共有13 个卷积层和三个全连接层,具体如下:
输入层的图像采用224×224 的彩色三通道RGB图像,并随即调整图像的顺序。
第一复合卷积层共包含两个卷积层和一个池化层,两个卷积层的卷积核的大小都为3×3,两个卷积核的个数都是64,步长为1。池化层采用最大池化,池化层的窗口大小为2×2,步长为2。
第二复合卷积层包含两个卷积层和一个池化层,两个卷积层的卷积核的大小都为3×3,两个卷积核的个数都是128,步长为1。池化层采用最大池化,池化层的窗口大小为2×2,步长为2。
第三复合卷积层包含三个卷积层和一个池化层,三个卷积层的卷积核的大小都为3×3,三个卷积核的个数都是256,步长为1。池化层采用最大池化,池化层的窗口大小为2×2,步长为2。
第四复合卷积层包含三个卷积层和一个池化层,三个卷积层的卷积核的大小都为3×3,三个卷积核的个数都是512,步长为1。池化层采用最大池化,池化层的窗口大小为2×2,步长为2。
图2
第五复合卷积层包含三个卷积层和一个池化层,三个卷积层的卷积核的大小都为3×3,三个卷积核的个数都是512,步长为1。池化层采用最大池化,池化层的窗口大小为2×2,步长为2。
全连接层共包含三个全连接层,第一个全接连层包含4 096 个神经元,第二个全连接层也包含4 096 个神经元,第三个全连接层的神经元个数根据识别类别个数确定。前两个全连接层都采用dropout 策略,以防止过拟合。
最后一个输出层采用softmax 分类器,对各个类别的概率进行计算。
双通道深度卷积神经网络空间通道结构如图2所示。双通道深度卷积神经网络时间通道结构和空间通道的网络结构类似,在全连接层的神经元个数有所不同,神经元的个数从4 096 改成1 024。空间通道和时间通道的激活函数都采用Relu 函数。
双通道深度卷积神经网络空间通道和时间通道的层数都较深,有16 层,但因为卷积核的个数有限,总共的参数并不多,因此训练的收敛时间较快。通道中用到连续卷积层,这样能够提高准确率,突出图像特征。模型中大量采用了小卷积的网络结构,该结构不仅能够加强网络的特征提取能力,还能够大量减少参数的个数。
本文从4 个方面阐述了深度学习在人体行为识别中的应用:深度学习在人体行为识别的应用现状、两大重要的人体行为识别数据集、深度学习特征提取方法和双通道深度卷积神经网络。重点阐述了双通道深度卷积神经网络的原理、结构和具体设计。