徐鹏飞 张鹏超 刘亚恒 呙生富
摘要:针对三维卷积神经网络无法高效地提取时空特征,提出了一种基于SR3D网络的人体行为识别算法。首先,将三维残差模块的BN层和Relu激活函数放置在三维卷积层之前,更好地提取时空特征;然后,将改进的三维残差块和SE模块组合成SR3D模块,增加重要通道的利用率,提高了网络的识别率。在UCF-101和自制异常行为数据集上进行了大量实验结果表明,SR3D算法分别达到了47.7%和83.6%的识别率(top-1精度),与三维卷积网络(C3D)相比分别提高了4.6和17.3个百分点。
关键词:SR3D网络;人体行为识别;视频分类;深度学习;时空特征
中图分类号:TP391 文献标识码:A
文章编号:1009-3044(2022)01-0010-02
1 引言
行为识别在智能视频监控[1]、智能机器人[2-3]等领域有着广泛的应用。早期的传统行为识别方法主要由人为设计的特征来描述视频中的行为,如方向梯度直方图(Histogram of Oriented Gradients,HOG)[4]、密集轨迹特征( Dense Trajectory, DT)[5]等。卷积神经网络(Convolution Neural Network,CNN)[6]已经成功地应用到静态图像识别领域,达到了很高的识别精度,但不能有效地提取时域特征。针对这一问题,余兴[7]提出了一种基于注意力机制的时空融合模型。通过利用基于快进连接的时空融合模型和时域多尺度时空融合模型,对基础深层LSTM网络模型的性能进行了提升。但该网络只能进行单帧识别,容易丢失相邻帧间的关键信息,且训练速度慢。Tran[8]提出了一种三维卷积神经网络,该网络将二维卷积神经网络中的卷积核和池化核从二维扩展到了三维,并将卷积层进行简单的叠加,从而提取时空特征。但三维卷积神经网络参数量较多,容易过拟合,无法高效地提取时空信息。基于以上问题,本文提出了一种基于SR3D的人体行为识别算法。SR3D网络不仅可以重复使用上一层所提取的特征,还能对通道进行重标定操作,使得网络可以多学习一些重要的行为特征,提高行为识别精度。
2 SR3D网络模型
SR3D的网络结构参数如表1所示,第一层的卷积核为3?7?7,目的是扩大局部感知区域,更大范围地提取行为特征。在残差块中,将BN层和Relu激活函数层放置在三维卷积层前面,更好地提取时空特征。在SE模块中,用三维逐点卷积层代替了全连接层,减少了SE块的参数量,加快了网络模型的训练速度。
3实验
3.1 数据集
UCF-101包含101类行为动作,主要分为五大类别:人物交互、身体的运动、人人交互、表演乐器以及体育运动。实验中,按照split1的方式对UCF-101数据集划分为训练集和测试集。
所使用的自制异常行为数据集从网上爬虫获得,包含105个打架视频,126个脚踢视频,118个吸烟视频,154个跑步视频,133个挥拳视频。实验中,按照8:2的比例将自制异常行为数据集划分为训练集和测试集。
3.2实验条件
所提算法均通过FaceBook公司开源的神经网络框架Pytorch实现,平台为Ubuntu18.04,NVIDIATITAN XP GPU。
3.3 UCF-101数据集实验
为了验证本文算法的有效性,在UCF-101数据集上进行了大量的实验。实验采用从零开始的训练方式 ,输入的视频大小为16?112?112,采样间隔为2,训练时使用随机剪裁、随机抖动以及水平翻转来增加训练样本的多样性,并采用小批量随机梯度下降法进行训练。目标函数为交叉熵损失函数,批量處理大小为16,momentum为0.9,epochs为80,初始学习率为0.01,每训练15个epochs,将学习衰减为原来的1/10,一直到训练完成,不同算法的Top-1识别精度如表2所示。
从表2中可以看出:在UCF-101数据集上,SR3D相比3D-ResNet和C3D分别提高了2.5个百分点和4.6个百分点。这说明在复杂数据集上,SR3D比C3D的结构更优异,精确度更高。
3.4 自制数据集实验
自制数据集实验过程与UCF-101数据集实验过程基本相同,不同之处在于将初始学习率设置为0.001。不同算法的Top-1识别精度如表3所示。
从表3中可以看出:在自制数据集上,本文算法取得了83.6%的精确度,比C3D提高了17.3个百分比。虽然自制异常行为数据集存在背景复杂以及光照条件较差等问题,但SR3D仍然取得了较好的结果,充分验证了SR3D网络具有较好的鲁棒性和迁移学习能力,能够更好地提取时空特征,提高识别精度。
4 总结
针对三维卷积神经网络无法高效地提取时空特征,提出了一种基于SR3D网络的人体行为识别算法,并在UCF-101数据集和自制异常行为数据集上进行了大量的实验,取得了较好的结果,验证了所提算法的有效性。由于实验条件有限,在UCF-101数据集上的实验是从零开始的,未来可以将算法在Kinetics数据集上进行预训练,在小型数据集上进行微调,以达到更好的识别效果。
参考文献:
[1] Sutton R S.Learning to predict by the methods of temporal differences[J].Machine Learning,1988,3(1):9-44.
[2] Sutton R S, Barto A G.ReinforcementLearning:Anintroduction[M].Cambridge, MA: The MIT press, 2018.
[3] Watkins C J C H,Dayan P.Q-learning[J].Machine Learning,1992,8(3/4):279-292.
[4] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05).June 20-25,2005,San Diego,CA,USA.IEEE,2005:886-893.
[5] Wang H,Kl?ser A,Schmid C,et al.Dense trajectories and motion boundary descriptors for action recognition[J].International Journal of Computer Vision,2013,103(1):60-79.
[6] Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90.
[7] 余兴.基于深度学习的视频行为识别技术研究[D].成都:电子科技大学,2018.
[8] Tran D,Bourdev L,Fergus R,et al.Learning spatiotemporal features with 3D convolutional networks[C]//2015 IEEE International Conference on Computer Vision (ICCV).December 7-13,2015,Santiago,Chile.IEEE,2015:4489-4497.
【通联编辑:唐一東】
收稿日期:2021-04-16
基金项目:陕西省教育厅重点科学研究技术(20JS022)
作者简介:徐鹏飞(1995—),男,河南南阳人,硕士,主要研究方向为人体行为识别;张鹏超(1977—),男,陕西咸阳人,教授,主要研究方向为机器人及其控制技术;刘亚恒(1994—),男,山西运城人,硕士,主要研究方向为病虫害识别;呙生富(1997—),男,重庆人,硕士,主要研究方向为机器人编队。