王毅 马翠红 毛志强
关键词: 行为识别; 三维卷积; 双向LSTM; 双中心loss; 联合训练; 计算机视觉
中图分类号: TN915.07?34; TP391 文献标识码: A 文章编号: 1004?373X(2019)14?0078?05
Research on action recognition based on 3D convolution and bidirectional LSTM
WANG Yi, MA Cuihong, MAO Zhiqiang
(College of Electrical Engineering, North China University of Science and Technology, Tangshan 063210, China)
Abstract: Accurately identifying the content in video is the direction of future Internet application and development. The behavior recognition in video is the research focus in the field of computer vision. In order to make full use of the information in video and improve the accuracy of action recognition, an action recognition algorithm based on 3D convolution and bidirectional LSTM is proposed in this paper. Specifically speaking, a spatial attention module based on three?dimensional convolution is proposed, which can focus on the salient features of the spatial region. In order to better handle long?time video, a new time?based module based on bidirectional LSTM (long?and short?term memory network) is introduced, which aims to focus on key video instead of the key video frame of a given video, adopts double?center Loss (calculation loss function) to optimize network for joint training in two?stage strategies, and enables it to simultaneously explore spatial and temporal correlation. The results of the tests with the HMDB?51 and UCF?101 data sets prove that this method can accurately identify similar actions in video, the accuracy of action recognition is greatly improved, and the recognition effect is remarkable.
Keywords: behavior recognition; 3D convolution; bidirectional LSTM; double center loss; joint training; computer vision
0 引 言
对神经学和人类认知的研究表明,人类在观察世界时,注意的并不是整个环境,而是注意环境的显著部分和一系列的关键时间信息。这种机制促使本文设计一种适用于现实行为的识别模型。
现有的视频人体行为识别方法有两方面的不足。
1) 多数基于空间注意的方法,受LSTM的输入形状限制,这些方法将相应的特征图拉伸成连续的矢量序列,这显然忽略了空间相邻区域的关系。
2) 多数基于时间注意的方法,更注意每个帧的重要性。忽略相邻帧之间具有的相关性,使得时间注意模型为每个帧分配相似或相等的注意值。研究表明,8帧长的视频剪辑足以让人类识别正在发生的动作。为了克服这两方面的不足,本文设计一个空间注意模型,可以结合相邻空间相关的信息,同时设计一个时间注意模型,可以在视频剪辑之间分配不同的注意值,没有任何额外的时间正则化。
本文提出一种新的基于三维卷积与双向LSTM的时空注意模型。空间域信息可以通过精心设计的3D卷积模块以弱监督的方式获得,其中本文没有给出任何帧级语义标注而是给出视频级动作标签。通过双向LSTM获得重要的时间域信息,然后采用双中心loss优化网络对两阶段策略联合训练。在没有任何额外的空间或时间正则化的情况下,模型完全可以实现端到端训练。
1 空间注意模型
本文设计3D卷积网络显示出包含的语义信息和特征映射,所提出的空间注意模型仅包含3D卷积和逐元素操作,所以训练此网络是有效的。在弱监督的情况下,本文获得视频级别标签。空间注意模型可以被视为3D残差块,该模型的主要优点是它由几个分离的时空分支组成,因此对环境变化更具鲁棒性。此外,该模型具有将输入层连接到输出层的标识分支,确保了学习的特征与原始输入相当。
对于每个视频序列V,本文首先将其拆分为8帧视频剪辑,将其中间级别的特征图表示为[V,X=X1,X2,…,Xt,Xi∈Rw×h×d,i=1,2,…,t。]其中[w],[h],[d]分别是特征映射的宽度、高度和通道号。本文使用ResNet3D[1]的架构,[w=h=28,][d=128],所以[Xi∈R28×28×128]。时间范围内的帧可能会有所不同,因此使用8帧短视频剪辑探索空间信息。
本文提出的空间注意模块如图1所示。首先建立空间卷积(2D)分支以获得空间注意力引导,考虑到短视频片段中的時间相干性,本文还构建了额外的时间卷积(1D)分支。这两个分支可以表示为:
[Si=Xi?Ws+BsTi=Xi?Wt+Bt] (1)
式中:[Ws∈R3×3×1],[Wt∈R1×1×3]是3D卷积的参数;[Bs]和[Bt]是卷积偏差;[Si]和[Ti]是两个分支对应的输出。这两个分支首先被整合为空间?时间单元,然后通过softmax激活进行处理,以获得由其定义的空间注意门:
[Gi=δ(Si+Ti)] (2)
相应的门输出重新激活:
[O′i=vGi⊙Xi] (3)
式中,⊙表示逐元素相乘。
此外,本文还应用了一个双层全连接分支,表示为:
[Ai=δXi?W1+B1?W3+B3] (4)
式中:[Wj∈Rj×j×j和Bj(j=1,3)]是学习参数;[Ai]是加法输出,最终的输出为:
[Oi=vO′i⊙Ai] (5)
在实验中,为了更好地保存前一层信息,输出被重新表述为:
[Fi=Oi+Xi] (6)
这里受ResNet的启发,最终将卷积核数设为512。经过平均池化后,空间注意网络的最终输出大小为[R1×1×512]。
2 时间注意模型
本文将视频分成短视频剪辑而不是视频帧,并在剪辑级别分配比重。本文应用多层LSTM进行序列分类,即动作识别。所提出的时间注意模型与现有模型完全不同,因为本文的时间注意模型是在视频剪辑级别操作,而其他模型是基于帧级别操作。
空间注意网络输出的大小为[R1×1×512],这是时间注意模型的输入,然后本文将空间注意特征向量重新表示为[Xi∈R512,i=1,2,…,t]。本文的目标是测试视频序列中每个特征向量的比重。通常,由于空间注意力与空间相邻区域相关,因此时间特征不仅与当前视频剪辑相关,而且与邻近的过去和未来视频剪辑相关。基于此假设,本文使用双向LSTM构建时间注意模型。双向LSTM和基本LSTM之间的一个主要区别在于隐藏状态,在双向LSTM(见图2)中,在每一个时间[t]有两个隐藏状态,称为前向隐藏状态[ht]和滞后的隐藏状态[ht]。集成隐藏状态为:
[ht=htoht] (7)
式中,“o”表示合并操作。然后获得时间特征:
[βt=σwTht+b] (8)
通过softmax激活获得归一化,得:
[βt=δwTtβt] (9)
3 两阶段策略联合训练
本文采用双中心loss(计算损失函数)优化网络对两阶段策略联合训练。网络反向传播过程中是通过计算损失函数完成的,在大多数的模型中一般是利用softmax的损失函数,传统的softmax?loss为:
[Lj=-i=1mlogeWTyixi+byij=1neWTjxi+bj] (10)
式中:[xi]表示第[i]个特征向量;[yi]表示类别标签;[n]为类别数;[m]表示小批量大小;[W]表示权重;[b]为偏置项。
Wang等设计了中心softmax?loss函数用于人脸识别任务,将特征空间中的每一个类别都保持一个类中心C,如图3a)所示[2]。具体而言,中心loss同时学习每个类别的深层特征的中心C,并惩罚深层特征与其相应的类别中心之间的距离,从而能够减小类内距离并扩大类间距离。文中loss函数包含softmax?loss和中心loss两部分,其中心softmax?loss的计算公式为:
[Lc=12i=1mxi-cyi22L=Lj+λLc] (11)
式中:[xi]表示第[i]样本特征向量;[cyi]表示该样本所属类别的特征值中心;[Lc]表示中心loss计算公式;[Lj]为softmax函数的loss;[λ]为两者所占比重。
本文在中心loss的基础上设计了双中心loss,见图3b)。双中心loss分别维护空间特征中心[CAS]和时间特征中心[CLT],两者按一定权重系数[WAS]和[WLT]融合形成质心[Ci]。本文采用线性加权方式确定权重系数[WAS]和[WLT],使质心[Ci]在[CAS]和[CLT]的连线之间,从而能够保证质心[Ci]同时离两者之间距离最近。公式如下:
[L=Lj+WASLCAS+WLTLCLT] (12)
式中:[WAS]和[WLT]为双中心loss的权值系数;[LCAS]表示ASM特征中心loss;[LCLT]表示LTM特征中心loss。
为了防止目标函数过拟合,可以在2C?softmax的loss中加入正则项。在网络结构中,融合特征(Fusion Features)单元对整个行为识别过程具有巨大的影响,所以将加入融合特征单元权值的二范数作为正则项,公式如下:
[LF=12i=1mWFi22] (13)
式中:[m]为小批量的大小;[WFi]为第[i]个特征样本的权值;[F]表示融合特征单元个数。那么式(12)可以改写为:
[L=Lj+WASLCAS+WLTLCLT+αLF] (14)
式中,[α]为正则项系数。
4 实验数据集
本节对所提出的算法测试了两个标准动作识别的数据集:UCF?101和 HMDB?51,与最先进的其他算法相比,例如C3D和双流网络等[3]。
UCF?101是具有挑战性的动作识别数据集,在视点、比例、背景、照明、相机运动和持续时间方面有很大变化。由13 320个视频组成,分为101個类别。HMDB?51是更具挑战性的动作识别数据集,有6 849个视频,分为51个类。视频是从电影和YouTube中提取,因此HMDB?51更具挑战性。
5 实验平台搭建
对每个视频,本文使用OpenCV[4]提取帧,而不更改其原始帧速率,将每个视频分成8帧视频剪辑并提取其空间信息。空间注意网络基于ResNet3D,本文将卷积块表示为Conv,将特征块表示为Identity,然后ResNet3D的体系结构可以表示为Conv1(64)?Conv2a(64) ?Identity2b(64)?Conv3a(128)?Identity3b(128)?Conv4a(256)?Identity4b(256)?Conv5a(512)?Identity5b(512)?pool?fc(c),括号中的数字表示内核的数量。本文的空间注意网络可以表示为Conv1(64) ?Conv2a(64)?Identity2b(64)?Conv3a(128)?SA(128)?Conv4a(256)?Identity4b(256)?Conv5a(512)?Identity5b(512)?pool ?reshape(512),其中SA表示空间注意块。时间注意网络由具有512个隐藏节点的单层双向LSTM组成。
本实验网络是在深度学习框架caffe[5]平台上构建的。对于空间注意网络,采用具有学习率的随机梯度下降法(SGD),[lr=0.001];对于时间注意网络,使用具有学习率的均方根误差法(RMSprop),[lr=0.001]。空间注意模型的最大迭代次数为30 000次,而时间注意模型在10次迭代后停止。
5.1 空间注意模型分析
本节分析所提出的空间注意模型的有效性。在UCF?101和HMDB?51数据集上对几种先进的算法进行比较。结果如表1所示。第一组方法,例如 DynamicImage[6],MotionImage和TemporalNet,运用2D卷积网络,这些方法对于静态图像是可行的,但对图像序列的损失太大。第二组方法,比较C3D,ResNet3D和本文的空间注意网络,证明3D卷积网络[7]对视频数据的处理效果更优。
5.2 时间注意模型分析
本节分析时间注意模型的可行性。表2表明了有无时间关注注意的结果(wiTA和woTA)。通常,时间注意模型可以通过最大池化、平均池化或串联来合并。本文列出了这三种策略中的最佳结果。
在三个数据集上进行测试,表明本文提出的时间注意模块提高了测试精度,而且时间注意模型的全连接网络(FC)优于复合网络(MoE)和LSTM。
为了验证本文算法提出的双中心loss对网络模型的作用,对比不同的loss设计方案对网络的影响。实验结果表明,单一地采用双中心loss对行为识别影响效果不大,但加入融合单元的正则项后,识别的准确率得到明显提高。不同loss方案对网络的影响如表3所示。
5.3 与其他方法进行比较
本节验证了所提出的基于三维卷积与双向LSTM的网络在几个数据集上与其他方法相比的有效性。表4显示了在HMDB?51和UCF?101数据集测试的结果。
对于HMDB?51和UCF?101数据集,双流是最先进的方法。它利用帧级和光流级信息作为输入,所以主要是多模态模型。另外,将长视频帧压缩为短视频帧或单视频帧表示的缺点是缺乏区分帧与序列的时间信息。尽管光流表示视频序列,但它需要更高的预计算,将这些单帧与随机选择帧相结合也可以提高它们的性能。通过测试结果比较,本文提出的模型得出了最优的结果。
6 结 论
本文提出的基于三维卷积与双向LSTM的识别模型,用于视频中的人体行为识别。在该模型中,空间注意网络利用视频帧的显著区域,并且时间注意网络致力于探索多个视频剪辑的比重分配。空间注意模型建立在三维卷积上,时间注意模型是基于双向LSTM,然后采用双中心loss优化网络对两个阶段策略联合训练。结果表明,该网络对于人类行为识别是有效且有前景的。在未来的工作中,将考虑用鲁棒特征表示的稀疏张量和张量正则化方法。这些方法可以用于目标检测、背景减除和动作识别。此外,由于视频帧本身包含丰富的时间信息,未来的工作是用无人监督的方式实现更强大的视频识别。
注:本文通讯作者为马翠红。
参考文献
[1] JI S W, XU W, YANG M, et al. 3D convolutional neural networks for human action recognition [J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 221?231.
[2] WANG L, XIONG Y, WANG Z, et al. Towards good practices for very deep two?stream ConvNets [J]. Computer science, 2015(7): 1?5.
[3] 秦阳,莫凌飞,郭文科,等.3D CNNs与LSTMs 在行为识别中的组合及其应用[J].测控技术,2017,36(2):28?32.
QIN Yang, MO Lingfei, GUO Wenke, et al. Combination of 3D CNNs and LSTMs and its application in activity recognition [J]. Measurement and control technology, 2017, 36(2): 28?32.
[4] 黎松,平西建,丁益洪.开放源代码的计算机视觉类库OpenCV的应用[J].计算機应用与软件,2018,22(8):134?136.
LI Song, PING Xijian, DING Yihong. Open source computer vision library OpenCV applications [J]. Computer applications and software, 2018, 22(8): 134?136.
[5] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks [C]// Proceedings of the IEEE International Conference on Computer Vision. Los Alamitos: IEEE Computer Society Press, 2015: 4489?4497
[6] PENG X J, ZOU C Q, QIAO Y, et al. Action recognition with stacked fisher vectors [C]// Proceedings of the European Conference on Computer Vision. Heidelberg: Springer, 2014, 8693: 581?595.
[7] SUN L, JIA K, YEUNG D, et al. Human action recognition using factorized spatio?temporal convolutional networks [C]// Proceedings of the IEEE International Conference on Computer Vision. Los Alamitos: IEEE Computer Society Press, 2015: 4597?4605
[8] Simonyan K, Zisserman A. Two?stream convolutional networksfor action recognition in videos [C]// Proceedings of the Advances in Neural Information Processing Systems. Cambridge: MIT Press, 2014: 568?576
[9] WANG P, CAO Y, SHEN C, et al. Temporal pyramid pooling based convolutional neural networks for action recognition [J]. IEEE transactions on multimedia, 2017, 27(12): 2613?2622.
[10] WANG H, SCHMID C. Action recognition with improved trajectories [C]// Proceedings of the IEEE International Conference on Computer Vision. Los Alamitos: IEEE Computer Society Press, 2013: 3551?3558.
[11] Idress H, Zamir A, Jiang Y G, et al. The THUMOS challenge on action recognition for videos "in the wild" [J]. Computer Vision and Image Understanding, 2017, 155: 1?23.
[12] Kuehne H, Jhuang H, Garrote E, et al. HMDB: a large video database for human motion recognition [C]// Proceedings of the IEEE International Conference on Computer Vision. Los Alamitos: IEEE Computer Society Press, 2011: 2556?2563.