结合Attention-ConvLSTM的双流卷积行为识别

2021-03-13 06:00揭志浩曾明如周鑫恒
小型微型计算机系统 2021年2期
关键词:短时记忆双流准确率

揭志浩,曾明如,周鑫恒,何 强

(南昌大学 信息工程学院,南昌 330031)

1 引 言

相比于诸如物体检测,人脸识别等领域,在利用视频数据进行人体行为识别方面,神经网络的表现依然欠佳.究其原因,是视频数据相比于图像信息还具有时间属性,传统的神经网络主要依靠静态的图像RGB信息,而不能充分利用人体的运动信息[1,2].近年来卷积神经网络在机器视觉方面得到了很好的发展,它也逐渐被运用到人体行为识别.双流(Spatial-Temporal Stream)卷积神经网络是目前运用最广泛的方法之一[3],相比于传统的方法主要依靠静态图像的RGB信息进行视频数据分析,双流卷积还可以利用视频数据中被检测目标随时间变化的运动信息.在双流卷积的基础上,Du Tran[4]等人提出了3D卷积,将2D的卷积核替换成3D,对连续帧视频数据进行卷积处理.Feichenhofer[5]等人探究了多种对双流信息进行融合的方法,并且发现相比于softmax层,在卷积层对双流信息进行融合效果更好.Zhu[6]等人提出的卷积结构可以自动提取视频数据的时间流信息,而不需要对视频数据进行预处理.这些方法虽然综合分析了连续多帧视频数据中的人体运动信息与RGB信息,但是这些方法在视频级的分析和识别上基于平均预测,对于长时间范围的运动信息分析往往并不准确.长短时记忆循环(LSTM)神经网络在处理序列模型的数据时表现出色,被广泛运用于诸如机器翻译,语音识别等领域.由于视频数据具有天然的序列属性,Donahue[7]等人提出将LSTM用于视频的描述与识别,取得很好的效果.但是传统的长短时记忆循环神经网络有其结构性的缺陷,这是因为LSTM把所有的输入都当成向量.在文献[7]中,虽然所有的数据都进行了卷积处理,但是在输入到LSTM之前都要进行向量化,这种操作无疑破坏了视频数据的空间特征.

综上可知,对视频数据的时间和空间属性同时进行很好地分析仍然是艰难的工作,且而在视频背景复杂的情况下,现有的方法普遍缺乏有效的机制对一些显著特征实现有效的抓取和利用.

针对上述问题,本文提出将基于注意力机制的卷积长短时记忆循环神经网络与双流卷积中的时间流进行结合,一方面实现了较长时间跨度的时间流数据的输入输出,另一方面将LSTM直接作用于神经网络的卷积层,更好地保留了光流信息的空间特征.注意力机制使得神经网络对视频数据中的显著特征和关键帧进行了更好的利用.本文优化了扩展之后网络的正则交叉熵损失函数,使得神经网络能够实现更快的收敛.

2 双流卷积网络

最早用于人体行为识别的双流卷积神经网络由Simonyan[8]等人提出,如图1所示他们提出将视频数据分为两个数据流,即空间流(Spatial stream)和时间流(Temporal stream)/光流(Optical stream),并将其分别输入到不同的卷积神经网络,空间流负责处理静态图像的RGB信息,时间流处理被检测目标的运动信息(即连续帧视频数据中特征点随时间的位移信息),最后在softmax层对双流数据流进行融合.

图1 双流卷积神经网络Fig.1 Two-stream CNN

3 LSTM

1997年Sepp等人在文献[9]中提出了一种长短时记忆(Long Short-Term Memorry)循环神经网络,如图2所示,把传统循环神经网络的隐藏层自连接单元用LSTM单元替换,解决传统循环神经网络在反相传播时存在的梯度消失和梯度爆炸的问题,LSTM网络更新递归公式如下:

图2 长短时记忆单元Fig.2 LSTM unit

(1)

其中W是权重矩阵,σ是激活函数.ct为记忆单元,每次的输入输出都对其进行一定程度的更新,it代表输入门,它决定新的输入对新的记忆单元的影响程度,ft代表遗忘门,它决定旧的记忆单元对新的记忆单元的影响程度,ot为输出门,由它得出的输出作为一个隐藏状态输入到下一个LSTM单元,各门值与记忆单元均为同维的列向量.由式可知在t时刻的各门值由t-1时刻的记忆单元,隐藏状态,新的输入,及偏置值共同影响,合理地设置遗忘门和更新门,可以较为容易地把记忆细胞中的信息传递到更远,既克服了传统循环神经网络存在的梯度消失和梯度爆炸的问题,又使得神经网络可以更好地学习长时间范围内输入输出之间的依赖关系。但是式(1)中的it和ht均为列向量,这种网络结构处理具有明显空间特征的图像和视频数据显然是不合理的,因为列向量并不能反映数据中各局部特征的之间的空间关系.

4 ConvLSTM

Xingjian[10]等人第一次提出了卷积的长短时记忆循环神经网络(ConvLSTM),这种LSTM在保留传统LSTM的优点的同时,还可以保留诸如图像,视频等信息的空间特征.Seo[11]等人首次将ConvLSTM用于序列图像的识别,得到了很好的实验效果.ConvLSTM的更新递归公式如下:

It=σ(Wxi*Xt+Whi*Ht-1+Wci*Ct-1+bi)
Ft=σ(Wxf*Xt+Whf*ht-1+Wcf*Ct-1+bf)
Ct=Ft⊙Ct-1+It⊙tanh(Wxc*Xt+Whc*Ht-1+bc)
Ot=σ(Wxo*Xt+Who*Ht-1+Wco*Ct+bo)
Ht=Ot⊙tanh(Ct)

(2)

与式(1)相比,式(2)中的W表示卷积核,*表示卷积,⊙表示Hadamard乘,卷积结构相比于向量更加能够保留数据的局部特征及其之间的空间关系.

在利用视频数据进行行为识别方面,传统方法通常在神经网络的全连接层使用LSTM,虽然保留了帧数据的全局特征,但是帧数据的局部特征和空间关系却遭到破坏.行为识别的过程中,局部运动特征及其之间的空间关系至关重要,本文提出在神经网络的卷积层使用LSTM,将输入xt扩展成N×N×D的输入Xt,其中N×N即为在当前卷积层feature map的大小,D为该卷积层的通道数.

5 Attention-ConvLSTM

注意力机制最早由Bahdanau等人在文献[12]中提出,应用于机器翻译.这种机制通过自动地分析数据的局部特征据与预测结果之间的相关性,使得神经网络可以选择性地关注输入数据的重要特征[13],从而赋予一些关键特征更大的权重,其在自然语言处理,机器翻译等方面表现出色[14,15].Kelvin Xu等人在文献[16]中首次将注意力机制应用于机器视觉并且取得了很好的效果.由于注意力机制可以实时动态地关注数据中显著特征,赋予它们不同的权重,这使得当数据中存在多种特征,并且当数据中存在强干扰时这种机制的作用更加明显.

St=Ws*tanh(Wxa*Xt+Wha*Ht-1+ba)

(3)

(4)

(5)

图3 基于注意力机制的卷积长短时记忆网络Fig.3 ConvLSTM based on attention mechanism

(6)

(7)

式中C为所有可能的分类数目,y=(y1,…,yC)T是数据集真实的标签,当前视频行为属于第i类行为时yi=1,yj=0(j≠i).θ表示所有的模型参数,为了防止神经网络的过度拟合也对其作了限制.

6 实验与结果分析

本文的实验基于UFC101[17]和HMDB51[18]两个通用人体行为数据集,UFC101中包含了101类的13320个视频片段,在视频长短,行为类别,视频背景,相机运动,摄像角度等方面有很好的多样性.HMDB51包含51类的6766个视频片段,其视频片段有更大的类内差别和更小的类间差别,所以更具有挑战性.对于这两个数据集,都将其中80%的视频片段作为训练集,剩下的20%作为测试集.本文参考文献[2]中的方法对数据集中视频数据进行了预处理,不同之处在于将抽取的光流数据的帧数从10扩大到20.

本文选取VGG-16[19]作为时间流和空间流的卷积网络框架,它包含13个卷积层,3个全连接层,使用在ImageNet上预训练的模型参数对卷积神经网络进行初始化.本文将VGG-16最后一个卷积层的数据作为Attention-ConvLSTM的输入数据,所有的W~a和W~b均为1×1大小的卷积核,所有的Wx~和Wh~均为3×3大小的卷积核,本文在softmax层对视频的双流数据进行了融合.

为了更好地将本文所提出的方法与传统方法进行比较,本文将简单的双流卷积,结合传统LSTM和结合Attention-ConvLSTM的双流卷积神经网络在相同的数据集上进行了训练和测试,图4-图6分别是以上3种网络在UFC101和HMDB51两个数据集上随着迭代次数从0到300时在训练集和测试集上的准确率曲线.

图4 双流卷积神经网络的训练准确率Fig.4 Accuracy curve of two stream ConvNet

图5 结合传统LSTM双流卷积神经网络的训练准确率Fig.5 Accuracy curve of two stream ConvNet with traditional LSTM

图6 结合Attention-ConvLSTM双流卷积神经网络的训练准确率Fig.6 Accuracy curve of two stream ConvNet with Attention-ConvLSTM

从图4-图6中可以看出,在UFC101和HMDB51上双流卷积神经网络的识别准确率分别为88.0%和59.4%,其结合了传统LSTM的神经网络识别准确率为90.3%和63.2%,结合了Attention-ConvLSTM的神经网络识别准确率为94.6%和69.8%.改进之后的网络也表现出了更好的收敛性,简单的双流卷积和结合了传统LSTM的神经网络在训练集上分别经过280,250次左右的迭代才达到收敛,而结合了Attention-ConvLSTM的神经网络经过200次左右的迭代就达到收敛.且如表1所示,本文提出的方法较其他传统方法在识别准确率上也有较大提升.分析可知,简单的双流卷积网络对于长时间范围和具有复杂运动背景的视频数据识别率是较低的.结合了传统LSTM的双流卷可以更好的利用序列帧数据之间的依赖关系积使得神经网络的性能得到了一部分提高,结合Attention-ConvLSTM的双流卷积可以更好地分析局部特征的空间关系,对显著特征和关键帧实现更有效的利用,这使得神经网络的性能得到进一步提高.

表1 不同算法在UCF101和HMDB51准确率对比Table 1 Comparison of the accuracy of the different algorithms on the UFC101 and HMDB51

7 结 论

在行为识别方面,传统双流卷积神经网络在对长时间范围及包含了复杂运动背景的视频数据进行处理时,抽样帧标签分配常常出错,识别结果基于平均预测,这导致传统方法的识别成功率并不是很高.为了更好地利用了序列帧运动信息之间的依赖关系,本文提出将ConvLSTM和双流卷积中的时间流结合,ConvLSTM相比传统LSTM更能够保留视频数据中的空间信息.为了可以更加准确分析具有复杂运动背景的视频数据,本文还引入了注意力机制,注意力机制使得神经网络可以将运动信息的显著特征和关键帧利用得更加充分.本文提出的新的正则交叉熵损失函数对扩展之后的网络参数进行更好地约束.在UFC101和HMDB51数据集上的实验结果表明本文提出的方法相比于传统方法具有更高的识别准确率,神经网络所需要的训练时间也有所缩短,从而验证了本文提出的方法的有效性.

猜你喜欢
短时记忆双流准确率
国内首条双流制市域(郊)铁路开通运营
四川省成都市双流区东升迎春小学
双流区总工会培训提升工匠技能
种子醒了
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
从认知心理学角度浅谈口译中的短时记忆
吉林大学考古与艺术博物馆观众短时记忆调查报告