基于深度神经网络的行为识别算法

2021-03-15 07:01汪洋
电脑知识与技术 2021年3期

汪洋

摘要:在计算机视觉领域中,行为识别是重点研究问题。而随着大规模行为数据的收集以及计算机水平的提升,深度神经网络得到了长足发展,计算机视觉性能超越了以往,但是当前方法也存在一些局限。本文就深度神经网络中的行为识别算法展开研究,首先阐述了行为识别现状,其次分布分析了RGB视频行为识别和人体骨架3D行为识别。

关键词:深度神经网络;行为识别算法;集成学习

中图分类号:TP393      文献标识码:A

文章编号:1009-3044(2021)03-0017-02

随着科技的发展,日常生活中的行为会被摄像头记录下来,大量视频网站纷纷涌现。近年来,随着智能手机的普及,人们会将日常生活中所拍摄的视频发送到网上,这些视频为计算机技术带来了新的发展机遇。而在密集场所中,摄像设备安装数量也越来越多,其中记录了大量视频资料,包含各种人体行为。这些功能都需要行为识别算法才能够实现,这对计算机视觉技术提出了更高的要求。

1 行为识别现状

近年来,计算机视觉技术发展迅速,行为识别也得到了较大的发展,但是其中也存在一些问题亟待解决。当前,行为识别定义不够确定,人体行为比较复杂,行为定义难度加大。同一行为在不同人的执行下,流程有所不同,导致时序提取特征呈现复杂性现象。而现有RGB视频数据集都是人工截取形成的长视频,不同人的截取不同,样本市场也不同,且存在信息冗杂、执行主体不明等问题[1]。同时,不同角度摄像头对同一行为的拍摄不同,会导致样品出现较大差异,不同角度行为识别难度随之增加。此外,针对复杂多人交互行为,样本采集本身就比较困难,其还需要与人体分割结合起来,难度大大增加。

2 RGB视频行为识别

人体行为分为时间和空间这两个维度,基于此,本文基于深度神经网络展开设计,以解决RGB视频行为识别中的不足。以卷积神经网络为空间特征提取器,设计的双流长短时记忆模型,该模型如图1所示。

2.1 特征提取

1) VGG16网络。改为案例具有加强的空间特征提取力,其中蕴含13个卷积层以及3个全连接层,如图2所示,其为网络结构。从图中可以发现,该网络的卷积核为3*3系列,对比5*5系列,计算量明显减少。而网络层数增加也使得网络特征空间持续扩大,但是通道数也在逐渐增加。卷积操作能够提取空间临近视频信息,重复操作能够得到高纬度空间特征[2]。

2) ResNet152网。ResNet实现残差连接,解决反向传播午安梯度回传问题,且在3*3卷积堆叠、批次正则化等基础上,网络层超过100层,且训练参数也有所减少。重复残差连接能够实现深度神经网络[3]。

2.2 长短时记忆模型

1) 全连接长短时记忆模型。为解决循环神经网络中时间间隔大、无法连接长时间间隔外信息问题。由此提出了长短时极易模型,其中包含了遗忘门、输入门、输出门这三个门。其中,遗忘门包括t时刻输入以及t-1时刻隐含状态,其决定了信息需要丢弃多少,影响更新[4]。

2) 卷积长短时记忆模型。该模型结构类似于上一模型,其是将部分全连接变为卷积操作,通过卷积完成学习权重,卷积操作能够学习空间信息,长短时记忆模型能够实现时序建模。在时序建模时就已经提取了空间特征。

2.3 时间和时空注意力机制

1) 时间注意力机制。为识别行为,在全连接长短时记忆模型后设计时间注意力机制,其能够针对模型不同时刻输出评分,进而自动学习视频帧。该机制中包括全连接层和SoftMax函数、∑函数[5]。训练完成后,价值视频帧可得高分,无价值视频帧得分较低,最后,通过一系列计算后可得整个视频输出特征。该机制如图3所示。

2) 时空注意力机制。卷积长短时记忆模型基础上的注意力机制,其不仅能够判断帧,同时也能够学习关键帧及其周边区域。

2.4 联合优化模型

注意力机制后可得两种输出特征,其代表了一个行为视频样本,内部特征较为相似。由此设计了联合优化模块,可以对特征向量进行训练,并将视频中的语义、时间和空间等特征充分挖掘出来。由LSTM网络产生的特征向量的注意模型各不相同,具有明显特征,且存在内在联系。同时,利用同一分类器对两个向量进行处理,进而得到其内在联系。通过两倍量特征数据所得的训练更强,得到的识别效果也更好。

3人体骨架3D行为识别

3.1基网络

基网络包括Block1、Block2和Block3三个模块,堆叠完成后,连接均值池化层和全连接层。一个基本一维卷积层内含一个一维卷积层以及批次归一化层、修正线性激活单元激活函数、DropOut操作。如图4。这种网络无须大量数据就能够实现较好的训练质量,且结构扩展性也比较好,各层间也能够实现任意添加,构成所需网络模型。

3.2 双流网络

該网络中包括基网络和SoftMax层。SoftMax层会产生相应类别分数,彼此相互融合。基网络用于特区时间和空间两个维度上的特征。SoftMax层能够产生相应类别概率矩阵,得分可以融合。矩阵中,元素表示网络对表现置信水平,二者成正比。矩阵相应元素经过计算可得新矩阵,其中的元素差异比较大,也就是说,彼此置信水平会有较大差异,在于时间和空间判别信息结合后,可以提高网络信息判定可靠性,且有着更好的识别效果[6]。

3.3 肢体分离网络

日常生活的大部分行为都需要肢体运动才能完成,但是其中应用的肢体只是一部分,其他的肢体是处于静止状态的。这种行为就是微观行为。基于此,本文设计了一种微观特征提取网络。人体包括五部分,在整个进入网络前,可以分为五部分,之后分别将其数据融合到各自的基网络中。根据数据微观特征,神经网络可以提取微观运动特征。

3.4 注意力网络

注意力机制包括全连接层和SoftMax层。全连接层需要激活函数,SoftMax层则需要针对每帧或每个特征通道评分,赋予关键帧或特征通道更高分,之后经过计算构成新特征。在基网络卷积层和Block上附着注意力机制。

3.5 帧差网络

本文设计了帧差网络对行为相对运动特征进行提取。通过函数计算处理了原始样本数据,可得新相对位置信息,其能够将行为运动情况直接表达出来,帧差网络包括基网络和SoftMax层,在该网络中,卷积核只能够在时间维度进行滑动。

3.6 训练测试

训练时,本文的目标焊接就是交叉熵损失函数。在子网络进行独立训练时,其中的SoftMax层可得相应的概率矩阵,测试时,本身针对四个概率矩阵设计两种方法完成融合,这两种方法分别为相乘和相加这两种融合。

4 结束语

计算机视觉技术迅速发展使得人们对于视觉信息的理解更加深入,计算机就是通过收集人体行为数据,理解人体行为,扩大了应用范围,提高了应用率。深度学习就是通过计算机强大的硬件条件及其所收集的大量样本,使得计算机视觉和语言处理效果提高。

参考文献:

[1] 齐琦,钱慧芳.基于融合3DCNN神经网络的行为识别[J].电子测量技术,2019,42(22):140-144.

[2] 陈胜,朱国胜,祁小云,等.基于深度神经网络的自定义用户异常行为检测[J].计算机科学,2019,46(S2):442-445,472.

[3] 張怡佳,茅耀斌.基于双流卷积神经网络的改进人体行为识别算法[J].计算机测量与控制,2018,26(8):266-269,274.

[4] 刘云,张堃,王传旭.基于双流卷积神经网络的人体行为识别方法[J].计算机系统应用,2019,28(7):234-239.

[5] 关百胜,卞春江,冯水春,等.基于神经网络的交互式异常行为识别研究[J].电子设计工程,2018,26(20):1-5.

[6] 石英,孙明军,李之达,等.基于运动历史图像与卷积神经网络的行为识别[J].湘潭大学学报(自然科学版),2019,41(2):109-117.

【通联编辑:光文玲】