基于时空双分支网络的行为检测与识别技术研究

2023-09-19 13:34:34林灵婷翁凌雯
电子设计工程 2023年18期
关键词:分支特征提取时空

潘 丹,林灵婷,翁凌雯,李 棋,常 尧

(1.国网福建信通公司,福建 福州 350013;2.安徽南瑞继远电网技术有限公司,安徽合肥 230601)

随着科学技术的不断发展,智能摄像头已被广泛应用于交通、医疗、安保等各个领域[1],由此产生的图像数据也随之呈指数级增长。而对于海量视频数据的及时、高效处理成为了当前的热点研究方向。尤其是在安防领域的异常行为检测方面,其时效性与准确性均有较高要求[2]。

人体行为识别技术通常包括特征提取及特征理解识别两部分。其中特征提取是识别准确率的关键,如基于人工特征与基于深度学习(Deep Learning)的方法[3-4]。前者具有复杂度较低、易于实现的优点,但其识别精度和鲁棒性较差[5]。而基于深度学习方法的行为表达能力不受所提取特征的限制,因而具有较好的适应性及准确性[6]。但现有方法相对较为繁杂,低复杂度和准确性通常无法兼顾[7]。

为此,该文提出了一种基于时空双分支网络的行为检测与识别方案,用于电厂/工区监控视频的人脸识别与违章安全行为的检测。

1 时空特征提取网络

在时空特征提取网络中,利用卷积神经网络(Convolutional Neural Network,CNN)获取图像的空间域特征,同时基于循环神经网络(Recurrent Neural Network,RNN)提取图像的时域特征,如此能够更好地获得图像的时空特征,便于后期的行为检测与分类[8-9]。

1.1 CNN的空间特征提取网络

CNN 模仿人类视觉神经结构,通过卷积层与池化层提取信息特征,其模型结构如图1 所示。

图1 CNN网络结构

其中,卷积层是提取图像特征的过程。其将图像特定部分抽象到特定的层中,可看作是一个压缩过程,能够有效地减少参数量。池化层作用于每个输入的卷积层特征并能够对其进行有效地缩减,通常包括最大池化(Max-Pooling)、平均池化(Mean-Pooling)等方法。而该网络采用最大池化,通过卷积过程中创建的特征最大值减小数据尺寸。

此外,在神经网络的训练过程中,首先通过网络的前向传播获得张量x,其计算如下:

式中,x是张量,l是图层,ReLU 是校正线性单元激活函数,*表示卷积运算,b是偏置量,ω是权重。

然后通过均方误差(Mean Square Error,MSE)计算损失函数L,为:

式中,n为网络的总输出个数,代表f(x)为网络输出值,y为真实值。

最后,使用优化算法更新网络的权值。通常而言,通过构建深层网络来提取更深层次的特征信息,可获得更准确的特征表达[10]。

1.2 RNN的时域特征提取网络

RNN 是一种人工神经网络(Artificial Neural Network,ANN),其通过内部循环结构将过去的学习以权重形式反映在当前的学习中,能够解决现有连续、重复及顺序数据学习的局限性,适用于处理时间序列问题,该网络结构如图2 所示[11-13]。

图2 RNN网络结构

RNN 结构的数学表达如下:

式中,W1、W2、W3分别是上一时刻和此时刻的隐藏层权重、输入层与隐藏层间权重、输出层与隐藏层间的权重。ht是t时刻隐藏层的输入,Y是网络输出值,δ、σ分别是激活函数,b1、b2均是偏置量。

2 提出的行为检测与识别框架

在基于时空双分支网络的行为检测与识别网络中,首先,通过时空双分支网络获取视频流中的行为特征。然后,利用Softmax 函数进行行为分类。整体网络架构,如图3 所示。

图3 提出的行为检测与识别网络架构

为了解决高帧率及高通道数与计算量间的问题,采用双分支形式设计时空特征提取网络。其中,一个分支输入的是低帧率的视频数据,在该分支上能够尽可能多地提取空间信息;而另一个分支输入的是高帧率的视频数据,虽然数据量较多,但该分支侧重于获取高时间分辨率下快速变化的运动,通道数较少。

2.1 特征融合

为保证双分支网络能够端到端地进行训练,所提网络采用横向连接的方式融合两个分支的特征[14]。当两个分支进行融合时,若每个分支的时间帧数相等,则容易进行特征融合,但显然高帧率分支与低帧率分支中时间帧数不同,因此需将其时间域维度调整至相同后再进行融合[15-16]。所提网络利用将高帧率分支特征压入低帧率分支且进行横向连接融合的方式,如图4 所示。

图4 横向连接融合方式架构

换言之,在对应的时间帧上将两个分支中的特征通道进行串联叠加,即可保证信息的完整性。

通常而言,双分支结构在融合调整通道数时使用1×1 的卷积。但当通道数增加时,该方式产生的参数量会大幅增加,因此采用分组卷积的方式以降低计算量。但由于通道分组是在1×1 卷积进行时将所在小组内的通道加以融合,会造成不同小组内的信息无法流通,从而不利于最终的行为识别。为此,引入通道混合的思想,将原先所划分的小组再适当划分成更小的子组,子组间相互混合,并在此基础上进行分组卷积,如此便可更好地融合高帧率分支与低帧率分支中的图像特征。

2.2 行为识别与分类

基于时空双分支网络提取图像特征后,利用Softmax 函数计算出各种行为识别的分类得分,最终将得分加权求和以得到融合分数并预测行为标签。

3 实验结果与分析

实验的原始数据来源于某电厂的监控视频数据,其中包含20 个摄像头采集的视频信息及20 000张目标图像。针对电厂的特殊场景,行为检测的关键在于纠察安全隐患,因此涉及的行为主要包括四种:跨越围栏、穿越警戒线、起吊物下停留和高空抛物。此外,基于Python 深度学习框架进行实验,CNN 及RNN 的权值共享,且迭代次数为1 500 次。

3.1 行为分类结果

为了论证时空双分支网络的性能,将其与传统的时空特征提取网络进行对比。电厂内人员各种行为的识别准确率,如图5 所示。

图5 行为识别结果

从图中可以看出,起吊物下停留的识别结果较好,由于在进行跨越、穿越、抛物等动作时,上肢及身体摆动的幅度较大,因此不易识别。而所提的时空双分支网络具有更高的准确率,以高空抛物为例,其准确率约为93%,较传统的时空特征提取网络提高了9%左右。由于时空双分支网络利用混合组卷积及横向连接,充分融合了图像的空域特征与时域特征,且全面考虑了高频及低频图像的特征,故识别效果更优。

3.2 与其他技术的对比分析

时空双分支网络能够有效提取图像特征,将其应用于电厂内人员的行为检测,与文献[2]、文献[4]、文献[6]得到的识别准确率对比如图6 所示。

图6 不同技术的行为识别准确率

从图6 可以看出,相比于其他技术,该文技术的行为识别准确率最高,大约为94%,且收敛速度最快。这是由于其采用时空双分支网络来提取图像特征,并利用Softmax函数进行行为分类,能够较大程度保证分类的准确率。文献[2]利用Faster R-CNN 网络以及文献[6]利用隐马尔可夫模型进行行为检测,二者均采用单一识别技术,故得到的准确率低于所提技术。而文献[4]利用专家知识设计行为检测技术,受主观因素的影响较大,因此整体识别准确率低于90%。

4 结束语

随着电厂智能化水平的提升,各种视频监控数据剧增,如何高效地识别人员行为、保障运行安全成为了亟待解决地问题。为此,该文采用时空双分支网络技术展开了基于视频信息的行为检测与识别方案研究。首先,利用时空双分支网络获取到行为图像的特征,然后,将其输入Softmax 函数进行分类,从而得到了人员的行为类型。以某电厂的真实视频数据集为样本进行的实验测试结果表明,时空双分支网络对于动态行为的识别准确率更高,提高了大约9%,而且该文所提技术方案的识别准确率高达94%,具有良好的工程应用价值。

虽然该文技术能够在理想的情况下获得较高的识别准确率,但并未考虑存在遮挡等情况。因此,在接下来的研究中将重点关注遮挡等特殊情况,以提高行为检测技术的鲁棒性。

猜你喜欢
分支特征提取时空
跨越时空的相遇
镜中的时空穿梭
巧分支与枝
学生天地(2019年28期)2019-08-25 08:50:54
玩一次时空大“穿越”
基于Daubechies(dbN)的飞行器音频特征提取
电子制作(2018年19期)2018-11-14 02:37:08
一类拟齐次多项式中心的极限环分支
Bagging RCSP脑电特征提取算法
时空之门
基于MED和循环域解调的多故障特征提取
生成分支q-矩阵的零流出性