融合时间和空间上下文特征的群体行为识别

2022-09-28 07:29程雅儒孙永宣吴克伟武金金
智能计算机与应用 2022年9期
关键词:时序个体群体

李 骏,程雅儒,谢 昭,孙永宣,吴克伟,2,武金金

(1合肥工业大学 计算机与信息学院,合肥 230601;2 合肥工业大学 工业安全与应急技术安徽省重点实验室,合肥 230601)

0 引 言

群体行为识别,是通过对人员密集场所的视频分析,并对其突发性群体行为进行识别,有利于维护公共场所安全,避免人员伤亡和财产损失,已被广泛应用于视频监控、视频摘要、视频检索等领域。个体行为识别模型只需要识别个体的单独行动,而群体行为识别,需要依据个体的行为,推断出个体之间的群体活动。视频中,个体的关系是隐藏的,且行为特征具有复杂的时序信息,个体之间的行为会相互干扰,影响多人关系的估计结果,而解析个体的时序信息具有一定的挑战性。

群体的外观特征通常使用卷积神经网络来提取,但无法提取群体的时序信息。实验表明,虽然可以利用长短期记忆网络(LSTM)提取个体的时序信息,但会导致网络性能下降。现有的图模型结构只专注于群体的外观信息和位置信息,不能够很好地表达群体关系,导致群体行为识别效果欠佳。

针对上述问题,本文提出了一种时间上下文模块,用来解决个体特征缺乏时序信息的问题。通过通道级的时间位移方法,每个个体的时序信息都得到增强。为了保证群体建模的完整性,构建了基于融合通道级时间上下文特征的空间图模型,该图模型使用外观和位置信息,实现对空间关系的编码。在增强时序信息的基础上,通过建立多个个体关系图来模拟个体之间的相互关系,将每个个体的全部特征描述为图模型的每个节点,通过图模型的推理,完成行为分类。

1 相关工作

1.1 视频特征学习

早期的视频特征学习主要采用传统手工制作的视觉特征,或采用与概率图模型结合的方法。在图模型的基础上,多尺度模型And-or通过对不同的群体粒度进行建模,对群组行为分类。双流卷积神经网络还可以额外学习视频帧的光流图像特征,进一步识别不同的行为。时间分段网络在双流的基础上做出改进,通过稀疏采样和加权池化来识别行为特征。膨胀三维卷积网络通过将2D CNN参数膨胀拓展为3D CNN,可以解决TSN单一视频权重的问题。

1.2 交互关系分析

群体行为分析的细节存在于群体结构中。与个体行为识别不同,群体行为识别更重要的是分析个体之间交互关系。层次关系网络(HRN)使用固定的群体结构,来学习个体之间的相互关系强度。卷积关系机(CRM)使用多阶段的群体结构误差,来优化群体行为识别结果。时空注意力图网络stagNet被用于估计图结构中,用于表达目标之间的关系。

图卷积网络(GCN)在结构化数据的表示和推理方面具有优势。图注意力交互模型(GAIM)将群体节点加入图模型,并利用自注意力同时学习个体之间和个体与群体之间的关系。在图模型中引入LSTM可以增强时序信息。置信度能量循环网络(CERN)在LSTM的动态特征基础上构建图模型,在图模型构建阶段,可以获得群体的时序信息。本文在模型的设计中应用了图卷积网络,将个体的信息作为图模型一个节点。为了保证群体建模的完整性,在图构建的过程中引入了多图策略。

2 融合时间和空间上下文特征的群体行为识别

本文使用Inception-v3对视频序列提取特征,通过RoIAlign从帧特征图中提取每个个体的边界框特征,将对齐的特征通过全连接层得到每个个体的原始特征。原始特征经过通道级时间上下文模块,与图卷积特征相加得到多图融合特征,最终融合特征通过群体分类器和个体分类器完成行为的分类。整体网络框架如图1所示。

图1 融合时间和空间上下文特征的群体行为识别网络Fig.1 The group activity recognition model based on temporal and spatial context features

2.1 通道级时间上下文模块

本文设计了通道级时间上下文模块,该模块通过对个体特征的多个通道进行时间平移,可以让视频帧获得相邻帧的时序信息,在图模型的建立过程中增强模型的时序信息,并最终影响行为分类的结果。

通道级位移策略如图2所示,对于个体特征的通道位移,本文分别采用时间延迟后移、时间双向移动、时间循环双向移动策略来实现。

图2中描述了本文设计的3种位移方式,考虑了不同的位移方式对于模型性能的影响,并最终选择时间循环双向移动作为模块内特征位移的方式。

图2 通道级位移策略Fig.2 Channel-wise shift strategies

通过时间循环双向移动的位移策略,既增强了时序信息,也确保个体特征不会丢失,保证了图模型构建过程中建模的完整性。

2.2 多图时空特征融合模块

由于图模型能够实现结构化数据的表示和推理,本文在建模中利用图模型来模拟群体行为中的成对个体关系。图定义为:{,},其中,节点{v},边{e},节点编号为1,2,…,,1,2,…,,这里表示群体中个体的数量;节点有外观特征和位置特征;表示图模型节点之间的相互关系。通过估计边上的关系取值,构成关系矩阵,表示个体和个体的关联性。

在考虑上下文建模时,对2个个体的特征使用线性变换来学习投影特征,在投影的基础上,通过点积和归一化来估计2个个体的关系。使用α来表示学习到的2个个体上下文特征关系值,计算方式如下:

本文建立了一组多图的关系矩阵进行图推理。使用图卷积网络实现了图的推理过程,对于图中的目标节点,根据其周围全部个体的权重进行更新。研究中使用X来表示图模型输出的特征,其数学表述见如下:

2.3 群体行为识别

将多图融合特征通过Max Pooling池化层减少维度,得到群体行为特征。并将群体行为特征与权重参数矩阵做线性变化,可以得到每一帧的结果,将视频序列的平均预测结果作为群体行为识别的结果。群体行为的预测标签y数学计算公式具体如下:

2.4 损失函数

整个模型可以通过反向传播的方式,进行端到端的训练,使用损失函数来评价预测值和真实值偏差的程度,损失函数的运算公式可写为:

3 实验

3.1 数据集与评价标准

本文在Volleyball数据集和Collective Activity数据集上分别进行了实验。对此拟做阐释分述如下。

(1)Volleyball数据集。由55场排球比赛中收集的4 830个视频片段组成,其中包括3 493个训练片段,1 377个测试片段。在每个视频片段中,视频的中间帧标注了个体的边界框、个体行为标签和群体行为标签。总地说来,群体行为标签有8种,分别是Right set、Right spike、Right pass、Right winpoint、Left set、Left spike、Left pass、Left winpoint;个体行为标签 有9种,分 别 是Blocking、Digging、Falling、Jumping、Moving、Setting、Spiking、Standing、Waiting。实验中,使用一个长度为10的时间窗口,对应于标注帧的前5帧和后4帧。未被标注的个体边界框数据从该数据集提供的轨迹信息数据中获取。

(2)Collective Activity数据集。由低分辨率相机拍摄的44个视频片段组成,总共约为2 500帧。每个视频片段每10帧有一个标注,标注包含个体行为和群体行为标签,以及个体的边界框。共5个群体活动标签,分别为Crossing、Waiting、Queueing、Walking、Talking;6个个体行为标签,分别为NA、Crossing、Waiting、Queueing、Walking、Talking。实验中的2/3视频用于训练,其余用于测试。

本文采用多类正确率(Multi-Class Accuracy,)作为评价标准,先求出所有类别的正确样本数,并除以所有类别的样本总数来获得多类正确率。

3.2 实验环境及参数设定

本文实验使用Inception-v3提取视频特征,RoIAlign为每个个体提取1 024维度特征,这些特征是在每个个体边界框约束下提取的。数据集参数设定如下:

(1)Volleyball数据集。网络超参设置为:为8,参数为0.3,学习率初始设置为1e-4,权重参数为图片宽度的1/5,网络训练180个周期,每30个周期学习后变为之前的0.5倍,学习率在4次衰减后停止衰减。

(2)对于Collective Activity数据集。网络超参设置为:为16,参数为0.5,初始学习率为1e-3,权重参数为图片宽度的1/5,网络训练80个周期,每10个周期学习率变为之前的0.1倍,学习率在4次衰减后停止衰减。

实验在64位Ubuntu16.04上进行,编程环境选择Python3.7,实验采用Pytorch1.4深度学习平台。计算机配置英特尔Xeon(R)W-2133处理器,内存为64 G,配有2块GeForce RTX 2080Ti显卡。

3.3 对比实验

在Volleyball数据集上,本文方法与其它方法对比的结果见表1。由表1可以看出,本文方法的效果优于其它方法,其识别准确率相比于VC模型提高了1.0%。在个体行为准确率识别中,也表现出了最佳的性能,相比于AT模型提高了0.4%。

表1 在Volleyball数据集上与其它方法的对比Tab.1 Comparison with the state-of-the-art methods on Volleyball dataset

在Collective Activity数据集上,本文方法与其它方法对比的结果见表2。由表2可知,本文方法性能优于现有的行为识别方法。在群体行为识别准确率上,本文模型相对于VC模型提高了0.4%;在个体行为识别准确率上,相对于GLIL模型提高了0.2%。

表2 在Collective Activity数据集上与其它方法的对比Tab.2 Comparison with the state-of-the-art methods on Collective Activity dataset

3.4 消融实验

为了验证本文方法的有效性以及各个模块的效果,在Volleyball数据集上进行消融实验分析。设计了一种特征通道位移的时间上下文模块,讨论了通道位移策略对于识别准确率的影响。实验效果数据见表3。

表3 在Volleyball数据集上不同位移方式的效果Tab.3 Effects of different shift modes on Volleyball dataset

由表3可见,在使用时间循环双向移动时,既得到完整的时序信息,也保证了个体特征的完整性,且正确率得到了明显的提升。因此,本文最终选择时间循环双向移动策略。

3.5 可视化分析

实验中使用t-SNE来可视化不同模型的标签分离度。其可视化结果如图3所示。

从图3中可以看出,相对于VC模型,本文方法在Right pass和Right winpoint这2类群体行为中有着更好的分离度,其它行为的分离度也优于VC和MLIR模型,验证了使用本文方法学习到的场景特征有更好的分离效果。

图3 在Volleyball数据集上t-SNE可视化Fig.3 t-SNE visualization on Volleyball dataset

4 结束语

本文提出了一种新的通道时间上下文模块,通过在特征通道层面进行通道时间位移,使用时间循环双向移动作为位移策略,有效增强了个体的时序信息。其次,本文构建了基于融合通道级时间上下文特征的空间图模型,实现多复杂空间关系的编码。通过在2个公开的数据集上进行试验分析,结果显示本文方法优于现有群体行为识别方法,验证了本文方法的有效性。

猜你喜欢
时序个体群体
顾及多种弛豫模型的GNSS坐标时序分析软件GTSA
行为免疫系统对个体就医行为倾向的影响*
江苏海外新华商群体探秘
清明
基于GEE平台与Sentinel-NDVI时序数据江汉平原种植模式提取
你不能把整个春天都搬到冬天来
达到群体免疫,没那么容易
“小团体主义”帽子不要随便扣
明确“因材施教” 促进个体发展
中间群体