应用区域关联自适应图卷积的动作识别方法

2022-04-13 02:40:38郑诗雨
计算机与生活 2022年4期
关键词:骨架骨骼关联

马 利,郑诗雨,牛 斌

辽宁大学 信息学院,沈阳110036

目前,动作识别应用于视频监控、医学影像、犯罪侦查等方面,近年来在计算机视觉领域引起广泛关注。动作识别中所应用的骨架数据能有效表示人体关节的动态3D 位置,对传感器噪声具有鲁棒性,并且利于计算和存储。骨架数据通常通过深度传感器定位关节的2D 或3D 空间坐标或使用基于视频的姿势估计算法来获得。基于骨架数据的动作识别方法由于其对动态环境和复杂背景的强适应性而受到广泛的关注与研究。将骨架数据应用于动作识别主要有基于手工和基于深度学习这两种方法,基于手工制作方法的性能几乎都不令人满意,因此大部分研究更倾向于使用基于深度学习的方法。基于深度学习的方法会自动从数据中学习动作特征,避免手动设置的忽略,其中使用最广泛的模型是基于递归神经网络(recursive neural network,RNN)和基于卷积神经网络(convolutional neural network,CNN)。基于RNN 的方法通常将骨架数据建模为坐标向量的序列,每个向量表示人体关节。并且一些RNN 的模型能捕获连续帧之间的时间依赖性,例如bi-RNN、Deep LSTM、融合特征模型和基于注意力的模型。基于CNN 的方法是通过人工设计的变换规则将骨架数据建模为伪图像,例如残差时间CNN和信息增强模型。然而这种将骨架数据表示为向量序列或二维网格的方法不能完全表示骨架数据的结构,因为骨架数据是以图形的形式,而不是矢量序列或二维网格。

近年来,Yan等人应用图卷积网络(graph convolutional network,GCN)来进行骨架数据的动作识别,提出了一种时空图卷积网络ST-GCN,将骨架数据直接建模为图形结构,获得了比以前方法更好的性能。在此之后GCN 开始广泛应用于基于骨架的动作识别。Tang 等人提出的DPRL通过深度渐进式强化学习帧蒸馏的方法来选择一个动作连续帧中最具代表性的帧,然后通过图卷积网络抽取空间信息。Shi 等人提出的2S-AGCN在ST-GCN 的基础上,提出了自学习的邻接矩阵,并且通过注意力机制为每个样本计算单独的邻接矩阵,应用双流网络融合骨架的一阶与二阶信息。Shi 等人提出的DGNN在2S-AGCN的基础上将骨架图变为有向图。Thakkar等人提出的PBGCN在基于ST-GCN 的基础上改变了原来的分区策略,将人体骨架分为4 个子图,使得信息在子图内部与子图之间传递。Li 等人提出的ASGCN设计了动作结构推断模块,以一个编码器与一个解码器相结合推断人体的非物理连接依赖性,并可以预测之后的动作。Li 等人提出的Sym-GNN在AS-GCN 的基础上加入骨架二阶信息,与骨架一阶信息融合输入网络进行动作预测。

文章采用基于图的方法进行骨架动作识别,应用自适应图卷积从数据中自适应地学习图形拓扑结构,加入注意力机制测定物理连接关节之间的连接性与连接强度,并且应用区域关联图卷积捕获非物理连接关节之间的潜在依赖信息,应用双流网络加入骨架的二阶信息进一步提升性能。模型在NTURGBD 数据集上正确率有了提升,文章的主要贡献有三方面:

(1)应用了一种自适应图卷积网络,以端到端的方式自适应地学习不同GCN 层和骨架样本的图的拓扑结构,从而更好地适应GCN 的动作识别任务。

(2)使用区域关联图卷积捕获非物理连接关节间的潜在依赖关系。

(3)使用骨架数据的二阶信息与一阶信息相结合的双流框架,带来了性能的提升。

1 相关工作

近年来,将卷积从图像推广到图形的图卷积网络(GCN)在许多研究中得到了成功的应用。Yan 等人首先应用GCN 对骨架数据进行建模,骨架在GCN中能够自然地被构造成一个图,以关节为顶点,关节在人体中的自然连接为空间边,在连续帧中相应关节之间的连接为时间边。Yan 等人也提出了一种基于距离的图卷积层分区策略,构建了时空图卷积网络ST-GCN。

1.1 图定义

将每一帧中的骨架数据看作一个向量序列,每个向量表示对应人体关节的2D 或3D 坐标。由于样本不同,一个完整的动作包含多个不同长度的帧。使用一个时空图来模拟这些关节之间的结构信息,包括空间维度和时间维度。图的结构遵循ST-GCN所提出的原始结构。如图1 所示,图1(a)表示一个构造的时空骨架图,其中图的顶点为关节,它们在人体中的自然连接表示为空间边(图中的绿线)。对于时间维度,两个相邻帧之间对应节点的连接表示为时间边(图中的粉线)。将每个关节的坐标向量设置为对应顶点的属性。

图1 ST-GCN 时空骨架图Fig.1 Time-space skeleton diagram of ST-GCN

1.2 图卷积

根据上面定义的图,ST-GCN提出在图上应用多层时空图卷积运算来提取高层特征,然后利用全局平均池层和softmax 分类器根据提取的特征进行动作类别预测。是关节点,在图中表示为图的顶点。具体执行时,网络的特征映射实际上是一个××张量,其中表示顶点数(即关节数),表示时间长度(即帧数),表示通道数。ST-GCN 中在空间维度计算中(先不考虑时间维度),图卷积运算为:

然而,ST-GCN 中的图卷积构造过程存在4 个缺点:(1)ST-GCN 中使用的骨架图只代表人体的物理结构,忽略了非物理连接关节之间的依赖关系。例如,两只手之间的关系对于识别“拍手”和“阅读”之类的动作是很重要的。然而由于双手在骨架图的定义中相距很远,ST-GCN 很难捕捉到两只手之间的依赖关系。(2)GCN 的结构是分层的,不同的层包含多级语义信息。而在ST-GCN 中,所有层的图的拓扑结构都是固定的。(3)不同类的动作样本不应该采用同一个固定的图形结构。例如,对于“洗脸”这样的动作,手和头之间的联系较强,但对于其他一些动作如“坐下”来说,之前判定的手和头之间联系加强就不正确,ST-GCN 不支持这种依赖数据的结构。(4)连接到每个顶点的特征向量只包含关节的2D 或3D 坐标,这些坐标可看作骨架数据的一阶信息,表示两个关节之间骨骼特征的二阶信息如骨骼的长度和方向等没有被利用,从而忽略了这些二阶数据所提供的动作信息。

2 自适应图卷积与区域关联图卷积

为了解决上述问题,文章提出了一种新的区域关联自适应图卷积网络。在图的拓扑结构方面,应用自适应图卷积参数化全局图和单个数据图形,在自适应图卷积中其结构与模型的卷积参数一起训练和更新,这两种类型的图也在不同的层中分别进行优化。这种数据驱动的方法增加了模型对图形构造的灵活性与模型对于各种数据样本的通用性。在非物理连接关节依赖关系方面,加入区域关联图卷积来捕获关节之间潜在的依赖性。

2.1 自适应图卷积

在ST-GCN 提出的基于骨架数据的时空图卷积中,图的拓扑结构是固定的,不适用于所有的动作识别,因此文章应用一种自适应图卷积(adaptive graph convolution,AGC),它使图形的拓扑结构与网络的其他参数一起以端到端的学习方式进行优化。自适应定义了两种图:一种是全局图,它表示所有数据的公共模式;另一种是单个数据图形,它表示每个数据的唯一模式。由于图对于不同的层和样本是唯一的,这就增加了模型的灵活性。同时插入残差分支,保证了模型的稳定性。根据上述公式可知,图的拓扑实际上是由邻接矩阵和掩码决定的,即式(1)中的AMA确定两个顶点之间是否连接,M确定连接的强度。因此自适应图卷积将式(1)改为:

式中,WW分别是嵌入函数和的参数。在保留原来公式中A的基础上加入D,将和的参数初始化为0。这样就可以在保留原有的情况下加强模型的灵活性。自适应图卷积的结构如图2 所示,空间维度内核大小设置与ST-GCN 相同,仍为3。W是式(2)中引入的加权函数。

图2 AGCk 模块结构Fig.2 Module structure of AGCk

2.2 区域关联图卷积

由于需要对离散分布取样,并且希望它可导可训练,这里的softmax 为Gumbel-softmax,其中是随机向量,服从Gumbel(0,1)分布,控制E的离散化。在本文中设置=0.5。通过此得到连接概率E的近似分类形式。

图3 RAGC 模块结构Fig.3 Module structure of RAGC

其中,与之前的加权函数一样,可训练权重,捕捉特征的重要性。

3 区域关联自适应图卷积网络

基于自适应图卷积和区域关联图卷积,文章提出了一种区域关联自适应图卷积(regional association adaptive graph convolution,RA-AGC)来捕获空间特征,从而进一步提出区域关联自适应图卷积网络(regional association adaptive graph convolutional network,RA-AGCN)。该网络堆叠了多个区域关联自适应图卷积和时间卷积。此外,文章应用了关节数据一阶信息和骨骼数据二阶信息融合的双流框架,以进一步提高性能。

3.1 区域关联自适应图卷积块

为了保证网络的自适应图拓扑结构和关节之间潜在依赖性,文章结合自适应图卷积和区域关联图卷积提出了区域关联自适应图卷积(RA-AGC)。在式(2)和式(8)中可以分别从AGC 和RAGC 获得空间维度上的联合特征。将两者的组合用作RA-AGC 的响应,数学上,RA-AGC 运算公式为:

其中,是一个超参数,用以得到两者作用之后的最优值。区域关联自适应图卷积的具体结构如图4 所示,AGC的空间维度设置为3,在3个AGC外添加一个残差连接,使得AGC可以插入到任何现有模型中(只有输入通道数与输出通道数不同时,才在残差途径中插入1×1卷积以转化输入来匹配通道尺寸中的输出)。

图4 RA-AGC 模块结构Fig.4 Module structure of RA-AGC

在时间维度上,方法与ST-GCN 相同。为了捕获帧间动作特征,沿时间轴使用一层时间卷积(TCN),即在尺寸为××的特征映射上执行×1 卷积。该层可独立提取每个关节的时间特征,并在每个关节上共享权重。由于RA-AGC 和TCN 分别学习空间和时间特征,将这两层连接为一个区域关联自适应图卷积块RA-AGC Block,以从各种动作中提取时间特征。如图5 虚线框所示。空间GCN 和时间TCN后面都经过一个批量归一化(batch normalization,BN)层和一个线性整流函数(rectified linear unit,ReLU)层。一个基本块是一个空间GCN、一个时间TCN 和一个附加的Dropout层的组合,下降率设置为0.5。为了稳定训练,每个块都增加了一个残差连接。RAAGC 是仅提取空间信息,RA-AGCN 块提取空间和时间信息。

3.2 区域关联自适应图卷积网络

区域关联自适应图卷积网络(RA-AGCN)是这些基本块的堆栈,如图5 所示。共包括9 个基本块,每块的输入通道数分别为3、64、64、64、128、128、128、256、256,输出通道数分别为64、64、64、128、128、128、256、256、256,步幅分别为1、1、1、2、1、1、2、1、1。在开始时添加一个数据BN 层来标准化输入数据,最后执行全局平均池层,将不同样本的特征映射池化为相同的大小,将最终输出发送到softmax 分类器以获得预测。

图5 RA-AGCN 模块结构Fig.5 Module structure of RA-AGCN

3.3 双流网络

除了非物理连接,二阶信息(即骨骼信息),对基于骨架的动作识别同样重要。在原有的骨架识别中,主要针对关节信息进行提取与识别,关节信息能表示人体关节的位置与关节的运动方向。在文章中,应用一个显式建模的二阶信息,即骨骼信息,与关节信息双流来加强识别。骨骼信息能在关节位置的基础上表示人体骨骼的物理连接、骨骼的长度与连接的方向,并且进行更深度的计算。在区域关联自适应图卷积模块中,由于骨骼将关节按照人体骨架方式相连,在识别例如“拍手”“打网球”等可能会出现关节点交叉等动作时,可根据骨骼的长度与连接方向对交叉点进行定位分类与识别。由于每个骨骼都有两个关节,定义接近骨架重心的关节是源关节,远离重心的关节是目标关节。每个骨骼表示为从其源关节指向其目标关节的向量,它不仅包含长度信息,而且包含方向信息。例如,假设一个骨骼的源关节位置信息为=(,,),其目标关节位置信息为=(,,),则骨骼的矢量计算为e=(-,-,-)。关节的数量比骨骼的数量多一个。为了简化网络的设计,在中心关节上添加了一个值为0 的空骨。这样,骨骼网络可以设计成与关节相同的结构。整个网络的构架如图6 所示。给定一个样本,首先根据关节的数据计算骨骼的数据。然后,将关节数据和骨骼数据分别输入RA-AGCN,最后将两个网络输出的softmax分数融合,得到融合分数,预测动作标签。

图6 双流网络结构Fig.6 Two-stream network structure

4 实验及分析

4.1 数据集和模型配置

NTU-RGBD:NTU-RGBD是目前应用最广泛的动作识别数据集,也是基于骨架动作识别的最大数据集之一,它包含60 个动作类中的56 880 个骨架动作序列。这些动作由40 名不同年龄组的志愿者进行采集而成。每个动作由3 个摄像机在相同高度但水平角度分别为-45°、0°、45°拍摄而得。Kinect 深度传感器检测到每个志愿者在一个动作中25 个关节的3D 空间坐标,每个骨架序列视频不出现超过2 个志愿者。数据集的原始论文建议之后的研究使用两个评估模型的基准:(1)交叉主题Sub:该基准分为训练集(包含40 320 个视频)和验证集(包含16 560个视频),其中训练集与验证集中的参与者是不同的。(2)交叉视图View:该基准根据摄像机视图分配数据,其中训练集包含37 920 个由第二个摄像机和第三个摄像机捕获的视频,验证集包含18 960 个由第一个摄像机捕获的视频。文章根据这两个基准,记录两个基准下的top-1 和top-5 识别率。

NTU-RGBD 数据集中关节及其自然连接的定义如图7 所示。

图7 NTU-RGBD 关节自然连接定义Fig.7 NTU-RGBD joint natural connection definition

实验环境:单片NVIDIA GTX-1660Ti 显卡的主机,Ubuntu 系统环境,所有实验都是在PyTorch 0.4.1深度学习框架上进行。

模型配置:模型用9 个RA-AGCN 块构造RAAGCN 的主干,每3 个块的特征尺寸分别为64、128、256。自适应图卷积的输出结构与区域关联图卷积相同,使用残差连接。骨骼和关节数据各训练50 个周期,采用随机梯度下降(stochastic gradient descent,SGD)算法作为优化策略,Nesterov 动量设置为0.9,学习率设置为0.1,设置初始的区域关联自适应图卷积中=0.5。批处理大小(batch size)为4。选择交叉熵作为反向传播梯度的损失函数,重量衰减设置为0.000 1。对于NTU-RGBD 数据集,数据集的每个样本中最多有两个人。如果样品中的个体数小于2,用0表示第二个个体。每个样本中的最大帧数为300,对于小于300 帧的样本,重复样本,直到达到300 帧。

对于区域关联自适应图卷积,在训练过程中,将骨骼与关节数据作为输入,各训练50个周期。在识别过程中,采用Sub基准的测试集进行测试,在骨骼与关节两类测试数据集分别进行测试完成后,通过ensemble将测试结果加权融合,得到最终双流识别率。

4.2 对比研究

如2.1 节所介绍的,自适应图卷积块中有两种类型的图,即AD。通过消去实验手动删除其中一个图,并在表1 和图8 中显示它们的性能。表中-A表示自适应图卷积中删除A(即只保留数据相关图);-D表示自适应图卷积中删除D(即只保留原有人体骨架图)。其中准确率为将关节作为输入数据,单流使用推荐的Sub 基准来训练得到的Top-1 和Top-5 的识别率。表1 和图8 的数据表明,删除A只保留数据相关图的情况下,D可以判断两节点是否连接与连接的强度,识别率高于删除D只保留原有人体骨架图A的情况,并且RA-AGCN(joint)- D前期识别率Top-5 只维持在8%左右。但在单流训练中,RA-AGCN(joint)- A训练50 epoch 的时间约为110 h,比RA-AGCN(joint)-D训练50 epoch多约20 h。将两种类型图相结合的自适应图卷积训练50 epoch的时间约为120 h,且性能优于删除任何一个图的情况,这也证明了自适应图结构的重要性。

图8 自适应图卷积有效性对比研究Fig.8 Comparative study on effectiveness of adaptive graph convolution

表1 自适应图卷积中Ak 与Dk 的有效性研究Table 1 Research on effectiveness of Ak and Dk in adaptive graph convolution %

各种动作可能会激活关节之间的不同动作依赖性。图9显示了两个动作的区域关联强度。假设区域关联强度概率大于0.9 的两个节点之间(可以是非物理连接关节)的虚拟连接显示为红色线,其中连接概率越大,线越粗。图(a)为人打网球时的动作,其中动作的区域关联性主要集中在握拍那一侧的手臂与胯骨部分,因此在那一侧的手臂与胯骨部分建立了许多虚拟的红线。图(b)为人跑步时的动作,其中动作的区域关联性主要集中在下肢与手臂部分,因此在人体的下肢与手臂部分建立了许多虚拟的红线。这些红线都是虚拟假设的,在真正的实验可视化图中,每个动作的区域关联性由粉色的圆圈表示在关节上,该关节在动作中与其他关节区域关联的总和越大,则圆圈越大,如图10所示。这些结果证明,区域关联图卷积可以捕获更多的动作之间的非物理节点的区域关联性。

图9 不同动作虚拟表示区域关联强度Fig.9 Virtual representation of regional correlation strength of different actions

图10 区域关联强度可视化表示Fig.10 Visual representation of regional correlation strength

对于区域关联图卷积的有效性验证,采用消去实验,将骨骼作为输入数据,单流使用推荐的Sub 基准来训练得到的Top-1 和Top-5 的识别率,如表2 和图11 所示。AGCN(bone)表示在原有区域关联自适应图卷积的基础上删去区域关联图卷积模块,训练50 epoch 的时间约为105 h,RA-AGCN(bone)训练50 epoch 的时间约为120 h。表中数据表明,删去区域关联图卷积块会导致识别率Top-1 大幅降低。

图11 区域关联图卷积有效性对比研究Fig.11 Comparative study on effectiveness of regional association graph convolution

表2 区域关联图卷积重要性研究Table 2 Research on importance of regional association graph convolution %

利用骨架的二阶信息构成双流网络。二阶骨骼数据与一阶关节数据的数据结构与输入的网络都相同,各自都跑50 个周期。文章比较了单独使用关节和骨骼作为输入数据的性能以及组合它们之后的性能,如表3 和图12 所示。joint表示将关节数据作为输入,bone 表示将骨骼数据作为输入。两者训练50 epoch 的时间都约为120 h。结果表明,虽然将骨骼数据作为输入的识别率略低于将关节数据作为输入的识别率,但将两者相结合可以进行一定的信息补充,使得双流方法优于基于单流的方法。

表3 双流网络重要性研究Table 3 Research on importance of two-stream network %

图12 双流网络有效性对比研究Fig.12 Comparative study on effectiveness of two-stream network

4.3 模型识别方法性能分析

在识别准确度方面,将基于RA-AGCN 的骨架动作识别与NTU-RGBD 数据集上的近年来的方法进行了比较,比较结果如表4 所示。在NTU-RGBD 上,使用推荐的Sub 基准来训练RA-AGCN,然后在测试阶段获得Top-1 的准确性。

表4 RA-AGCN 与近年来方法的比较Table 4 Comparison of RA-AGCN with recent methods %

近年来提出的几种方法中,ST-GCN 相比于原有的基于LSTM 的人体动作识别方法,识别率大幅提升,但忽略了非物理连接关节之间的潜在依赖性,并且拓扑结构固定。DPRL 强化学习帧蒸馏,提出类邻接矩阵策略强化非物理连接节点之间的信息交流,但需要人工定义非骨骼连接。AS-GCN 利用一组编码器与解码器来判断人体骨架间的连接特征和结构特征,但图的拓扑结构固定。2S-AGCN 引入自学习邻接矩阵训练模型的结构,但同样也忽略了非物理连接关节的依赖性。本文提出的RA-AGCN 通过自适应图卷积自动训练模型的结构,通过区域关联图卷积捕获非物理连接关节之间的潜在依赖性,与近年来提出的方法进行比较,该模型在NTU-RGBD 上准确率有了提高。

在实验运算成本与实时性方面,由于实验环境有限,对于区域关联自适应图卷积,将骨骼与关节数据作为输入各训练50周期的单流训练时间约为120 h,双流训练时间为240 h。在识别过程中,本文分别对RA-AGCN、2S-AGCN方法采用基于Sub 基准的测试集和拍摄短视频上传给action-recognition 这两种识别方式进行了测试。在相同实验环境下,两种方法识别时间基本相同,但RA-AGCN 的识别率优于2S-AGCN。

5 结束语

对于大部分骨架动作识别研究中图的拓扑结构固定、遗漏非物理连接关节的潜在依赖关系等问题,提出了基于区域关联自适应图卷积的骨架动作识别网络(RA-AGCN)。它参数化了全局图和单个数据图形,在自适应图卷积中其结构与模型的卷积参数一起训练和更新,这两种类型的图也在不同的层中分别进行优化。这种数据驱动的方法增加了模型对图形构造的灵活性,并更方便应用于各种数据样本。在非物理连接关节依赖关系方面,加入区域关联图卷积来捕获关节之间潜在的依赖性。融合这两种图卷积提出了一种区域关联自适应图卷积以捕获空间特征。并且应用双流网络加入骨架的二阶信息进一步提升性能。模型在NTU-RGBD 数据集上进行了验证,得到了较高的准确率。但本文所提出的网络侧重于空间维度上信息的交流,未来将对该网络的时空信息交流方式做进一步的研究。

猜你喜欢
骨架骨骼关联
浅谈管状骨架喷涂方法
做家务的女性骨骼更强壮
中老年保健(2021年5期)2021-12-02 15:48:21
三减三健全民行动——健康骨骼
中老年保健(2021年5期)2021-08-24 07:06:28
骨架密度对炭/炭多孔骨架压力浸渗铜的影响
“一带一路”递进,关联民生更紧
当代陕西(2019年15期)2019-09-02 01:52:00
奇趣搭配
骨骼和肌肉
小布老虎(2017年1期)2017-07-18 10:57:27
智趣
读者(2017年5期)2017-02-15 18:04:18
内支撑骨架封抽技术在突出煤层瓦斯抽采中的应用
中国煤层气(2014年3期)2014-08-07 03:07:45
铁骨架配合物凝胶的合成、表征及催化性能