刘廷龙,康 斌,2
(1.大连工业大学 信息技术中心,辽宁 大连 116034;2.大连工业大学 信息科学与工程学院,辽宁 大连 116034)
基于骨骼的行为识别是计算机视觉的重要研究课题。它的研究和发展得益于卷积神经网络,监督学习和有关传感器的发展。
研究初期使用卷积神经网络或循环神经网络来预测由人体关节特征构成的序列和图像。但这种方法有很大的局限性;忽略了人体中关节点之间相互的连接性和内在关系。而这些联系是人体行为活动的重要信息。连续性和动态性在行为识别中具有重要地位。Kamel等[1]提出一种基于CNN网络的深度图和姿势数据的动作融合的人体行为识别方法,将输入数据分为两种形式;为了最大化特征提取,将信道分成3个。这种划分方式有效提高了识别精度。Pham等[2]在CNN的基础上提出深度残差神经网络,设计了新的网络结构,有效提升了动作识别率。之后文献[3-10]在自适应、尺寸大小、模型结构等方面对卷积神经网络做出了改良,但仍然存在准确率和性能方面的不足。Bruna等[11]首次提出用图来模型化人体关节点关系并提出图卷积神经网络GCN,自定义的拓扑结构难以在非自然连接点之间获得关系模型,这限制了GCN的表示能力。为了增强表示能力,有方法[12-15]通过空间时序或其他机制来学习人类骨骼的拓扑结构。它们对所有通道使用拓扑结构,这迫使GCNs在不同的通道中聚合具有相同拓扑结构的特征,从而限制了特征提取的灵活性。因为不同的信道代表不同的运动特征类型和关系,并且不同运动特征下的关节之间的相关性并不总是相同的,所以使用一种共享拓扑并不是最优的。Chen等[16]为通道组设置单独的参数化拓扑;然而,不同组的拓扑是独立学习,当设置通道拓扑参数化拓扑时,模型变得过于沉重,这增加了优化的难度,阻碍了对通道拓扑的有效建模。此外,参数化拓扑对所有样本保持相同,这无法建模样本相关关系。
该文提出了关联策略的智能信道拓扑的细化图卷积网络模型。不是简单地在不同通道上学习模型,而是智能关联策略下实现通道的拓扑。通过扩大节点的领域值,增强关联节点和最终节点之间的联系,从而加强整个身体部分的联系。每个样本能够动态地推断相关性,获得每个通道内关节点之间的细微关系。同时每个信道独立建模,用最少的参数来降低建模的难度。该方法能使模型局部信息和整体信息感知能力更强。该文的主要贡献如下:
提出的关联策略在基于智能拓扑细化卷积网络的基础上比CTR-GCN方法增强了关节点之间内在的关联性,大大提高了骨关节点信息在空间上的识别精度。大量的实验结果表明,提出的关联策略CRT-GCN在基于骨骼的动作识别上优于现有的方法。
卷积神经网络在处理图像方面已经取得了显著的成绩。但对于骨骼行为类的非图像数据表现却并不理想。由此提出了图卷积网络[11]。图卷积神经网络分为光谱方法和空间方法。光谱方法适用在具有相同结构的图上;空间方法可以在图上直接进行卷积操作,但同样面临着处理不同大小阈值的挑战。在各类GCN模型中,普遍采用的特征更新规则如下:将特征转化为高层表示;根据图的拓扑聚合特征。GCN在骨骼行为识别中,按照拓扑的不同可以进行如下分类:
(1)按照是否在不同信道上共享拓扑,分为共享和非共享方法。
(2)按照推导过程中是否动态调整拓扑结构,分为静态方法和动态方法。
在拓扑结构保持不变的静态方法中,Yan等[12]提出了一种ST-GCN网络模型。该模型能够根据人体结构预先定义拓扑,并且在训练和测试阶段都是固定的。在动态方法中,Li等[17]提出使用A-links推理模块来捕获特定于动作的相关性,增强了拓扑学习,在给定相应特征的情况下建立了两个关节之间的相关性。这些方法加强了节点的局部特征关系。Shi等[14]提出了一种动态GCN,融合了所有关节的上下文特征来学习任意对关节之间的相关性,从而得到了更好的泛化能力。在强制GCNs用相同的拓扑来聚合不同信道的特征的模型中,对模型性能带来了很大的限制。非共享拓扑方法在不同的信道或信道组上使用不同拓扑,自然地克服了拓扑共享方法的局限性。Cheng等[16]提出了一种DC-GCN,为不同的信道组设置单独的参数化拓扑。但DC-GCN在设置信道拓扑时,由于参数过多,存在优化困难的问题。根据现有研究成果,在基于骨架的动作识别中很少探索拓扑-非共享图卷积,而在这个研究的基础上,分组关联策略对动态信道拓扑建模具有重要意义,并且保证在推断过程中拓扑是动态推断的建模方式。
人体部分关节联系的分区策略目前有单标签,距离分区和空间配置分区。这三种分区考虑的是相邻节点之间的联系,并不能充分考虑到人体身体部分之间相对位置的联系对行为识别的重要作用。为了能够提取骨骼关节点的重要信息,在原有的分区策略基础上,提出了关联分区的CTR-GCN模型,从而提高整体模型的识别率。
首先,定义相关的符号;然后,介绍关联策略的CTR-GCN模型,并分析模型结构。
人体骨骼图是一个以关节为节点,骨骼为边的图。图用G=(v,ε,x)表示。v={v1,v2,…,vN}是N个关节点的集合。ε是边集合。邻接矩阵A∈RN×N,元素aij用来表示vi和vj节点的关系。vi的领域为N(vi)={vj|aij≠0},χ是N个节点的特征集。用矩阵X∈RN×C表示,vi的特征表示为xi∈RC。共享的拓扑图卷积利用权重w进行特征转换;通过aij聚合特征来更新特征zi,公式如下:
(1)
静态方法中aij自定义或作为训练参数设置。动态方法中,通过输入样本模型来生成。
在充分利用CTR-GCN在时空领域的关节信息的基础上,使用新的最近邻关联策略进行再分区。在单个信道中使用时间和空间域进行再划分。根据节点和根节点之间的距离进行领域集的划分。在该部分,设置D=2。将领域集分成三个子集:(1)根节点x0;(2)距离根节点D为1的邻居节点x1;(3)距离根节点距离D为2的子集x2。这样分区的依据是人体的行为活动中关节是以局部活动为主要体现形式,最近的关节参与度更高。通过最近的子集集合来加强相关信息,使得模型对行为识别感知更加敏感,能够提升模型的识别准确率。
不同分区策略的拓扑如图1所示。
图1 不同分区策略拓扑
下面使用图卷积的方式进行表示[18]。单信道内根节点由单位矩阵E表示。相邻矩阵用X表示。在单信道内,所提出的关联策略的公式表示如下:
(2)
在分组的邻接矩阵中有如下关系:
(3)
在这里,为了统一评价标准,需要将不同的图卷积重构成统一的形式。对于动态的共享拓扑神经网络来说,动态拓扑有更好的泛化能力。动态拓扑距离关系aij依赖于输入样本。
该文构造了基于CTR-GNC的关联策略模型架构。将每个关节的邻域设置为整个人体骨架图。前面已经详细说明了研究的有效性。模型用10个基本块组成整体架构,使用平均池化进行操作,最后通过一个softmax分类器进行模型分类。在空间模型模块,该文使用3个CTCTR-GCs来提取人体关节之间的相关性,并将其结果汇总为输出。为了建模具有不同持续时间的动作,设计了一个多尺度时间建模模块。
NTU RGB+D:NTU RGB+D[19]是一个大型的人体行为识别数据集,包含56 880张人体骨骼行为序列。样本由40个志愿者进行,共分成60个种类。每个样本包含一个动作,并保证最多有2个主题。这是由三个微软Kinect v2相机同时从不同的视图捕捉。数据集被分为两个基准:(1)cross-subject (Xsub):训练数据来自20个主体,测试数据来自其他20个主体;(2)cross-view (X-view):测试数据来自视图2和3两个相机,测试数据来自视图1相机。
Northwestern-UCLA:Northwestern-UCLA数据集[20]通过3个Kinect摄像机从多个角度同时获取,包含1 494个视频剪辑,涵盖10个行动类别。每个动作由10个不同的主体完成。该文的数据集划分为训练集和测试集,训练集来自两个摄像机,测试集来自另一个摄像机。
所有实验在一个Tesla V100 GPU的Paddle深度学习框架上完成。训练模型使用SGD,动力为0.9,权重衰减为0.000 4。训练次数设置为65,学习率设置为0.1。对于NTU RGB+D数据集,簇大小为64,每个样本大小是64,采用数据预处理方式[21]。对于Northwestern-UCLA,簇大小为16,t使用相同的数据预处理方式。
该文提出了一种新的基于分组的关联分区策略。将关节点分为三个子集:根关节点集合、距离为1的邻接点集合和距离为2的邻接点集合。下面针对统一分区(uniform)、距离分区(distance)和稀疏分区(spatial)与提出的分组关联分区(correlative)进行对比实验。
(1)NTU-RGB+D(X-Sub)实验结果与分析。
表1为基于骨架的NTU-RGC+D数据集的动作识别结果。采用基于不同的行为主体(X-Sub)的实验方法对比了几种分区策略的准确性。可以看出该文的分区策略在NTU-RGB+D的评估下,最终训练结果相比于原文中的3种分区策略中最好的训练结果在top-1上有了0.8百分点的提升,在top-5上精度有0.7百分点的提升。
表1 NTU-RGB+D(X-Sub)实验结果 %
(2)NTU-RGB+D(X-View)实验结果与分析。
表2 为基于骨架的NTU-RGC+D 数据集的动作识别结果。采用基于不同拍摄视角(X-View)的实验方法对比了几种分区策略的准确性。从表2的对比结果可以看出,所提分区策略得到的识别率相较于原分区策略中的uniform和distance均有明显提升。这证明在相同的实验条件下,所提分区策略在一定程度上要优于原始分区方法。同时,相比于之前的3种分区方法,无论top-1还是top-5的精度均有较大提升,最高由原来的84.6%提升至96.4%,以及98.8%提升至99.6%。
表2 NTU-RGB+D(X-View)实验结果 %
许多最先进的方法采用多流融合框架。该文融合了四种模式的结果,即关节、骨、关节运动和骨运动。将文中算法和其他先进的流行算法进行对比。性能表现如表3和表4所示。在NTU-RGB+D数据集上对比当前先进的几种方法,即ST-GCN[12]、2S-AGCN[15]、Shift-GCN[13]、D-GCN[16]、ASCTR-GCN可以发现,新的关联分区ASCTR-GCN相比于最好的方法在X-View和X-Sub的识别精度上分别提高了2.5和0.5百分点。
表3 在NTU-RGB+D数据集上几种识别技术的对比 %
表4 在Northwestern-UCLA数据集上的对比实验 %
在Northwestern-UCLA数据集上对几种方法进行比较,Top1识别精度达到了97.2%。与比较常用的Shift-GCN模型相比,Top1识别精度提升2.6百分点;与最近识别效果好的算法DC-GCN[18]相比,提高了1.9百分点。
在两个数据集上,文中方法在几乎所有评估基准下优于所有现有方法。
该文提出了一种新的基于关联分组策略的通道拓扑细化图卷积网络ASCTR-GCN,设计了分区关联的拓扑结构,并设计了模型架构。模型在基于骨架的动作识别中和其他流行算法进行了比较,验证了模型的优越性。经过数学分析和实验结果表明,新的关联分组策略的CTR-GC比现有其他图卷积具有更强的表示能力。在新的分区策略的引导下,下一步工作应集中在获取特定动作下不同关节点直接的联系,同时寻找更加高效的人体骨骼行为识别方法。