改进图卷积神经网络的目标跟踪算法在体育运动场景中的应用

2024-01-25 12:51吕增辉张一三
喀什大学学报 2023年6期
关键词:邻接矩阵互信息姿态

吕增辉,张一三

(1 安徽医科大学人文医学学院,安徽合肥 230001;2 合肥鑫晟光电科技有限公司,安徽 合肥 230000)

0 引言

视觉目标跟踪是计算机视觉领域的重要研究方向之一,目标跟踪可有效解决视频监控追踪、人机交互、无人驾驶、体育竞技裁判等问题[1].经过长期研究,目标跟踪取得了较大的技术成果与应用成效,但对于客观环境产生的遮挡、尺度变化、快速运动等意外因素仍存在一定的跟踪技术难题[2].在跟踪算法高频应用的卷积神经网络(Convolutional Neural Networks,CNN)基础上延伸出图卷积神经网络(Graph Convolutional Networks,GCN),对于解决复杂图结构数据,具有良好的应用效果.图卷积神经网络可将CNN 和图谱理论结合,是支持在非欧空间对图数据进行编码和预测的深度学习算法,解决CNN 在卷积运算时未考虑通道间内在联系的问题[3].据此,本次研究提出了一种基于图卷积神经网络的体育运动目标跟踪算法:

(1)采用图卷积神经网络搭建一个端对端的深度学习模型,直接从原始体育运动图像中提取对运动姿态有表达力的特征,并预测运动目标的下一次动作姿态,实现目标跟踪.

(2)基于互信息改进图卷积神经网络的邻接矩阵,利用变量间互信息值确定变量连接关系,保障信息相关性强的变量之间相互连接.

(3)对于运动搜索区域的选择,结合目标运动速度估计,设计自适应调整搜索区域的跟踪策略.

1 基于改进图卷积神经网络的体育运动场景中目标跟踪方法

1.1 图卷积神经网络基本结构

本文采用图卷积操作中的谱图卷积,其原理是谱图卷积将卷积核和图数据都作傅里叶变换转换到频域后再相乘[4],计算公式如下:

其中,卷积核、图卷积运算符分别用bα和a∘表示;对运动目标帧图像数据上的随机节点的输入信号x作傅里叶变换,得到频域信号用UTx表示;映射至频域的卷积核用Ubα表示.正则化后的拉普拉斯矩阵为W,W的特征向量构成U,矩阵W的表达式如下:

式中,IN表示单位阵;边权重构成的邻接矩阵用F表示;D表示一个角阵,仅对角线上存在非零元素,F中对应列的和即为D的数值;W特征值构成对角阵Λ.

图卷积神经网络模型基于切比雪夫多项式近似原本卷积核,以减少运算的时间,方法如下式所示:

式中,切比雪夫多项式阶数为R;矩阵W的特征值上限为ηmax,=2W/ηmax-IN,表示经过缩放与正则化处理后的拉普拉斯矩阵W,其目的是削弱深度学习中高频出现的梯度消失和爆炸问题.

以切比雪夫卷积核为前提,实现从单节点一维特征向量x推广至多节点二维特征矩阵X的目的,确定ηmax取值为2,对谱图卷积操作进一步简化,运算式如下:

式中,一次谱图卷积后各节点的抽象特征向量组成的矩阵Xˊ;卷积核内第r阶待学习参数矩阵用Θ(r)描述;基于X的第λ阶矩阵用Zr(X)表示.假设第w层的特征向量矩阵为G(w),那么图卷积神经网络模型的卷积层计算公式如下:

式中,w层的第r阶权重矩阵为,若w取值是0则存在输入层G(0)=X.

1.2 基于改进图卷积神经网络的运动目标姿态预测

1.2.1 基于互信息的邻接矩阵构建

图构建是图卷积神经网络的核心,加强信息相关性强的变量间的相互连接是图构建的第一要义.为此参考刘菡等人[5]的研究,将互信息理论应用到邻接矩阵构建中.由热力学熵的概念演化获得信息熵概念,信息论认为消息代表来自分布或数据流中的事件、样本、特征.信息论将接收消息中包含信息均量视为熵,则有概率分布为p(x)=P(X=x)的随机变量X,其熵用P(X)表示,表达式如下:

已对任意的变量平均需要的信息量定义为联合熵,如果(X,Y)是一对离散型随机变量,同时P(X,Y)表示联合概率分布,那么H(X,Y)表示其联合熵,表达式如下:

当X值为已知时,任意变量Y的随机性的量可称为条件熵,那么已知随机变量X和Y的条件熵描述如下式所示:

一个随机变量中包含的关于另一个随机变量的信息量称为“互信息”,结合公式(6)推导得到互信息计算式如下:

本次采用图卷积神经网络预测运动姿态时,基于变量间互信息值确定变量连接关系以改进图卷积神经网络的邻接矩阵构建方式.具体而言,节点间边的构建依据节点间的互信息值的大小而定.首先,选择影响运动目标姿态发展的变量作为构建图A(V,E)的节点NV=|V|,NV表示节点数;其次,两个节点间的相关度用NE=|E|描述;最后,为互信息较大的r个值建立邻接关系得到邻接矩阵F,改进后的邻接矩阵如下式:

1.2.2 基于改进图卷积神经网络的运动目标姿态预测模型

基于互信息建立邻接矩阵,将邻接矩阵F、特征矩阵X作为图卷积神经网络的输入,特征向量维数用T描述,即选择一定时间内采样点数量.利用互信息将特征变量构建成图数据,建立改进的图卷积神经网络预测模型,其结构如图1 所示.

图1 基于图卷积神经网络的运动目标姿态预测模型

由图可见模型包括两个图卷积层、一个全连接层.为提高模型非线性能力、减少模型过拟合几率[6,7],为每个谱图卷积赋予一个Relu 激活函数.图卷积神经网络模型预测运动姿态的步骤如下:

(1)第一层图卷积输出矩阵成为第二层图卷积新的节点特征矩阵,通过两层图卷积网络对特征信息实施融合,即每个节点特征与其邻接的节点特征融合.(2)在Flatten 层中实现特征维度变换,两次图卷积完成后在Flatten 层中多个节点特征矩阵将转换为一维向量[8].(3)节点特征与邻接节点特征融合后将作为全连接层的输入,抽象特征映射至样本标记空间的任务也在全连接层中完成;Softmax 激活函数得到该样本属于每个标签的概率,反向传播时参数更新依据交叉熵损失函数进行判定[9].(4)融合特征输入全连接层后得到体育场景中运动目标姿态的预测值[10],实现运动目标的动态跟踪.

1.3 自适应动态调整搜索区域的目标跟踪策略

体育场景中运动目标跟踪过程中,不仅要精准预测运动姿态特征,搜索区域选择也在很大程度上影响跟踪精度与效率,本次研究采用自适应动态调整搜索区域的跟踪策略.

由于搜索区域大小影响跟踪效果,目标应用频率较高的一些目标跟踪算法往往采用固定的搜索区域,即通过对目标尺寸放大一定的倍数获得搜索区域.这种搜索区域设定策略导致一些异物遮挡、背景干扰、姿态变化等场景中的目标跟踪不准确,适应复杂条件的能力较弱[11];此外,由于体育场景中的目标运动不均匀,跟踪视角变化较大,过大的搜索区域包含过多干扰物导致跟踪漂移,较小的搜索区域无法适应高速运动目标的追踪.为此,参考王春雷等人[12]的研究采用运动估计动态调整搜索区域的跟踪策略.将3作为初始搜索区域放大倍数实施目标跟踪,同时获取连续5帧的目标中心点位置,求取相邻两帧中心点偏差,计算式如下:

式中,(xi,yi)、(xi+1,yi+1)、(xi+2,yi+2)、(xi+3,yi+3)、(xi+4,yi+4)分别表示连续5帧的目标中心点位置.采用如下公式分别求取相对x轴与y轴运动距离上限值:

采用(15)—(18)公式求取的4 个相邻两帧运动距离上限值自适应调整搜索区域的放大倍数,根据反复测试结果和相关研究确定运动距离上限与搜索区域放大倍数的关系,具体公式如下:

2 实验与分析

本文选取体育运动场景中的帧图像作为测试样本,进行运动目标跟踪测试,以验证本文所提方法的优越性.采用GCN 模型、MI-GCN 模型进行同步跟踪对比测试,以评估本文方法在运动目标跟踪方面的优势与不足.

2.1 邻接矩阵参数选择

基于改进图卷积神经网络进行目标跟踪的过程中,图网络的节点即为筛选的特征变量,图卷积神经网络邻接关系的需要计算输入变量之间的互信息.根据公式(10)可知,采用互信息较大的λ个值建立邻接关系得到邻接矩阵F,因此,λ的设置可能影响邻接矩阵的构建,进而影响本文图卷积神经网络模型的构建,为此为λ选定3、4、5、6 四个数值,进行邻接矩阵构建测试,明确λ的选值对邻接矩阵构建的影响,进而为本文改进图卷积神经网络模型构建最佳的邻接矩阵.图2为邻接矩阵构建结果.

图2 k值变换下的邻接矩阵

由于节点自身的互信息值最大,结合图1 可知,将最近邻的λ个值作为邻接节点,λ值变化邻接矩阵呈现的排列方式有所差异.图2(a)、(b)显示,选值为3 和4 的情况下,节点邻接关系为稀疏状态,相关性节点之间的特征信息融合水平不高;选值为5 和6 的情况下,节点邻接关系呈现紧密状态,导致相关性不强的变量间的特征信息过度融合.可见,邻接关系不会随着λ值的增加或减少而产生显著的优化排列效果,所以λ选值对本文改进图卷积神经网络模型预测运动目标姿态不产生干扰,不会影响目标跟踪结果.

最终,基于互信息构建图网络的邻接关系,获取改进图卷积神经网络的邻接矩阵,用于预测运动目标的姿态.

2.2 跟踪效果分析

为展现本文方法跟踪复杂条件体育场景中运动目标的良好效果,在光照变化、姿态变化、物体遮挡的实验环境下进行目标跟踪测试,跟踪结果如图3 所示.图中,采用白色虚线框表示真实的目标跟踪标注结果,黑色实线框表示本文方法预测的目标跟踪标注结果,两者重合度较高时,说明本文方法跟踪效果良好.

图3 复杂条件下目标跟踪测试结果

分析图3(a)可知,当运动目标被物体遮挡的情况下,本文方法仍然可以较好的识别出目标所在区域,精准标注目标,在此过程中本文方法始终稳定跟踪运动目标.这是因为本文方法提取运动目标姿态特征的表达能力较强,可基于目标的一部分特征实现目标的整体性跟踪.此外,本文方法采用自适应动态调整搜索区域的跟踪策略,有效调整搜索区域,即使干扰物一定程度上遮挡目标,本文方法可动态调整搜索区域,立即标注出正确的目标姿态.

图3(b)中,体育场景的光照发生较大变化,由较为正常的光照条件改变为较暗的光照条件,但是本文方法标注结果与真实的标注结果高度重合,说明本文方法不受光线条件的干扰,可以精准实现目标跟踪.

图3(c)中,随着目标姿态变化,本文方法仍然可以精准跟踪目标,尚未出现明显的跟踪误差.这是因为本文方法可自适应动态调整搜索区域,当目标偏离搜索区域时自适应调整搜索范围,没有因为较大的姿态变化而产生跟踪误差.

综合上述实验结果可知,本文方法在复杂的体育场景下,具有良好的目标跟踪能力,自适应动态调整搜索区域的跟踪策略发挥了较强的作用.

2.3 跟踪精度测试

为进一步突出本文方法跟踪的准确度优势,在篮球比赛场景、体操场比赛场景、排球比赛场景以及乒乓球比赛场景中进行目标跟踪测试,两种对比方法展开同条件同步测试.将真实标注框跟踪结果与本文方法标注框的跟踪结果对比,计算得到跟踪精准度,表1为三种方法在体育场景中目标跟踪精准度的统计结果.

表1 中的数据显示,随着样本数量的增加,本文方法的目标跟踪精准度没有降低反而有提升的趋势,而对比方法的跟踪精度较低且不稳定,GCN模型直至测试结束时跟踪精度反而降低,该方法采用传统的图卷积神经网络构建模式,邻接矩阵的构建与网络存在较大的不适应性,没有考虑运动目标特征变量间的关系,导致模型预测能力不足;同时对于跟踪搜索区域的确定采用了传统的倍数放大策略,与体育场景视角变化较大的实际情形不相适应,因此最终目标跟踪精准度不够理想.本文方法采用互信息设计特征变量间的邻接关系,构建了高性能的图卷积神经网络模型,目标跟踪的能力较强.

MI-GCN 模型精度虽然呈上升趋势,但是目标跟踪的总体精准度与本文方法略有差距,由于MIGCN 模型缺乏有效调整搜索区域策略,令干扰物与目标同时出现在搜索区域中,模型提取到的姿态特征难以将目标与遮挡物区分开来,致使跟踪误差较大,突出了本文方法采用的动态调整搜索区域策略的有效性.说明本文方法的搜索策略比固定搜索区域放大倍数的策略性能更胜一筹,不仅可以减少大尺寸目标图像不必要的冗余操作,而且提升了推理速度.

3 结论

本文基于改进图卷积神经网络对体育场景中的运动目标进行跟踪.首先,对图卷积神经网络的邻接矩阵构建方式进行改进,基于互信息构建邻接矩阵,采用变量间互信息值确定变量连接关系以改进图卷积神经网络的邻接矩阵构建方式.即节点间的互信息值的大小决定节点间边的构建,以此精准预测运动目标姿态,实现目标跟踪.其次,在运动目标区域搜索方面,使用自适应动态调整搜索区域的目标跟踪策略,将相邻两帧运动距离上限值自适应调整搜索区域的放大倍数,比传统固定放大倍数更容易获取有效的目标搜索区域.

本文方法取得了理想的目标跟踪效果,未来关于图卷积神经网络在体育场景目标跟踪中的应用研究,需着眼于网络速率的提升,保障目标准确跟踪的同时快速得到跟踪结果.

猜你喜欢
邻接矩阵互信息姿态
轮图的平衡性
攀爬的姿态
全新一代宋的新姿态
跑与走的姿态
基于邻接矩阵变型的K分网络社团算法
基于互信息的贝叶斯网络结构学习
联合互信息水下目标特征选择算法
改进的互信息最小化非线性盲源分离算法
基于增量式互信息的图像快速匹配方法
Inverse of Adjacency Matrix of a Graph with Matrix Weights