吴超侯庆昆
(1.对外经济贸易大学体育部 北京 100029;2.聊城大学体育学院 山东 聊城 252000)
随着计算机技术的迅速发展,它越来越多地应用到人类社会的各个部门,扩展了人类的大脑和感知能力。在视觉技术方面,计算机的利用可以模拟人类的视觉感知,促进了计算机视觉(Computer vision,CV)的产生和发展,使计算机实现了人类的视觉功能,最终理解了三维世界。CV中的视频目标跟踪 (Video Target Tracking,VTT)技术是通过计算机不断推断视频中目标位置的过程。具体来说,计算机在视频的每一帧中定位目标,然后生成尽可能完整的目标活动轨迹。VTT技术广泛应用于日常和军事目的,包括视频监控、虚拟现实(VR)、交通监控、人机交互(HCI)、公共安全等方面,具有重要的理论意义和实用价值。对目标检测的研究,对于更好地分析球员的技术特点尤为重要。
目标跟踪需要解决的问题是在视频中选择要跟踪的目标,在下一帧视频中找到目标的准确位置。体育赛事作为一项积极健康的大众娱乐项目,更多的是以视频的形式呈现,受到大众的关注和讨论。因此,体育视频的自动分析技术变得越来越关键。足球视频是一种受众极其广泛的体育视频。在这些视频中,会对球员进行追踪和检测。一方面,教练和球员可以根据视频分析数据,讨论整体战术和个人技术特点;另一方面,在转播过程中,视频分析可以增强比赛的观看体验,从而满足观众的需求。如果能够利用图像处理领域最流行的深度学习(Deep Learning,DL)算法,针对足球比赛场景设计一种鲁棒的多目标检测与跟踪算法,得到的算法将具有很高的实用价值和意义。从2012年开始,DL技术经历了8年的发展;目前,它已广泛应用于CV任务,并在视觉检测和跟踪领域取得了巨大成功。随着数据规模的不断增长,基于DL的目标跟踪算法的提出,也使得目标跟踪领域有了更大的突破。有学者利用贝叶斯网络推理方法,带目标地在构造图中寻找最优路径。在此基础上,通过预测位置、颜色、运动方向、选手的平均速度等,可以在短时间内解决遮挡等问题。
在目标跟踪和检测任务中,玩家的特征表达将直接影响目标跟踪效果。在足球游戏中,要避免遮挡球员被不同队伍的其他人所攻击并造成跟踪误差的情况下,研究局部特征以增强目标的表达,提高跟踪效果是很重要的。定向梯度直方图 (Histograms of Oriented Gradients,HOG)特征最早是由法国研究者Dalal等人提出的,是为了解决人体目标检测的问题。HOG特征是在CV和图像处理中用于目标检测的特征描述符。它通过计算和计数图像局部区域的梯度方向直方图来组成特征,在描述人体方面有很好的效果。在足球比赛视频中,HOG用梯度或边缘信息来描述图像中局部目标的外观和形状。因此,它可以描述局部形状信息,然后将球员从背景中区分出来。在HOG特征提取过程中,首先将其划分为若干个小的连通区域(Cells),并统计每个像素的HOG;其次为了保证特征的光照不变性,需要在更大范围内(Block)对局部直方图的对比度进行归一化处理。HOG特征提取的主要步骤如图1所示,包括图像归一化(灰度和Gamma校正)、梯度计算、Cell HOG统计以及Block内归一化;最后,生成HOG特征。为了减少光照的影响,处理光照过弱或过强的情况,需要对整个图像进行灰度和Gamma校正的归一化处理。在图像的纹理强度中,局部表面曝光贡献了更大的比例。这种处理可以有效地减少图像中的局部阴影和光照变化。HOG特征考虑了代表边缘和形状特征的梯度信息。颜色几乎没有贡献,可以直接转换成灰度图像。灰度结果表示为:(1)中,R、G、B分别表示红、绿、蓝3种原色的成分。
图1 HOG特征提取的主要步骤
为了减少图像中的局部阴影和照度变化,首先,需要对整个图像进行Gamma校正,以增加或减少图像的整体亮度。在实际操作中,可以使用两种不同的方法进行Gamma标准化:平方根法或对数法。
计算图像横坐标和纵坐标的梯度,并相应计算每个像素位置的梯度方向值;差分运算不仅捕捉了轮廓、人体阴影和一些纹理信息,还削弱了光照的影响。
一般情况下,视觉输入由相机拍摄,然后连接到计算机。摄像机可以是静止的,也可以是动态的。计算机利用跟踪结果执行必要的跟踪和任何更高级别的任务。目前,基于深度学习的检测方法已经逐渐成为图像检测领域的主流技术。然而,在视频分析方面,考虑到CNN在提取图像中高级语义方面的优异表现,除了对物体具有较强的鲁棒性外,还将其作为目标检测的基础。虽然已经提出了端到端的学习方法,但是R-CNN系列模型作为一种基于区域提议(Region Proposal,RP)的目标检测算法,对于深度学习目标检测有着极其本质的价值。R-CNN算法的总体思路是利用选择性搜索(Selective Search,SS)算法在输入图像中获取2000个独立的RP;然后通过CNN提取每个固定RP中的目标特征;最后利用支持向量机(Support Vector Machine,SVM)算法进行目标分类。利用CNN强大的特征提取能力,提高目标检测的性能。虽然通过SS算法可以直接获得2000个RP,但由于每个RP都需要卷积,会造成大量的工作负载。测量发现,通过R-CNN模型完成对图像的识别需要47s,在实时性方面存在较大的劣势。在此基础上,Fast-RCNN算法显著缩短了模型训练和测试的时间,图像识别的整体时间减少到1s以下。Fast-RCNN算法的优化表现在在归一化过程中利用了ROI Pooling方法,可以保证提取的特征向量具有相同的维数,从而使RP的失真较小,同时有效保留了RP的主要特征。此外,Fast-RCNN在CNN上进行了分类和回归。R-CNN算法返回边界信息再对信息进行分类的过程相比,这使得整个训练过程无需额外存储。随着R-CNN系列模型的发展,基于视觉几何组16(Visual Geometry Group 16,VGG16)的fast-rcnn算法只需要进行一次具有多个共享卷积层的卷积计算,即可获得RP及其边界。在fastrcnn算法中,首先通过conv层提取图像特征,得到特征图。然后,通过区域建议网络 (Regional Proposal Network,RPN)层生成Rps,通过兴趣区域(Region of Interest,ROI)池化层完成归一化过程。输出固定大小的提议特征图并发送到全连接层,在全连接层中完成目标RP的计算,获得目标最终的精确位置。而对于足球比赛视频中球员目标的检测,原来的Faster R-CNN(FRCN)算法是不适合小目标。因此,会出现漏检的情况。因此,有必要对算法进行改进。
当探测器在足球比赛视频的每一帧中检测到目标时,目标跟踪问题可以看作是现有轨迹集与新检测到的目标之间的匹配问题。在跟踪球员的过程中,首先需要通过CNN对图像进行实时检测,以获取目标集。在第一次检测到每个目标时,初始化其状态向量,并表示为四维列向量xk:
图2 多尺度特征提取算法
(1)中,x,y 表示目标的位置信息 |(vy)|,vx,vy 表示目标的速度信息。由于在视频中只能检测到目标的位置信息,x.k初始化为(x0y0),目标的观测向量可表示为zk=(x,y)T。由于视频中相邻帧之间的时间间隔约为30 ms,因此可以将目标的运动近似为均匀线性运动。
综合考虑目标的运动特征和检测特征后,构造t?1时刻设定的轨迹与t时刻设定的目标之间的相似矩阵。相似矩阵表示新检测到的目标与现有运动轨迹中的目标之间的相似度,并表示出来
(2)Tt-1表示在t-1和D时刻设置的轨迹t表示t时刻设置的检测目标。
在构建相似矩阵后,利用匈牙利方法求解数据关联问题。为了避免误关联,设置了相似度阈值。如果轨迹与按照匈牙利方法分配的探测目标之间的相似度低于设置的阈值,则不进行关联。如果在轨迹集或目标检测集中仍然存在不相关的元素,则认为该目标被遮挡、消失或新增。比较复杂的目标遮挡问题在这里进行分析。
足球比赛中的目标遮挡包括部分遮挡和完全遮挡。如果目标被部分遮挡(玩家B遮挡玩家A),探测器将两个目标作为一个目标进行探测。此时,检测到的特征信息包括2个目标,因此A和B的轨迹可能是相关的,最终会导致一个目标的轨迹存在,另一个目标轨迹消失。如果目标被完全遮挡(参与人B几乎完全遮挡参与人A),探测器就会智能检测到一个目标(参与人B),参与人A就会消失。对目标的部分遮挡会导致对目标的漏检。当出现这种情况时,检测结果可以通过已有的轨迹信息进行校正,滑动窗口可以将新目标分离并添加到轨迹集合中。
图3 目标遮挡后的分离算法流程
随着计算机技术的发展,对足球比赛视频分析技术的性能要求不断提高。在目标跟踪和检测领域,已经挖掘和应用了很多算法,这对目标跟踪很有帮助。但考虑到在足球比赛中,传统的目标跟踪方法无法满足比赛视频目标跟踪的要求,由于场地、运动模式等因素的影响,需要进行优化。DL技术的发展对目标检测具有重要意义。因此,在这里将其与目标检测结合起来。首先,讨论了R-CNN模型系列的应用,改进了FRCN模型在小目标检测方面的缺陷。对FRCN算法进行了优化,并在数据集OTB2013上测试了准确率和成功率。结果表明,优化后的FRCN算法的目标跟踪精度达到89.1%,目标跟踪成功率达到64.5%,运行帧率保持在25fps左右。目标跟踪的准确性超过了用来完成再检测任务的SINT算法。为了更有效地测试所提出的玩家轨迹提取算法的性能,在公共数据集上测试了玩家轨迹提取的效果。在80个运动轨迹上,优化后的FRCN算法的优点是平均检测结果更好,每个轨迹的检测结果波动不大。在正常情况下,FRCN算法在大多数帧中都不会丢失目标。但是,随着重叠的增加,它的AUC迅速下降,这可能与基于dl的非尺度检测器有关。在目标被遮挡的情况下,与其他算法相比,优化后的FRCN算法的AUC下降幅度较小。综上所述,基于DL技术的优化FRCN算法能够更好地跟踪足球比赛视频中的球员目标,并且对于球员互相遮挡的情况具有鲁棒性。由于没有讨论不同球队球员遮挡情况下的目标跟踪问题,因此存在一定的局限性,未来将加以改进,以便更好地利用深度学习现代技术分析足球比赛中球员的技术特点,优化观众体验,带动源自足球的经济产品的发展,促进足球运动的传播推广。