马月洁,冯爽,王永滨
(中国传媒大学协同创新中心,北京100024)
在现代生活中,体育视频尤其是足球视频深受广大观众喜爱。球员跟踪具有很强的实用价值和现实意义。尽管在过去的十年中跟踪算法取得很大进展[1][2][3],但设计一个能够处理严重遮挡、显著外观变化的健壮跟踪器仍然存在巨大的挑战。
对于物体跟踪,很多研究者提出了较为有效的办法。Henriques[4]制定了核相关滤波器(KCF),运用它训练一个判别式分类器,使用循环矩阵生成样本的方式去训练分类。DLT[5]和SO-DLT[6]使用辅助图像数据离线训练深度模型,并在在线跟踪阶段进行微调。FCNT[7]和DeepSRDCF[8]通过使用在大规模分类数据集上预训练好的CNN网络来提取特征,解决了缺少训练数据的问题。MDNet[9]使用视频代替图像来预先训练CNN,以获得目标的通用表达能力。RTT[10]通过搭建多方向递归神经网络模型来发掘对跟踪有用的可靠目标部分。
在足球比赛视频中进行球员的跟踪存在很大挑战,第一,同队球员相似度高,肉眼尚且区分困难;第二,运动员在传球、运球过程中形变较大,遮挡严重。
针对以上问题,本文提出了一种基于全卷积孪生神经网络的球员跟踪方案。
孪生神经网络是一类包含两个甚至更多个具有相同参数和权重子网络的神经网络架构。孪生神经网络擅长处理涉及相似性或两个可比较事物之间关系的任务。学习跟踪任意对象可以看作在下一帧中寻找和当前帧目标具有最大相似性的位置,因而能够使用相似性学习的方式来处理。
本文通过一个嵌入函数将模板图像x1和搜索图像x2映射到特定的特征空间,并用x1路得到的特征对x2路的特征空间进行卷积,得到一个代表搜索图像中不同位置与模板图像相似度值的得分图。具体框图如图1所示。
图1 网络模型框图
图中灰色部分为嵌入函数部分,这里采用与Alexnet[11]类似结构,该结构包括五个卷积层,并使用ReLU作为非线性激活函数。因为网络没有全连层,全为卷积结构,且左右两部分嵌入函数(子网络)相同,共享参数和权重(W),因此我们的模型叫做全卷积孪生神经网络模型。该模型的前两个卷积层后面增加了最大池化层,最大池化层的加入使网络在保留主要特征的同时减少了参数个数,提升了模型速度,并防止过拟合的产生,提高了模型的泛化能力。
我们的网络体系结构比VGG-Nets[12][13]等体系结构小。这是因为空间信息会随着网络的加深而逐渐淡化,不利于目标的精确定位。且图像的输入较小,这自然要求降低网络的层数。
算法通过比较搜索区域和目标模板的相似度来实现球员的跟踪,这种方法类似于基于相关滤波的方法,只不过我们将逐点平移计算相似度的方法改成卷积操作来进行搜索区域与模板的匹配,然后得到搜索区域的得分图,得分图中得分最高的点对应的位置即为目标的位置。
实验中首先离线训练卷积网络得到匹配函数,离线训练通过采用随机梯度下降算法最小化目标损失函数来完成。具体损失函数形式如下:
1(y,s)=log(1+e(-ys))
(1)
其中s代表得分图中每个点的值,而y对应于此点的标签,其中 +1代表正样本,-1代表负样本,以上是得分图中每一点的损失值。对于得分图的整体损失,使用所有点损失的平均值,即:
(2)
其中u∈D代表在得分图中的位置。
然后在在线跟踪阶段,通过匹配函数选择与初始帧标定目标最为匹配的位置作为跟踪的结果。
3.1.1 训练数据
由两部分组成,第一部分是ILSVRC15(Large Scale Visual Recognition Challenge 2015)数据集的4417个视频,其被分为30个类,包含了200多万个带标签的边界框,在训练中我们忽略了视频中对象的类别信息;第二部分是62个2016年欧洲杯足球视频片段,包含了2万多个带标签的边界框。
3.1.2 数据预处理
模板图像和搜索图像是从两个相隔T帧之外的视频帧中提取的,两者都包含对象。为了简化训练,实现批量输入,我们在不破坏图像纵横比的基础上设定模板图像的大小为127×127像素,搜索图像的大小为255×255像素。为了让网络获得更多信息,我们添加了一定数量的上下文信息,更精确地说,边界框的扩展将满足以下等式:
s(w+ 2p)×s(h+ 2p)=A
(3)
其中A表示模板图像或待搜索图像的大小,w表示边界框的宽度,h表示边界框的高度,p表示上下文边距,s表示比例因子,实验中我们将上下文边距设置为平均尺寸 p =(w + h)/4 的一半,具体示例如图2所示。
图2 模板图像和搜索图像示例
3.1.3 网络模型训练学习
在模型训练过程中,嵌入函数的参数初始值符合高斯分布,并根据改进的Xavier 方法[6]进行缩放。小批量的大小设置为2,学习率使用退火算法从10-2到10-5。
在跟踪过程中,我们只搜索对象大小约五倍的对象,并在得分图上添加一个余弦窗口,以惩罚大位移。
本文算法使用了MatConvNet工具箱[14],运行环境为 Matlab2014a,Intel(R)Core(TM)i7-4720HQ CPU @2.60GHz 2.59GHz 和 NVIDIA GeForce GTX 960M GPU。
测试数据来自2016年欧洲杯足球视频中17个包含了快速运动,遮挡,光照等难处理情况的视频片段。评估基于两个指标:准确率(文中选取的阈值是20像素,即距离中心位置误差小于20像素则判断跟踪准确)和边界框重叠比(IOU)。
表1是经过本文算法得到的实验统计数据结果。
表1 实验统计数据
从表中可以看出,当卷积层数为5时,跟踪的准确率最高,达到93%以上,当卷积层数为2时,跟踪的准确率次之。经过欧洲杯数据集微调过的网络能更好的适应测试集,拥有更高的跟踪准确率。
同时本文对不同卷积层进行了可视化操作,如图3所示,从左到右依次为卷积层(conv)1至5层。从图中可以看出,conv1、conv 2学习到的特征基本上是边缘、颜色等底层特征;conv3开始卷积核逐渐学习到纹理,具有辨别性的关键特征等。当卷积层数为2时,网络学习到底层特征,更适合进行类间的区分,即解决不同队球员间的遮挡问题;当卷积层数为5层时,网络学习到了更具有辨别性的关键特征,更适合进行类内的区分,即同队队员的遮挡问题。
本文采用离线训练的方式在大型目标检测数据集和足球视频集上对全卷积孪生神经网络进行训练,提取具有深层次信息的CNN特征用于跟踪。从实验结果来看,算法对球员的跟踪是有效的。在将来的工作中,将考虑融合不同卷积层的深度信息,解决现在得分图每个位置贡献一致的问题,进一步提升算法的准确率。
图3 卷积层可视化