罗 森 覃礼荣
1(广西科技师范学院 广西 来宾 546199) 2(梧州学院 广西 梧州 543002)
多人视频(如篮球比赛、足球比赛等)中的重要事件和关键角色检测在视频搜索和视频分析等领域具有重要用途[1],相关数据集和模型[2]也为视频中的事件识别和检测带来很多帮助。然而,目前很多检测局限于单人行动,即视频中仅包含一个人物,执行一个主要活动。因此,多人视频的事件检测则更具挑战性和实际意义。
近些年,已有一些研究成果,如文献[3]针对大量群体,利用个体信息的上下文结构描述符对人的行为进行描述和检测。针对篮球比赛事件,文献[4]将网络直播文本(Live Text,LT)作为辅助信息,提取文本事件作为事件标注的语料,分析并检测了篮球视频的中级语义特征,利用颜色直方图和边缘像素点将镜头划分为远镜头、特写镜头和场外镜头,促进对篮球事件的检测和标注。文献[5]利用篮球视频中的非场景目标信息与比赛事件语义之间的对应关系,设计一种篮球视频事件检测算法,提高了篮球重要事件的检测准确率。但该方法没有对篮球数据库进行系统构建。
也有一些文献通过使用“注意力”模型从一个固定输入到一个固定输出对元素进行对齐。如文献[6]生成一个图像-标题(I-T),关注图像的不同区域人物角色和行为动作;文献[7]利用时空结构(S-T)生成一个视频-标题,关注视频内的不同帧;文献[8]将端到端训练的深层网络模型运用在体育视频分析中。
由于“注意力”与正在进行的活动相关度最高[9],可随时间和空间而改变,对于篮球比赛视频(角色变化频繁,与一般视频区别较大)多人事件和关键角色检测具有一定优势。因此,本文结合空间注意力和时间注意力,提出一种基于注意力模型的方法。该方法可完成对孤立剪辑的分类,以及在较长的未剪辑视频中对事件进行时间定位的任务,其性能超过了一般现有方法。
本文使用NBA多场篮球比赛视频剪辑,这些比赛是在不同时间段、不同场馆中进行。视频时长通常为1.5~3.0 h。首先,本文对表1所列举的11个关键的事件类型进行了手工识别,考虑了5种投篮类型,每种类型分别包括得分或失败,最后一种事件类型为抢断。然后,在视频中出现“终结点”的时候对这些事件的终结点进行标注(可以采用机器视觉方法)。终结点通常可以较好地识别(例如:篮球离开投篮者的手,落到其他如篮框等地方;某队球员突然抢断,控球方从一方转为另一方)。由于评价人员对一个事件何时开始难以达成共识,为了确定开始时间,本文假定每个事件的时长为4 s。4 s足够对每个事件进行分类,同时也可以很好地进行定位。
表1 数据集中事件的视频剪辑数量及对应的平均人数
续表1
按照上述剪辑,所有视频随机划分为212个训练视频,12个验证视频和33个测试视频,并将每个视频分割到4 s的剪辑中(使用注释界限),将这些剪辑视频的帧率下采样到6帧/s。为了排除球员的特写镜头以及观众和即时回放的镜头,本文使用一个单独训练的分类器,将非正面拍摄的镜头过滤掉。由此,共有11 420个训练剪辑、851个验证剪辑和2 274个测试剪辑,每个剪辑均包含11个事件标签之一。
除了对事件标签和开始及终结时间进行注释外,本文在测试集中采集了850个视频剪辑上的众包注释,其中要求标注人员在投篮球员尝试一次出手的帧上对篮球位置进行标记。
本文在来自训练视频中的一个9 000个帧的子集中,对所有球员的包围框进行标注。使用这些注释对一个多人包围框检测器进行了训练,并在本文数据集中的所有视频上运行了该训练后的检测器。本文再次对每帧中置信度高于0.5的所有检测结果进行训练,得出每剪辑6~8人的检测结果,如表1所示。在表1中,这些事件是有重合的,比如两分球得分(一次运动行为得两分)包括上篮得分和扣篮得分,以及其他两分球,从表1的统计数据可以看出,两分球行为(包括两分球得分和两分球未得分)的剪辑训练和测试量明显高于上篮行为和扣篮行为,所涉及的平均人数也更高。在数据集的统计中,多人包围框使用了验证视频中的实际包围框,所达到的平均重叠率为0.7,召回率为0.8。
本文构建的模型可以通过事件的不同阶段中关注特定人类,推导出一个事件。首先由相对应的双向长短期记忆[10](BLSTM)网络处理每个球员的跟踪轨迹,其中BLSTM和长短期记忆(Long Short-Term Memory, LSTM)网络都是时间递归神经网络,是为解决递归神经网络[11](Recurrent Neural Network, RNN)存在的长期依赖问题而专门设计的。本文方法的基本流程如图1所示,首先将跟踪轨迹和事件状态分别输入到LSTM和BLSTM中,随着事件的不断发展,通过一个注意力模型,使用BLSTM的隐藏状态,在每个时刻对“关键”球员进行识别。被关注的球员可随着时间推移而改变。
图1 本文方法基本流程
每个视频帧均由一个1 024维的特征向量ft表示,是Inception7网络的最后一个全连接层的激活向量。此外,本文计算了视频帧中每个人的空间定位特征,即一个2 805维的特征向量pti,其中包含着帧t中第i个球员的包围盒的外观信息(1 365维)和空间信息(1 440维)。本文对视频帧中的球员区域进行裁剪和调整大小后输入Inception7网络,并对来自一个较低层的响应进行池化,提取出外观特征。空间特征对应于一个32×32的空间直方图,结合一个空间金字塔来表示不同尺度的包围框位置。
本文的目的是训练模型将视频剪辑分入11个类别中的一个类别里。此外,模型还有一个附带效果,能够识别每帧中的关键球员。
(1)
然后,使用一个单向LSTM表示在时间t的事件状态:
(2)
(3)
如果该视频属于分类k,则yk=1,反之,则yk=0。
本文关注的是在每个时间步上的特征集合。根据此设定,需要解决两个关键问题:1) 虽然本文在每个帧中有着不同的检测,但可以通过一个目标跟踪方法跨帧对检测结果进行连接,这可能会带来更好的球员特征表示;2) 对球员的关注取决于事件的状态,并且需要随着事件的演变而发展。例如,在一次“罚球”的开始过程中,关注到进行投篮的球员是非常重要的。然而,在事件将要终结时,投篮的成功或失败则可以通过对持球人进行观察来判断。
2.3.1带跟踪的注意力模型
首先,利用一个标准方法,将属于同一个球员的检测结果关联到跟踪中。将KLT跟踪器[12]与二分图匹配结合来关联数据。
(4)
在每个时间步上,本文选择在那一时刻相关度最高的球员。通过将处于该时间步的球员表示为一个凸组合形式完成选择:
(5)
(6)
2.3.2不带跟踪的注意力模型
由于存在遮挡和快速移动的情况,在拥挤场景中对人类进行跟踪比较困难。在此类设定中,不带跟踪的模型是有利的。因此该模型随着事件演变,在球员间切换关注也将更加灵活。为此,本文提出一个模型,将每帧中的检测都视为独立于其他的帧。基于无跟踪注意力的球员特征的计算如下:
(7)
(8)
本节给出在NBA篮球比赛数据集上的三组实验:事件分类,事件检测,注意力评价。
在所有BLSTM(包括LSTM)网络中使用了256维隐藏状态,在这些神经网络之前,利用一个带有修正线性单元非线性的256维的嵌入层对球员特征和帧特征进行嵌入。本文对球员位置特征使用了32×32的bins与空间金字塔池化。所有视频剪辑的时长均为4 s,用于注意力Softmax加权的τ值设为0.25。批处理大小为128,学习率为0.005,使用RMSProp算法[14],在每一万次迭代后将学习率降低0.1个因子。实验平台是一个包括20个GPU的集群,迭代训练10万次。通过在验证集上进行的交叉验证选择出超参数。
表2给出了每个设定的平均精度均值。使用全局信息以及局部球员信息的方法,性能优于仅使用局部球员信息和仅使用全局信息的模型;使用加权求和对球员信息进行结合,性能优于统一求均值,而基于跟踪的注意力模型性能稍好于不带跟踪的版本。同时,一个标准的弱监督方法,例如多示例学习[15](MIL),其有效性看起来要低于本文提出的模型方法。文献[4]将直播文本(LT)作为辅助,分析并检测了篮球视频的中级语义特征,为了简化,其将上篮得分和扣篮得分都归纳为两分球得分,在篮球事件的构建上力求简单,忽略了很多精彩的事件检测。另外本文将文献[7]多人视频事件检测方法应用到篮球视频事件检测中,该方法将视频帧分为不同的区域来检测人物角色和行为,其在快速变化的篮球视频中效果并不好,是所有方法表现最差的一个,其主要原因可能是篮球视频角色和运动转换更快,采用一般多人视频的检测分析方法并不适用。
性能表现随分类不同而变化,所有方法对例如“扣篮失败”等的分类结果均不理想,本文对这种分类只有很少的数据。但是,在面对基于投篮的事件,例如“罚球”“上篮”和“三分球”等,本文方法性能表现较好,其中对投篮球员或防守球员的关注是十分有用的。
表2 孤立的视频剪辑、事件分类的平均精度均值的比较
使用一个滑动窗口方法,即:滑动一个4 s窗口穿过所有的篮球比赛视频,并将此窗口分入不相关类或11个事件分类之一,使用的步长为2 s。将与11个标注事件的重叠均不超过1 s的所有窗口视为不相关类。在训练、测试和验证阶段使用了相同的设定。最终在所有的视频中得出90 200个不相关样本。
表3给出了检测结果。可以看到,注意力模型的性能优于现有的先进方法;与孤立剪辑分类相比较,所有的方法在时序定位方面均表现稍差。 在所有方法中,对“抢断”的分类和检测有着显著的性能差别,这是因为在检测设定中采用了很大数量的不相关实例,这种不相关事件通常为球员之间互相传球活动。“抢断”事件与“传球”非常相似,区别在于前者的球传递到了对方球队球员的手中。
表3 未剪辑视频、事件检测的平均精度均值比较
续表3
如上所述,注意力能够在分类和检测等任务中提高模型的性能。为评价注意力模型,本文标注了距离球最近的球员以及“投篮者”。
表4给出了在“投篮者”分类上的平均精度。结果表明,无跟踪注意力模型能够较好地为投篮者挑选一些适当的分类,如“罚球得分/失败”“上篮得分/失败”“扣篮得分”。这表明注意力在球员检测上能够定位正在投篮的球员。
表4 注意力评价的平均精度均值
图2给出了在样本视频中,注意力的可视化表示。每帧中篮球的位置用“☆”表示,每列图像表示一个不同类型的事件。图3给出了被关注的球员在球场上3种不同类型的事件的空间分布热度图,表示随着事件演变,被关注球员遍及篮球场上的不同位置。第一行表示“罚篮”的热度图。该模型重点关注一个事件开始时投篮球员的位置,随后将注意力分散到其他位置。但是,在上篮事件中,关注点放在篮下;在罚球事件中,关注点在罚球线上;而在三分球事件中,关注点则在三分线外环。不带跟踪的模型将每帧中的检测独立于其他帧,事件终结时,注意力会根据上一事件状态进行分散,比如三分球事件结束关注点在三分线外,因此,感觉注意力的范围更大。而带跟踪的模型考虑运动轨迹和前后帧,并在整个事件中重点关注某个单一球员,对球员的偏移贯穿着整个视频。例如,在罚球时,如图4所示,该模型注意到处于一个特定位置的防守球员,与投篮者不同,该球员在整个事件中一直可见。
图2 在不同事件的开始时高亮“被关注”的球员
图3 注意力(来自不带跟踪模型)分布的可视化表示
图4 带跟踪模型的注意力分布
针对多人视频中的事件分类和检测,本文提出一个基于注意力的模型。除了对事件进行识别之外,还能够识别参与事件中的关键人,无须使用事件注释的方式进行有针对性的训练。因此,本文方法适用于多人环境。另外,本文还提出一个篮球比赛视频数据集,包括密集的事件注释。实验结果表明,所提方法能够对孤立剪辑进行分类,在较长的未剪辑视频中对事件进行时间定位,性能较优,且可以将注意力放在相关球员上。