牛鹤璇, 王艾莎, 胡 萍, 刘 梅
(1. 哈尔滨体育学院 休闲与社会体育系, 黑龙江 哈尔滨 150040;2. 哈尔滨体育学院 体育健康与人文系, 黑龙江 哈尔滨 150040)
虚拟现实(virtual reality,VR)技术是一种可以创建和体验虚拟世界的计算机仿真系统,它利用计算机生成一种模拟环境,使用户沉浸到该环境中。增强现实(augmented reality,AR)技术是一种实时地计算摄影机影像的位置及角度并加上相应图像、视频、3D模型的技术,是一种将真实世界信息与虚拟世界信息无缝集成的新技术。近年来,随着计算机软件硬件计算能力大幅提升,AR和VR技术发展迅速。AR和VR可以在转播中为观众提供较强的交互性和真实性[1-2],被广泛应用于体育赛事的直播中。由于体育赛事转播,特别是冬季体育赛事转播,存在比赛场地结构相对复杂、运动员移动速度较快和受气候环境影响相对较大等问题,在转播过程中,跟踪识别运动员和拼接运动图像存在一定难度。
在关于冬季体育赛事中AR与VR技术应用方面的研究中,文献[3]在运动虚拟化场景的单点移动相机中,提出了一种在运动场景中应用AR的可用算法,将增强场景的图像作为原始场景的一部分出现,但该方法在多点移动相机中无法使用,导致图像增强效果存在局限性。文献[4]使用多台摄像机拍摄多段视频进行体育场景的分析和可视化,由每帧虚拟视点附近的实际摄像机之间的视点插值合成,使自由视点视频在AR系统中呈现,提升沉浸式可视化用户体验,但对视频的合成过程中存在延时和卡顿,并且识别精度较差。文献[5]提出一种用于冰球识别和跟踪的方法,利用相机自动标定算法对相机矩阵进行测试,该方法从转播中得到仿真数据集,但相机转动角度小于15度,导致识别跟踪速度降低。文献[6]运用虚拟内容的插入方式,检测候选插入区域,自动调整虚拟内容到插入区域,利用摄像机对场景中的虚拟内容进行信息校准处理,但这种方法过多依赖摄像机校准,校准效率较低。文献[7]估计位置、方向和摄相机的焦距,利用霍夫变换提取地面线模型,根据KLT(Kanade-Lucas-Tomasi)跟踪算法预测摄像机参数,并且在冰球赛场上进行测试,同时提出了AR的配准方法,从图像平面上得到了圆形点的图像,但该方法对地面线的提取和运动员图像的提取存在不同步,影响转播效果。文献[8]设计了一种用于冬季赛事体育直播的增强现实系统,采用期望最大化方法寻找最优特征点,通过播放视频计算相机参数,派生出一个虚拟摄像机获得各种虚拟场景,但该方法的实现复杂度较高,存在转播延时。文献[9]分析运动员在冬季赛场上的移动轨迹对AR和VR的应用影响,包括运动轨迹形成动机、基于视觉的人员跟踪和拍摄硬件等,但并没有提出相应的解决方案。文献[10]利用卡尔曼滤波结合稀疏核主成分分析方法实现红外小目标跟踪与检测,但是该方法主要用于目标跟踪和检测,并不适用于赛场上运动员识别。文献[11]提出联合双边滤波和非局部滤波的图像去噪算法,提高了系统计算速度,降低了计算复杂度,可应用于视频转播后续的图像处理,但不能应用于赛场上运动员识别。
为了更加清晰和流畅转播冬季赛场上的实时画面,本文设计了一种智能视频分析系统,通过迭代最近点(iterative closest point,ICP)算法对视频序列中的数据进行匹配,利用单应性矩阵把3D物体模型插入到图像或者视频中,成为原始场景的一部分,实现冬季体育赛事赛场上运动员准确跟踪和识别,以增强观众对AR与VR互动体验感。
本文设计的智能视频分析系统模型如图1所示。
图1 智能视频分析系统
智能视频分析系统包括跟踪多目标、单应性估计、运动员识别、训练序列管理等4个模块,各个模块的原理和功能如下。
1)跟踪多目标。智能视频分析系统通过检测跟踪方法对赛场多个目标进行跟踪,然后对跟踪结果进行分类。例如将红色服装运动员目标分为一类,蓝色服装运动员目标分为一类,之后对每个类别的运动员的运动状态进行聚类检测。
2)利用ICP算法实现点对点集的配准。在冬季体育赛场上,从多个角度获得运动员的图像,通过图像空间变换寻找图像点集之间的映射关系,使得采集到的图像点与其空间位置点一一对应,达到图像信息融合的目的。例如对运动员图像的重建,用摄像机对运动赛场进行扫描,通常情况下不可能扫描一次就将场内的物体全部扫描完成,可能会经过多次扫描获得某个物体的多角度图像,也就是不同角度的点云,将这些点云融合到一起,可以融合成一个物体完整的3D图像。
3)估计单应性。利用ICP算法对图像的单应性矩阵进行求解,得到图像间的单应性估计。单应性可以理解为用单应性矩阵来描述坐标系之间的位置映射关系,通过ICP算法求出图像点集的平移旋转,变换物体的图像视角。
4)识别运动员。采用马尔科夫预测方法[12],对开阔空间中运动员的运动轨迹进行统计,并加以识别。在智能视频分析系统中,获得赛场上运动员在各个时间段的运动轨迹,对运动轨迹进行建模描述,然后建模为不同的运动状态,预测运动员从初始状态经过多次状态转移后达到某个状态的转移概率,将状态转移概率和运动员实际的运动轨迹相结合,减少识别时间。
5)管理训练序列。在运动员的跟踪和识别过程中,反复地对已经获得的现场数据做训练,对训练数据以列表的方式存储于数据库中,通过识别系统对训练结果进行评估,增加识别精度。
智能视频分析系统在图像重建和训练序列管理方面的应用如图2所示。
图2 图像重建和训练序列管理
图2(a)以场地中两名运动员为例描述了7个时刻点的视频图像,其中每个数字代表在该时刻运动员的现场图像,例如第一行圆圈1表示第一名运动员在t1时刻的图像;第二行圆圈1表示第二名运动员在t1时刻的图像,不同数字表示摄像设备对运动员不同角度的拍摄,通过获取多幅不同时刻不同角度的图像,并利用ICP算法进行点云配准,对运动员和其他物体进行图像拼接和角度转换。
图2(b)描述了采用智能视频分析系统对运动员进行训练序列管理的过程,以两名运动员为例,第一序列和第二序列中的圆圈和方框分别描述了两名运动员在不同时刻的位置,用连线来表示运动轨迹,也可称为运动状态。在训练序列管理中,运动员运动状态的预测是基于训练数据来进行的,例如获得了赛场中前一个小时运动员的运动轨迹数据,将这些数据作为训练序列,建立马尔可夫预测模型,预测运动员的后续运动趋势,这样做不仅能增加检测精度,也能够使现场设备拍摄得到多角度的运动员图像,为3D图像重建提供更多数据。
在设计的智能视频分析系统中,通过图像重建来识别运动员,然后通过马尔可夫模型来对运动员进行运动状态预测,加强识别效果。
首先对运动员外形进行建模。假设运动员的外形轮廓由N个点组成,每个点的坐标记为ci=(xi,yi),i表示运动员的第i个外形轮廓点的标记计数值,xi,yi为ci对应的x轴和y轴坐标,运动员形心坐标为c=(xc,yc),其定义为
运动员形状用形心到目标形状的外轮廓点的距离来表示,这时二维平面中的运动员的形状就被表示成一维的曲线。定义序列{di,i=1,2,…,N}为边心距序列,其中
表示形心(xc,yc)到运动员外形轮廓点ci的欧几里得距离。如果物体的形状不发生变化,边心距序列是不变的。当物体的形状发生变化时,边心距序列也将随之发生变化,对边心距序列做归一化处理
当运动员形状用边心距序列表示之后,目标形状的旋转就相当于对边心距序列进行循环移位,将边心距序列中的点作为点云配准的起始点。
运动员形状定位算法步骤如下。
步骤1计算运动员形心c=(xc,yc)。
步骤4计算运动员目标的边心距曲线和参考曲线的匹配起始位置。
步骤5计算运动员目标形状的旋转量。
在VR应用领域中,3D点云配准是非常重要的环节,虽然可以通过随机采样一致性算法、遗传算法、主曲率算法等进行点云配准,但是ICP算法是基于几何模型的3D对准算法,因此在VR领域目前应用最广泛的还是ICP算法。ICP算法可以定义为给定两个来自不同坐标系的三维数据点集,找到两个点集的空间变换,使这些点集能进行三维空间匹配。这里用
P={Pj,j=1,2,…,N}
表示三维空间中的一个点集,另一个点集用
Q={Qj,j=1,2,…,N}
其中:‖·‖表示矩阵的范数;R表示旋转变换矩阵;T表示平移变换矩阵;ICP算法是基于最小二乘法的最优匹配,其本质是计算出源点集和目标点集的变换矩阵,通过旋转和平移的方式使两个点集的配准误差最小,达到最佳的配准效果。
ICP算法的步骤如下。
步骤1设定点集配准变换中的门限值τ。
步骤2对源点集P进行采样,P0∈P,P0表示源点集P中的一个子集。
步骤3在点云Q中进行查找,找到与子集P0中每个点的最近点,即Pqi-Ppi的最小值,得到两点云P和Q的初始的对应关系。
步骤4利用算法或限定条件去除掉错误的对应点对。
步骤5根据步骤3中的对应关系来计算两个点云的变换矩阵,使目标函数公式(1)的值最小,并将计算得出的变换矩阵作用于点云子集P0,得出变化后新的点云子集P′0。
把求单应性矩阵的过程定义为单应性估计,利用单应性矩阵可以描述两个坐标系之间的位置映射关系,该过程中对应的变换矩阵就是单应性矩阵,单应性矩阵定义为
其中:M是内参矩阵;s表示尺度因子;fx、fy、u0、v0、γ分别表示相机的内参;r1、r2和t表示相机的外部参数。通过单应性矩阵可以进行图像的视角变换,前提是通过ICP算法得到旋转变换矩阵R和平移变换矩阵T。
为达到运动状态更新的目的,在数据关联后,使用概率滤波器更新运动状态,令t时刻图像帧的轨迹状态为st={xt,yt,wt,ht},其中:xt和yt表示图像坐标;wt和ht分别表示图像的宽度和高度。
由于帧的位置和大小可以发生改变,因此,定义δd为运动状态标准差。由任一状态出发经过α次状态转移,达到另一状态的概率定义为转移概率,将转移概率定义为
其中:st为t时刻的运动状态;st-1为t-1时刻的运动状态。
假设δe为每帧图像对应的运动状态的标准差,则转移概率为
增加和删除运动状态时,若探测均值没有受到现有状态的影响,就为探测均值关联一个新的状态。这里假设初始状态为s0的概率为
为了评估系统的性能,利用平昌冬奥会美国队与韩国队冰球比赛小组赛的录像视频进行测试。给出一个估计结果的图像帧f及其最近的图像帧f′,首先计算叠加的归一化曲面为
其中:曲面(f∩f′)表示了两帧之间的交叉面;曲面(f∪f′)表示了两帧之间的公共平面。如果存在归一化曲面,认为检测结果是一个真正的阳性检测的叠加,阳性检测是指目标存在时检测到目标数据,假阳性检测是目标不存在时检测到目标数据,检测精度定义为
其中:ω表示检测精度;η表示阳性值;μ表示假阳性值。阳性值是指在赛场上对运动员的正确跟踪检测结果,而假阳性值是指错误跟踪监测结果。
实验使用与文献[4]相同的数据集,该数据集由1 000张游戏视频序列图像组成。将跟踪和识别方法与文献[4]提出的方法进行比较。通过算法计算检测精度和超分辨率,并与初始粒子滤波算法进行对比。初始滤波算法对1 000幅经过处理的视频序列图像的超分辨率平均精度为82.54%,检测精度为84.22%。算法得到的超分辨率平均精度为92.01%,检测精度为90.02%,与初始粒子滤波算法获取的结果相比,其精度具有一定的提高。
利用提出的方法对韩国平昌冬奥会美国队和韩国队的冰球小组赛的录像进行检测,在视频序列中展示自动处理的结果。虽然每队有12名球员,但只有11名美国队队员和10名韩国队队员参加了比赛。一幅图像中的最大检测次数为10,即每队5次。同时,利用高精度的分类器,将检测结果分为两组,并对其进行后续识别。
在23 489幅图像中进行了174 221次检测(检测到85 632次美国队队员和88 589次韩国队队员),通过25个视频序列测试,对模型进行评估。每组视频序列有不同的长度(持续时间),从250幅图像到1 350幅图像不等,共对应15 762幅图像,其中系统检测到100 322人次(56 235次美国队队员,44 087次韩国队队员)。测试结果表明,该方法的检测精度提高了6%,识别标识结果如图3所示,说明本系统能对赛场中的运动员进行标识,图片中的阴影部分表示对赛场中的运动员进行了大致的范围标注。
图3 识别标识结果
以2018年平昌冬奥会冰球球队分类的部分结果为例,目标识别场景如图4所示。其中,使用实线框代表韩国队国家队队员,虚线框代表美国国家队的队员,拒绝与“其他”类别相对应的帧,可以看到,运动员分类成功地排除了裁判和观众以及其他物体的检测,从而减少了运动员假阳性检测的数量。
图4 目标识别场景
冰球视频自动跟踪与识别的结果如图5所示。其中阴影框架内的识别结果(队伍名和运动员姓名)中包括错误的识别目标,例如图中的球门。该系统能够有效地对多名冰球运动员进行跟踪和识别,即使在遮挡的情况下,也可以得到正面和侧面视图的两种配置。并且,在球衣上的数字不可见的情况下,由于身份识别系统使用的是时间互斥信息,运动员的身份仍然可以识别。图5表明,跟踪识别方法能够对赛场上不同国家的运动员信息进行准确标识,同时能够将运动员与场地上其他目标进行区分。
图5 冰球视频自动跟踪与识别的结果
应用AR和VR技术,设计了一种冬季体育赛事赛场视频认别和跟踪系统。该系统利用系统中的跟踪多目标、ICP算法、单应性估计、运动员识别和训练序列管理等模块对场地内的运动员进行跟踪和识别。仿真结果表明,智能分析系统能够对赛场上不同国家的运动员信息进行准确标识,同时可以将运动员与场地上的其他目标进行区分,提高检测精度,增加转播内容的真实性和交互性,提升观众体验。