王泽军,游松辉
(同济大学国际足球学院,上海200092)
提高足球运动员的比赛表现水平是训练的出发点和最终目标。足球运动表现分析对实现训练目标、纠正训练偏差、改进训练和比赛策略有着重要作用。足球运动表现系统构成较为复杂,它不仅是体能、技战术能力、智能的综合体现,在比赛策略、战术、队友、位置、对手、场地、气候等多种因素影响下,比赛的技战术表现经常处于动态变化之中[1-2]。虽然铲球、控球、传球以及跑动距离这些传统的事件数据(event data)可以提供许多具体的信息,但它们几乎不能提供关于比赛最终结果的线索。战术才是足球比赛获胜的核心要素。高水平战术能力对于足球运动员在比赛中的表现至关重要。随着球员跟踪技术的进步,比赛数据的质量已经达到足球战术分析的要求,并促进足球战术分析方法的发展。尤其是位置数据可以非常准确地反映每名球员以及球的位置,这将有助于识别足球比赛中的战术模式[3]。因此,本文首先概述足球战术与位置数据的出现,随后详细论述基于位置数据的足球战术分析方法的研究成果,如球队中心法、空间控制法、网络分析法和机器学习算法。然而,位置数据只能提供单一空间模式的大数据,在大数据背景下足球战术分析需要整合多种不同来源的详细数据。鉴于此,笔者通过在足球战术分析中引入大数据技术栈和深度学习技术,试图较为全面地描绘该领域的研究图景,以及这些研究的内在联系和发展趋势。
对于竞技足球而言,比赛的目标是赢得胜利,选择一种合适的战术对于赛前准备工作至关重要。在分析战术行为时,战术的概念被一些研究者定义为球员为适应动态变化的比赛情况而采取的行动[4]。还有研究者试图把战术与战略区分开来,认为战略可以被描述为在考虑可用信息的影响之后预先计划的比赛要素。从这个角度看,战术和战略的不同之处在于二者与时间的关系。战略执行时允许更长时间的计划和深思熟虑,而战术行为是在强大的时间压力下做出的。战术决定了一支球队如何管理空间、时间和个人行动来赢得比赛。在此情境中,空间是指球场上发生的特定行动,或球队在进攻和防守期间想要覆盖的球场区域。时间描述的是诸如事件的频率和持续时间(如控球)或启动动作的速度。个人行动指定了正在执行的动作类型,如失误、传中和传球。根据参赛球员数量可以将其进一步划分为个人战术、小组战术、球队战术和比赛战术。个人层面的战术行为分析可以是研究1名球员与其对手或队友之间的运动关系,如1名边后卫盯防1名边锋或2名中后卫的互动。在小组层面,可以分析选定的1组球员的球队战术运动,如后卫线通过一致移动制造越位“陷阱”。在球队层面,战术行为分析可以捕获所有球员团队行动的变量,如对球队占用的空间进行分析。在比赛层面上的战术行为可以通过考察2支对抗球队之间团队行动的互动进行研究,如球队间的距离。在某些情况下,战略的成功取决于在不同组织层面上的战术成功。
为了确保所有层面上战术的成功执行,教练员需要考虑球队和对手的状态,以及诸如主客场比赛,甚至天气等外部因素[5]。球队为达到特定的目标,使用预先设计好的空间阵型作为战术。教练员需要了解球队阵型保持一致的时间比例,以及球队在什么情况下被迫改变阵型。在为与今后的对手比赛做准备时,对阵型的使用和阵型变化时期的理解也很重要。阵型是球员场上的位置,即相对于其他物体(如球场边界或球门、队友或对手)的位置。一方面,在空间上阵型可以是固定的,即球员在比赛区域内的特定位置。另一方面,在空间上阵型可能会发生变化,但在球员之间保持稳定的相对方向,如后卫线在球场上的整体移动。此外,在阵型中扮演特定角色的球员可以通过换人明确地转换角色,也可以根据战术需要动态地转换角色[6]。总之,足球运动表现可以被描述为一个复杂过程的结果,这个过程包括在比赛前做出的战略决策和在比赛进程中不同组织层面执行的战术行为。
事件数据是量化和评估个人和团队表现的标准来源,它包括在整个比赛中所发生事件的频率、比例和其他累积表现指标。近年来战术决策变得更为复杂,因而教练员的战术能力也受到公众的密切关注[7]。评估竞技足球战术行为和球队整体表现的传统标准通常基于个人博弈视角[5,8]。相关领域专家(如教练员、球探)通过观察一场比赛,根据个人经验对球队战术进行评估。然而,定性的博弈视角缺乏客观性和系统性,如结构化和综合性,凭观察者的主观印象,分析过程非常缓慢(4~6 h),且需要利用专家的经验和诀窍[1],以及更多自动的定量方法分析竞技足球的战术行为。由于球员跟踪技术的进步,如半自动化计算的视觉系统、全球定位系统和基于无线电波的跟踪系统的运用增多,比赛数据在可用性方面呈现增长趋势[2]。位置跟踪系统以每秒25帧的速度确定22名球员和球的x坐标和y坐标(平行于边线),这相当于每场比赛中每个对象约有13.5万个位置,所有球员和球的位置总计约有310万个[9]。
战术变量通常与球员的位置、距离、空间和数值关系有关。球员的位置坐标是战术分析的基础。从数学的视角看,球员的球场位置可以用笛卡尔坐标(x坐标和y坐标)精确地确定。通过收集到的数据,从比赛动态中产生的比赛时空模式可以提供关于足球运动表现的新信息。在实际应用中,位置坐标可以作为数据可视化的一种形式生成热图或点图。这可以用来理解个人、小组球员或一个团队的特征运动模式[4]。这里以x-y坐标的形式实时显示所有球员的位置,所获得的数据被称作位置数据或跟踪数据[3]。一方面,对位置数据的评估会有明显的速度优势(从6~8 h减少为数分钟)。另一方面,与事件数据相比,位置数据体量大、多样、精准,可以为体育可视化研究者提供详细的数据集。可视化既是数据分析的关键技术,也是数据分析结果呈现的关键技术[10-11]。位置数据不仅可以用于制订、描述和理解比赛动态的团队表现指标,还可以用于探索关键事件发生前的动态模式,如得分机会和进球。
传统的足球战术分析主要采用符号分析法,使用传球、控球、抢球或比赛风格等事件数据。它通过对运动行为以及技战术应用状况的分析,为探讨足球运动的制胜规律或相关打法理论的形成奠定了基础,通常用来对足球比赛中技战术指标进行描述性分析[1],其局限在于未考虑情境信息和方法的解释力较弱。为了避免此类问题,研究者一方面运用多变量的方法保留情境信息,另一方面更多采用计算机视频分析技术,如球队中心法、空间控制法、网络分析法和机器学习算法[12],尤其是基于位置数据识别球员之间的互动模式,探索比赛中出现的时空模式,解释一些符号分析法无法量化的战术行为[9]。表1总结了在团队运动中使用战术参数进行自动分析的方法。
表1 基于位置数据的战术表现分析的候选表现指标[9]Table 1 Candidate performance indicators for tactical performance analysis based on position data
确定球队中心是在球队战术研究中经常使用的一种方法。它代表一组点的几何中心,这些点代表了在比赛期间球员在场上的位置,但不包括守门员和球的位置。根据定义,它是一支球队中所有被分析球员的平均x坐标和y坐标。这个变量可以被单独分析,也可以通过进一步处理研究其他战术行为。在比赛过程中,球队中心之间存在很强的耦合性,球场尺寸变化导致中心距离改变,而像射门这样的关键比赛事件伴有球队间耦合变异性的增加[12]。例如,2支对抗球队中心之间的距离经常被用来描述球队间的距离,但表现出较低的可变性。因此,球员与球队中心、对手的球队中心或特定位置的中心(如后卫中心、中场中心和前锋中心)间距离也被计算为测量位置的一种形式(图1)。这一举措使得研究者了解相对于动态团队(或小组)位置的球员定位,而不是静态的球场坐标。
球队离散度是指计算每名球员与最近的对手之间的距离之和,表示没有对手的整体空间半径。在比赛层面的分析中,球队间中心距离量化了2个对手之间的距离,而在个人层面的分析中,最近对手的距离代表了这一概念。因此,这2个变量可以互补使用,从而更全面地表示球队间从全局到局部的分析距离。虽然单独分析1支球队的中心可能无法为表现或行为提供有意义的见解,但可以从不同角度理解球员与球队之间的动态定位,而且在分析球队间的互动时也很有价值。在实际应用中,球队间中心距离和最近对手的距离可以表示2支球队之间距离的远近,并提供1支球队的防守策略信息,如压迫或防守深度。球队特定位置的中心间距离有助于量化后卫、中场和前锋线之间的距离,这有助于教练员确定防守时3条线之间的最佳距离,以及理解进球或阻止得分的过程。
由于足球比赛中的相互作用是复杂的,而从球员位置数据中产生的信号往往是非线性的且带有干扰,因此,从系统复杂性的角度分析战术行为的一个关键特征是非线性分析。它考虑了球员相互作用的时间序列和动态特性,描述了线性技术无法表示的复杂情况,如均值、标准差和变异系数。非线性分析技术有效测量了战术行为变量的可预测性和同步性。可预测性的测量对象通常是时间信号的周期性或可重复性模式。这些技术包括近似熵(Approximate Entropy,ApEn)、样 本 熵、香 农 熵 和 动 态 叠 加[4]。例 如,Memmert等[9]计算随时间推移中后卫到后卫中心的距离,然后计算该时间序列的ApEn,最后进行聚类分析,将自动得到的ApEn分为高、中、低3个不同可预测性的小组(图1)。Gonçalves等[13]使用ApEn研究后卫、中场与前锋线之间和队内11名球员比赛期间的协调关系。结果表明,3条线球员的中心运动更有规律。因此,ApEn这一度量真正代表的是球队中心的行为规律本身,它是对团队行为的一种高度抽象的描述。然而可预测性的测量方法只是比较1个信号和它本身,同步的测量方法可以评估2个或多个不同信号的相似性。这些技术包括相对相位、窗口相关、互相关、跨样本熵(交叉样本)、矢量编码、互信息和聚类相位[4]。在实际应用中,可以利用同步性检测对方球员之间是否存在盯人,基于对方球队数据的分析还可以识别在防守时具有同步趋势的几组球员。
图1 球队阵型和球员到其位置中心之间距离的可预测性[9]Figure 1 Team formation and predictability of distances between players and their positional-centroid
空间控制法是另一种通过计算球员所覆盖的区域或对球员间距离的各种度量,量化球员在球队中的分散程度研究球队战术的方法。其中最常用的一种比赛空间测量方法是有效比赛空间测量,它使用一种凸壳(convex hull)方法测量比赛外围队友的多边形区域。有效比赛空间也为表面积、覆盖面积或比赛区域[4]。研究[12]表明:与防守球队相比,进攻球队的表面积更大;与经验不足的球员相比,经验丰富的球员所覆盖的区域也更大。另一种更复杂的个人空间的动态计算方法是控制区域法,也称为泰森多边形(Voronoi diagram)区域。之前提出的几种评估竞技足球空间控制的方法,从概念上看都是泰森多边形图的变体。泰森多边形图根据(x,y)坐标球员位置将足球场地细分为单元格[14]。与其他所有球员相比,在一个给定单元格中包含的所有位置都是离各自球员最近的,因此该区域被认为是由该球员控制的。通过累积与球队相关的单元格,可以估算出球队控制的总面积。使用控制区域法得到的结果与有效比赛空间测量相近。
在足球运动中,为了控制中场、反击或有效压迫对手,团队运动是不可分割的,球员的协调运动是团队运动成功的关键。因此,对球员在给定时间内到达某一位置的概率进行量化的模型至关重要,该模型被称为运动模型[15]。Taki等[16]首次提出一种基于球员当前速度、方向和沿不同方向的加速度分布的运动模型,讨论了加速度对速度和方向的依赖关系,并强调加速度随速度的增加而减小。Fujimura等[17]随后通过增加一个阻力来扩展这种方法,以防止速度无限增长。这极大地简化了模拟球员移动的物理定律,但模型没有考虑球员之间的个体差异。Gudmundsson等[18]概述了如何从数据中估计这种个体运动模型。该研究建议在某时刻通过构造一个凸多边形来模拟1名球员的可到达区域,这个凸多边形包含球员在这段时间内到达的所有历史位点,并给出了球员的实际位置。Brefeld等[15]新近提出一种基于位置数据的运动模型估计方法,通过设定球员在给定时间后的初始位置和速度来生成,得到每个速度和时间间隔的可达(x,y)坐标表,并利用核密度估计将这些坐标表转换成概率运动模型。这种概率方法考虑了球员的特征,用大量的数据进行衡量,并能够以分布式的方式进行高效计算。总之,之前在优势区域计算中使用的球员移动函数建模较为简单,球员的生理约束和先天动力等因素通常被忽略。
控制空间是由每名球员之间的位置和距离决定的。球员的控制区域(或优势区域)是指在比赛区域中该名球员先于其他所有球员到达的区域[6]。由所有球员的优势区域导致的细分会将比赛区域划分为单元格,可以提供1支球队球员之间时空关系的整体图景(图2)。另外,球员的移动会导致优势区域的合并。1支球队控制的空间越大就越有“统治力”。优势区域分析对于计算和评估传球质量和成功压制的形成,对团队行为和互动的分析,乃至于对进攻和防守的组织以及跑位都是必要的。此外,个人比赛区域和优势区域的变量也提供了球员个人空间的动态值。每名球员的个人区域都是相同的,而对优势区域的计算是唯一的。守门员和周围球员在比赛区域具有较大的数值和变异性,导致很难从噪声中分离出信号。解决这个问题的一种方法是将分析的焦点从比赛层面缩小到较低的层面,例如,Rein等[14]的研究只分析了球队进攻中的泰森多边形区域。对于个人比赛区域,需要假设每名球员的比赛区域是均等的,这就对上述分析方法的代表性产生了疑问。因此,最好将这一方法运用于总体层面(球队或比赛层面)分析。相对于个人层面,更多的研究分析了球队和比赛层面的比赛空间,这或许是未来研究的一个潜在领域。
图2 足球比赛情况的泰森多边形图示例[14]Figure 2 Example of a Voronoidiagram for a typical game situation in soccer
网络分析法常被用来分析球队的传球行为。该方法的基本原理是将球队中的球员作为顶点,以此为基础,把每2名球员之间的传球作为边。传球有方向,所以在该模型中所有的边都是有方向的,而传球的方向就是有向边的箭头指向,球员之间的传球次数则表示为该边的权值,如图3中各边的方向和数值。根据边的权值得到顶点的权值,具有竞争角色(中心性)的主要球员很容易通过网络分析被识别出来,因为他们表现出与其他球员更紧密的联系[19]。目前的研究主要集中在2类网络,即传递网络和转移网络,分别如图3的左图和右图所示。传递网络可描述为G=(V,E),其中V表示该图中顶点的集合即球员的集合,E表示边,即传球路径。从球员v1指向v2的路径为e=(v1,v2),该路径的权值w(e)表示球员v1成功通过路径e将球传递给球员v2的次数。图3右图是在此基础上加入了结果扩展的转移网络,例如,在转移网络中的球员C有2次射门和1次控球失误。
图3 足球比赛的传递网络(左)和转移网络(右)[6]Figure 3 A passing network(left)and a transition network(right)in soccer
网络分析可以描述每名球员的中心性水平(各个顶点的权值)、球员之间的依赖性(顶点之间的交互)和整支球队的特定网络属性(图的一般特性)。对传递网络特性的研究中使用最多的测量指标是中心性[6]。在团队运动中,引入中心性的目的通常是识别关键球员或评估球员之间的互动。它包括3个具体的指标:度中心性(degree centrality)、接近中心性(closeness centrality)和 中 介 中 心 性(betweenness centrality)。其中,最常用的指标是度中心性,即与某名球员关联的相邻球员的数量。Grund[20]通过分析英超联赛的760场比赛的进球数发现,整体增加球员间的互动(传球率)会提高球队表现,但提升互动中心化会降低球队表现。根据对2014年足球世界杯赛64场官方比赛的观察,中场球员被评为最杰出的球员[21]。Clemente等[22]对德国队详细分析发现,中场球员具有更高水平的调度能力(球员在场上比赛时将2名或多名队友联系在一起的能力)和支配能力(经常参与球队网络的能力)。另一项研究[23]分析了导致进球或失球的传递序列中的网络互动,结果表明,进攻中场和边锋是最出色的接球手,而右后卫是最主要的传球手。对球场区域的分析表明,在进攻阶段,靠近球门的中心和边路区域主要影响网络的互动,从而导致进球。
除自身的度中心性外,每名球员的重要性还与他相邻近球员的能力紧密相关。例如,PageRank算法作为互联网网页重要度的计算方法,最初用于谷歌搜索引擎的网页排序。事实上,PageRank可以定义在任意有向图上,后来被应用到社会影响力分析、文本摘要等多个问题。Peña等[24]发现运用PageRank算法给每名球员赋的权值约为该球员在固定传球次数后控球的可能性。这项研究计算了16支顶级球队球员的PageRank,重点讨论了4支顶级球队的球员。结果显示,荷兰队和乌拉圭队球员比西班牙队和德国队球员的PageRank分布更均匀,表明在前2支球队中没有一名球员在传球体系中拥有支配地位,而西班牙队的哈维和德国队的施魏因施泰格在各自的球队中尤其重要。因此,网络分析法对球员的传球行为和空间信息的互动研究为竞技足球的战术行为分析提供了一种有效的方法,比传统的符号分析法提供了更多信息。
近年来机器学习算法被广泛应用于竞技足球的战术决策研究。①机器学习算法被用于对比赛中发生的事件和赛况做出判断,并对该事件的属性进行定性或定量分析,如对有威胁的射门或传球的质量进行评级[25]。此类评估指标可以用来衡量球员和球队的表现。相较于目前通过视频分析手动获得此类指标,自动生成的算法会大大提高这一过程的效率。②预测比赛如何展开的能力已经在计算机视觉领域被广泛研究。使用可以自动改变俯仰、倾斜和变焦的相机来拍摄比赛的全过程。在理想情况下,场景的构建不仅应包含当前的情景,还应包含未来可能涉及的球员活动及位置。另外,机器学习算法可以高效、自动识别特定的数据模式,如确定球队阵型。Bialkowski等[26]基于英超整个赛季的位置数据,运用期望最大化(expectation-maximization)算法自动识别球队阵型,结果表明,球队在客场比赛中使用更多的防守阵型。而且,机器学习算法可以识别比赛中的球员移动和团队战术。Knauf等[27]使用时空卷积核(spatio-temporal convolution kernels)算法对球员轨迹进行聚类,通过分析位置数据能自动判断比赛双方的进攻模式。Hirano等[28]使用多尺度比较技术,结合比赛数据和场上位置,自动识别出导致得分的重复进攻序列。Fernando等[29]通过比赛序列的聚类分析区分不同球队的进攻行为。Montoliu等[30]将词袋(the bag-ofwords)算法应用于足球比赛视频片段的编码,随后使用随机森林分类器识别比赛模式。Wang等[31]的研究旨在从传球序列中识别战术任务,这类似于从文档语料库中识别主题[31]。该研究提出基于潜在狄利克雷分配(latent Dirichlet allocation)的球队战术主题模型,作为一种学习常用战术的非监督方法。
另外,人工神经网络(Artificial Neural Networks,ANN)也常常被用于足球战术研究中,它能够根据位置数据对战术进行分析。从系统动力学的角度看,团队行为的运动模式表现出非线性的自组织特征,即团队各项状态测算不满足叠加原理,同时团队内部具有一定默契的自动调节功能。ANN作为一种重要的非线性处理工具,很适合描述具有非线性属性的高维数据集[8],可用于模式识别和分类。ANN能够在数秒内以高成功率(85%以上与专家一致)对位置数据进行分析,如对比赛开始、边锋战术或标准情况(掷界外球、任意球和角球)等各种小组战术行为进行分析。尤其是利用Kohonen特征图(Kohonen Feature Map,KFM)对高维数据做出降维处理,从大量的相关变量中选出少量最有效的变量信息。这些信息将有助于制订有效的训练方案,用以加强球员之间的自组织协调,同时这种方法也被广泛用于自动识别球队阵型[9]。因此,基于ANN的定性分析是了解球员动态属性的一种非常有效的方法。利用若干ANN的层次化结构,可以根据位置数据自动对复杂和典型的战术模式、战术团队阵型及其动态变化和互动进行分类。
综上,基于位置数据的足球战术分析方法主要包括用来确定球队几何中心的球队中心法、计算球员所覆盖区域的空间控制法、测量球队传球行为的网络分析法、自动识别比赛与球队战术模式的机器学习算法。这些方法的共同之处在于它们只是集中于球队战术的某一方面,如球队阵型,缺乏对跨战术领域合并信息的研究。目前尚不清楚球队阵型是如何与球员个人的技战术能力相互作用的。球队不同的战术位置会有不同的生理需求,还没有研究分析如何将这些信息与球队进攻和防守的战术阵型结合起来运用。然而,现代跟踪系统已经发展到足以提供达到科学研究标准的数据,这就为从整体上分析竞技足球的技战术和球员的生理需求提供了可能。例如,可穿戴设备能在足球比赛中提供包含每名球员生理数据在内的实时数据,这些数据无法通过摄像机获得。考虑到足球战术分析需要整合多种不同来源的详细数据,因而有必要探讨大数据技术栈和深度学习技术如何帮助研究者解决这些问题。
目前分析比赛中球队表现的方法通常基于简化或总结的测量方法[5]。建立在还原论基础上的运动表现研究割裂了各种因素之间的联系,忽视了外部因素对运动表现的影响[1]。例如,传球次数、球队中心行为以及近似度量是将大量信息折叠到单个度量上。虽然度量方法本身没有问题,如样本均值显然是有价值的指标,但就比赛而言,这些方法放弃了几乎所有的情境和程序信息[2]。对于球队战术的分析需要整合多种不同来源的详细数据,包括个人技术、生理表现和球队阵型等,用以表示球队战术行为背后的复杂过程。然而对于这些不同因素如何影响竞技足球战术行为,目前所知甚少。笔者分别从数据的管理和分析技术2个方面探讨大数据技术栈和深度学习技术在足球战术分析中的应用。
大数据技术的兴起或许会带来一种关于模型构建和各种来源数据组合的潜在解决方案,然而大数据并没有得到普遍认同的定义,它更多是基于特征来描述的[12,32]。大数据的特征是4个v、1个o,即体量大(volume)、多样性(variety)、速度快(velocity)、价值密度低(value)以及线上(online)。关于足球战术分析,不同概念可以通过以下方式阐明:①体量是指足球数据集的大小。例如,每场足球比赛的位置数据集通常使用可扩展标记语言(XML)进行编码,其大小在几兆到几百兆之间波动。如果对德国足球甲级联赛整个赛季的306场比赛进行分析,可能会获得高达90千兆字节的位置数据。另外,如果将训练、生理指标、事件数据(传球、犯规等)和视频数据等附加数据整合起来,数据量将增加到几个兆兆字节。与在简单的Excel表格上执行符号分析法所需的数据量相比,这显然是一个质的飞跃。大数据技术为存储这些数据集提供了特定的解决方案,并通过特定的用户界面和应用程序编程接口访问。②多样性是指不同的数据格式和数据源,它可以划分为结构化、半结构化和非结构化3类数据。结构化数据有明确预定义的模式来描述数据,允许对数据进行简单的导引和搜索,如关系数据库系统。相比之下,非结构化数据缺乏明确的模式,如视频数据和文本信息。半结构化数据则介于这2类数据之间,由一些没有预先定义模式的数据组成,但它可能有一个变量模式,通常是数据本身的一部分,如用于跟踪数据的XML数据类型。尤其是足球比赛中存在各种不同的数据格式和数据资源,如位置数据、视频记录、书面形式的荟萃数据和比赛期间记录的体育医疗数据。基于技能测试、心理测试和额外的表现数据(如教练员的观察结果、战术测试、健康报告),可以根据需要以问卷、访谈和其他方法的形式增加训练数据。由于不同类型的数据访问和数据处理模式不同,大数据技术提供了特定的解决方案来组合分布在这些数据集上的信息。③速度描述生成新数据的速度。在足球运动中,从生理和位置数据的实时数据流到训练和比赛期间记录分析的延迟数据流之间存在很大的差异和波动。大数据技术专门解决如何处理和存储高速数据。总而言之,描述大数据的3个关键概念都与竞技足球的战术分析高度相关,大数据技术栈可以为每个领域提供具体的解决方案。
如图4所示,足球战术分析的大数据技术栈应按照多个层面进行组织[3]。①除视频和观察数据外,还需要必要的基础设施收集生理和跟踪数据。②需要一个存储系统允许高效的数据存储和访问。③需要建立处理路径,从数据中提取相关信息,然后合并信息,建立解释和(或)预测模型。所有这些处理层面都需要报告和可视化功能监视不同的处理步骤并交流结果。建立大数据技术栈的主要目的是将来自不同领域的信息组合起来,从而得出关于比赛表现的结论,即个人以及球队的表现。此外,足球数据是由商业机构、职业俱乐部和公共研究机构收集的,必须解决球员的个人隐私问题[33]。例如,球员的个人资料可能会对其职业生涯产生重大影响,职业足球队可能不愿共享数据,因为这会导致球队丧失竞争优势。因此,在大数据方法成为足球研究的可行方法之前,必须解决数据管理问题。在数据分析上,应当尽可能在研究机构之间寻求基于合作的解决方案,将必要的计算机专业知识引入足球研究领域。
图4 足球战术分析的大数据技术栈[3]Figure 4 Big data technological stack for tactical analysis in soccer
要挖掘大数据的价值必然要对大数据进行内容分析与计算,而深度学习被认为是大数据分析的基础[32]。大数据分析的一个核心问题是如何对数据进行有效表征、解释和学习。传统的研究也有许多数据表征的模型和方法,但通常都是较为简单或浅层的模型,其表征能力有限,不能获得很好的学习效果。深度学习就是利用层次化的架构学会在不同层次上表征对象,这种层次化的表征可以帮助解决更为复杂抽象的问题,高层的概念是通过低层的概念定义的。深度学习通常使用深度神经网络(Deep Neural Networks,DNN),而卷 积神 经 网络(Convolutional Neural Networks,CNN)和循环神经网络(Recurrent Neural Networks,RNN)是目前应用最广泛的神经网络架构[34]。随着可用训练数据的增加,深度学习可以变得更强大。重要的是,深度学习模型在计算时间上借助硬件加速解决了许多复杂的问题。运用机器学习和深度学习算法实现自动检测和运动特定动作识别自动化,从而克服手动表现分析方法的局限。研究中使用CNN等深度学习算法的表现要优于ANN等传统机器学习算法[35]。
鉴于足球比赛的动态性、持续性和高度战略性,对足球战术进行手动分析必然存在细粒度的问题,而深度学习能够自动发现特征。其中,具有处理时序数据的架构RNN常被用于团队行为研究,如对球员的跑位进行轨迹建模[36]。研究中将自动阵型发现、模仿学习与深度学习方法相结合(称为深度模仿学习),从足球的高维时空数据中学习复杂的关系。模仿学习在此是指运用机器学习从观察到的专家行为中自动学习一个好的策略。研究者通过运行一个模拟程序观察人工智能(Artificial Intelligence,AI)球队在特定情况下如何行动,而AI球队是通过“重影”(ghosting)普通和顶级球队的特征创建的。深度模仿学习在此被用于AI球队,可以将其球员的行动与联盟的平均水平或联盟中的顶级球队进行比较。这有助于确定球队可以在哪些地方改变球员的行动和提高得分或减少失球的机会。研究中使用一种被称作长短期记忆(Long Short-Term Memory,LSTM)的RNN来学习每个时间步中每名角色球员的细粒度行为模型。每名球员由2个隐藏层组成的1个LSTM建模,每层有512个神经元。这些隐藏层神经元的作用是捕获所有球员最近的历史行为信息,并映射到下一个时间步的位置。它在某种程度上类似于雅达利(Atari)游戏和围棋比赛中一个AI程序如何通过训练数据将比赛历史映射到下一个行动框架[37-38]。该研究还利用模仿学习的技术训练一个能学会从自身的预测错误中恢复的模型,这样这个模型就可以在长时间的决策序列中保持稳健性。模仿学习算法不仅能捕获球队中每名角色球员的行为,还能捕获每支球队中多名球员如何从这一帧到下一帧的共同行为。在此基础上,Le等[39]还提出一种能在足球比赛中模仿和学习球员行为的多智能体方法,结果表明,与传统基线相比,拥有一个角色协调模型能改善模仿效果。
另外,将强化学习与DNN相结合(深度强化学习),往往会在一些非常困难的学习问题上获得令人印象深刻的表现[37-38]。强化学习是指学习者或决策者(统称为智能体)学习将情境与行动联系在一起的过程,即依据奖励最大化原则,通过一系列探索执行目标定向的行为[40]。因此,Dick等[41]提出一种深度强化学习方法来学习评估基于位置数据的多名球员跑位。与模仿学习不同的是,这种纯数据驱动的方法并不依赖于任何领域的先验知识。研究者提取比赛的序列,其中一支球队保留控球权,既不丢球,也不中断比赛。每个序列都以一次事件(丢球或中断比赛)或球队执行一次“成功行动”结束。成功行动包括球队进入对方半场最后25 m的威胁区域。如果行动成功,将序列标记为正,否则标记为负。使用这些序列学习一个评分函数,基于深度强化学习的思想和方法,将比赛情况映射到真实的数字。该研究将足球比赛建模为包含所有球员和球的位置数据和运动矢量的比赛设置的马尔科夫过程。在这个模型中,这些状态序列由扮演控制器或策略角色的2支球队的行为创建,并通过CNN来学习该策略的值函数。值函数根据比赛情况对球队表现进行评估。从经验上看,预测比分与实际情况的危险性高度相关,这表明在没有专家知识的情况下对球员跑位进行评估是可行的。
新近研究为足球战术分析提供了强大的模型,用以检验各种具体的比赛情况,如传球风险和质量、进攻射门威胁、射门机会中的无球跑位。虽然这些模型在特定任务中取得了成功,但对于如何将它们合并到一个更为全面的分析框架中还没有明确的方法。因此,Fernandez等[42]建立了一个评估每支球队在足球比赛中期望控球的模型。期望控球值(expected possession value)指的是基于全分辨率时空数据的足球控球的期望结果,通过对22名球员的所有时空特征,以及对任意位置的控球、射门或传球的潜在值的细粒度评估,量化每次控球时的期望结果。而且,该模型采用解耦设计,将目标值分解为进一步控球的不同动作的期望值,以及这些动作的概率,为比赛情景的可视化和定量分析提供了强大的解释力,尤其是基于深度学习的组合模型用于捕获复杂的时空战术,通过基于大量时空特征的机器学习算法,对模型中的每个组件进行独立估计。例如:使用逻辑回归估计传球率和失误率;基于球场控制统计模型,在球场控制和球场影响曲面上建立基于CNN的动作似然模型[43]。通过这些DNN来学习传球和控球的期望值。重要的是,位置数据使得其他相关因素的研究成为可能,如球员运动和断球、球员和位置之间的距离和角度、自动检测整个赛场的阵型以及专家指导的手工制作特征等。该研究在组合模型中使用一系列情境因素(如移动、距离、角度等)提高可解释性和预测能力。更高层面的随机过程模型以一种内聚的、可解释的方式把每个组合模型融合在一起。因此,该模型捕获了大量的位置、运动和背景特征以及球场上任意位置的相对值,模拟了足球运动的一个关键特征——理解球员在空间中的互动。
近年来基于位置数据的足球战术分析逐渐增多,大数据技术正在推动足球研究领域的革命。然而,基于视频分析技术的位置数据只能提供单一空间模式的大数据,可穿戴设备却能在足球比赛中提供包含每名球员生理数据在内的实时数据。鉴于此,未来研究应通过整合关于训练需求、周期负荷、竞赛体系、球员体能和疲劳等信息来源,将比赛现场和实验室测试得到的不同数据,如生理、心理、位置、教练员、球探、观众等数据实时压缩成较小的变量,运用数据可视化与报告等手段,为教练员提供客观的信息,在某种程度上优化对表现结果的预测。尤其是大数据技术栈和深度学习技术的AI新方法,有望为足球战术研究提供一条新的途径。因此,未来需要将计算机科学研究者、体育科学研究者和足球教练员有效结合,从而获得影响足球比赛结果的个人以及球队表现方面更为准确的信息。
作者贡献声明:
王泽军:调研文献,设计论文框架,撰写论文;
游松辉:提出论文选题,设计论文框架,修改论文。