何 施,赵文作,刘 博,黄志剑
羽毛球是我国竞技体育传统优势项目之一,在国际上享有很高的声誉。但在近年来相关的重大赛事中,我国选手的成绩显得不如人意,足以说明现阶段中国羽毛球正面临着严峻挑战。面对严峻挑战要想取得好成绩,就必须要有先进的技术手段和思路。羽毛球比赛的技战术具有不确定性、多变性、复杂性等特点[1],而传统羽毛球技战术分析主要是描述性的统计分析[2-3],各因素之间是相对独立的,无法还原运动员在某一时段的连续动作状态。教练员往往凭借经验及描述统计数据来安排日常训练、指挥临场决策。
数据挖掘兴起于20世纪末,一般是指利用计算机等工具从大量、零散、不完全并且随机的数据中通过特殊算法提取或“挖掘”出隐藏在其中的信息和知识的过程[4]。数据之间的关联是数据挖掘中存在的一种非常重要的可被发现的知识,如果给定两个或多个数据集并从中发现存在某种频繁出现的项集模式就称为关联规则[5]。目前,关联规则广泛应用于超市、银行、网购等领域,在体育领域主要应用在网球[6]以及其他隔网类项目中[7],在羽毛球项目中的应用尚属少见。羽毛球的竞赛规则和技战术与网球有相似之处,所以网球技战术的关联规则研究对羽毛球有参考性。本研究尝试使用关联规则中的Apriori算法在众多数据中寻找羽毛球运动员X的提升空间[8]。
某省运动健将级羽毛球单打女性运动员1名,年龄为20岁,球龄10年(以下简称为“X”)。通过教练员收集X在2017—2018年国家羽毛球队集训期间参加的6次国际赛事,共21场比赛的视频资料,围绕这些比赛进行技战术多维度信息采集,通过建立关联规则模型对X在比赛中的技战术以及决策问题进行挖掘分析。
1.2.1 文献资料法
研究通过检索多个数据库,查阅了解相关文献,为研究的分析提供可靠的理论支持和技术借鉴。
1.2.2 专家访谈法
研究前期与羽毛球国家队、省队等多名教练员及科研人员进行现场访谈、电话邮件沟通。根据教练员及专业科研人员的意见和建议制作出羽毛球比赛技战术多维度信息记录表(以下简称“信息记录表”),反复修改后的信息记录表得到一致认可。
1.2.3 数理统计法
利用编码规则采集、整理数据,并用数理统计法进行分析。使用SPSS 21.0处理数据及一致性检验,后通过使用SPSS Modeler 18.0对各项统计指标进行关联规则分析。
1.3.1 羽毛球比赛技战术多维度信息记录表
在制作信息记录表时,考虑到影响羽毛球比赛成绩的因素有很多,将这些因素视为自变量,比赛的得失分视为因变量,将运动员在比赛中的每一个得失分定义为一个单元并以此为单位进行多维度关联规则分析。同时,将影响羽毛球比赛成绩的因素分为比分因素、时间因素、空间因素、技战术因素四大类,每一个因素由多项内容组成,这些因素共同作用最后形成运动员的得分或失分结果。
1.3.2 羽毛球场地区域编码规则
羽毛球运动属于隔网类运动项目,整个场地被高1.524 m的球网均分为2个半场。将本研究的研究对象X称为本方运动员,与X同场竞技的运动员称为对方运动员。本方运动员所在半场定义为A区,对方运动员所在半场定义为B区。
羽毛球场地较大,羽毛球及运动员的运动轨迹较复杂,与教练员沟通后将羽毛球的每一个半场分为9个位置,如图1所示。球网到前发球线的前场区域从左至右(面向球网)分别编码为1、2、3,前发球线到单打底线均分为中场和后场2个部分,中场从左至右依次编码为4、5、6,后场从左至右分别编码为7、8、9,其中左路、中路和右路的分界线与单打左右边线的三等均分线重合。
图1 场地位置编码图Figure1 Diagram of Venue Locations
羽毛球的发球规则要求发球运动员和接发球运动员都必须站在斜对角发球区内发球和接发球。根据接发球运动员的站位推测发球运动员发球的落点,图2表示从另外半场的右区发到该半场斜对角左发球区的落点图。其中,网前内角短球编码为1,网前外角短球编码为2,后场内角高远球编码为3,后场外角高远球编码为4,网前中路短球编码为5,后场中路高远球编码为6。
图2 发球区域落点编码图Figure2 Diagram of Landing Points in the Service Area
视频材料共记录X在6次国际赛事中与来自不同国家的21名对手之间的21场,共48局比赛,共1 644个球,视频时长16时33分25秒。其中,X胜18场,负3场,胜率为85.7%,2∶0胜14场,2∶1胜4场,0∶2负1场,1∶2负2场。
根据编码规则对X的比赛视频进行数据编码[9]。所有编码由3名研究生独立完成,正式编码前随机选取一场比赛录像,3人分别对该段录像独立观察并进行编码,然后对3人的编码进行两两比较,使用SPSS 21.0计算出Cohen’s kappa系数值对3人的编码结果进行评分者一致性信度检验[10]。结果显示,评分者一致性强度在一般至强的范围内,3人可以独立对其他的视频资料进行编码。
关联规则是形如A→B的蕴涵式,A被称为关联规则的前项,它可以是一个或多个项集;B被称为关联规则的后项,它一般是一个单独的项集[11-12]。对于事务集D,A∈D,B∈D,A∩B=Φ,即满足每次商品交易都与唯一一个标识符TID(Transaction ID)对应[13-14]。 在已有研究中,常用支持度、置信度(Confidence)来描述关联规则的属性[15],本研究新增提升度(Lift)和部署能力(Deployment)2个指标[14-16],目的是为了更进一步验证规则的有效性并尝试挖掘更多的隐藏信息。
支持度(Support)描述了A和B这2个项集在所有事务中出现的概率;置信度是指在给定项集A的前提下,项集B也同时出现的概率;提升度反映了相比于所有事物,项集B受到项集A的影响程度;部署能力是已经满足项集A,但是还没满足项集B的事务比例。
支持度(S)、置信度(C)、提升度(L)以及部署能力(D)的公式如下:
其中,N(A∩B)表示同时包含前项A和后项B的事务数量,N表示总的事务数量,N(A)表示包含前项A的事务数量,N(B)表示包含前项B的事务数量,条件支持度SA=N(A)/N,结果支持度SB=N(B)/N。
当关联规则满足最低条件支持度阈值和最小规则置信度阈值时则认为该规则是有趣的,这些阈值是根据挖掘需要人为设定[17]。为了挖掘尽可能多的关联规则,本研究默认最低条件支持度为0%、最小规则置信度为0.01%。
研究从X的角度出发,通过建立关联规则模型对收集的数据进行分析,主要分析X在比赛中的比分形势与连续得失分、局段与得失分、多种技战术的使用与直接或间接得失分以及最后2拍与最终落点之间的关联规则。
将比赛中连续得3分及3分以上的情况定义为连续得分,连续失3分及3分以上的情况定义为连续失分。将比分形势看作关联规则的前项,连续得失分则是关联规则的后项,对比分形势与连续得失分进行关联规则建模分析得出表1数据。
表1 比分形势与连续得失分之间的关联规则Table1 Association Rules between the Score Situation and Consecutive Scoring
分析发现在比分领先的形势下,比分与连续得分成正向影响且此情况下支持度和置信度相对较高;当比分落后时,连续失分的支持度和置信度也相对偏高,前项对后项的影响程度也为正向。部署能力栏的数据表明,在比分形势领先或落后的情况下,如果降低X的失误可以有更多的连续得分或更少的连续失分发生。这些分析说明比分形势对X的技战术合理表现有较强的影响,同时为后期的运动心理干预提供了明确的数据支持。
羽毛球比赛多为21分制,根据教练员的建议将每局的21分分为4个局段:0~6分为开局,7~11分为中局前段,12~16分为中局后段,17~21分为局末。规定在领先一方达11分时会中场休息,所以在11分处将中局分为前后两段。
由表2可知,X在开局和中局得分的频率相对较高,在局末得分频率较低,得分情况下局段的置信度由高到低依次是开局、中局后段、末局和中局前段。除中局前段以外,其他局段均与得分成正相关,部署能力相对较高的是开局和中局前段。由此可见X在开局状态较好且有很大潜在得分能力;相较而言在局末有较多失分,在日常训练中应该多加注意该段的心理变化及技战术使用。
表2 局段与得失分之间的关联规则Table2 Association Rules between Match and Game Scoring
发球技术的使用在羽毛球比赛中是极其重要的技术之一。高质量的发球会给对手增加难度,迫使对手只能被动地做防守性的回击,甚至会直接致使对手接发球失误;质量差的发球会使对手获得进攻机会,而自己处于被动。因此发球质量的好坏直接影响比赛的主被动[18]。如图2所示将接发球区分为6个落点并进行编码,同时将发球4拍之内发球方得分的情况称为发球直接得分(表3)。
表3反映了发球落点与发球直接得失分之间的关联规则,表中各项支持度普遍较小,说明在高水平的羽毛球比赛中发球直接得分的情况较少发生。但是,比较表中数据可以发现,相对而言,X在发网前中路短球直接得分的置信度最高且提升度为正向影响,所以在平时的训练中应该多加练习并在比赛中大胆尝试使用。
表3 发球落点与发球是否直接得分之间的关联规则Table3 Association Rules between the Landing Point of Service and the Direct Score of Service
根据羽毛球相关教材和教练员的建议将手法分为高远球、吊球、杀球、抢搓、推球、勾球、扑球、抽球、挑球、挡球等[18]。同时,教练员根据以往经验认为X的杀球技术和其他运动员的区别主要是擅长使用点杀,于是又将杀球分为点杀和长杀2种手法(表4)。
表4 手法与得失分之间的关联规则Table4 Association Rules between Strokes and Scoring
对每回合最后一拍手法与得失分进行数据挖掘建模分析得出表4规则。根据表4指标分析发现,在比赛中挑球的使用频率和赢球率都较高,点杀、高远球等手法赢球率也相对较高。因此在平时的训练中应该对挑球、点杀、高远球等优势手法多加巩固,对其他得分率较低的手法多加练习。
在教练员的建议下,将羽毛球步法大致分为:上网步法、后退步法、两侧移动步法、起跳腾空步法及其他步法五大类(表5)。
表5 步法与得失分之间的关联规则Table5 Association Rules between Footwork and Scoring
通过对步法与得失分进行数据挖掘建模分析得出数据,如表5所示。结果显示,上网步法和后退步法的支持度最高,置信度相对偏低;两侧移动步法和起跳腾空步法的置信度相对较大并且对得分成正向影响。
羽毛球运动中有“七分步法,三分手法”的说法,两者相辅相成,缺一不可。对手法、步法和得失分进行数据挖掘建模分析,设定最低条件支持度为10%、最小规则置信度为50%,通过筛选满足条件的有4种关联(表6)。
表6 手法、步法和得失分之间的关联规则Table6 Association Rules among Strokes,Footwork and Scoring
表6中上网挑球得分的支持度和置信度都较高,后退高远球得分的置信度高达86.49%,在接下来的比赛和训练中应该多加练习并使用。后退杀球和起跳腾空点杀得分的部署能力相对较高,所以应该加强练习。
在X最后一拍直接得分且球的最终落点在对方有效区的范围内,对最后2拍与最终落点进行数据挖掘建模分析。设定最低条件支持度为5%、最小规则置信度为40%,通过筛选满足条件的有3种关联规则(表7)。其中,最终落点为球最后落在对方有效区触地的位置,最后一拍位置为X最后击球时的站位,倒数第2拍位置是对方运动员最后击球时的站位。
表7 最后2拍与最终落点之间的关联规则Table7 Association Rules between the Last Two Shots and the Final Landing Point
由于羽毛球线路具有复杂性、多变性、不确定性等特点,所以最后2拍与最终落点关联规则的支持度普遍偏小,从置信度的角度来看,筛选出来的3个关联规则的置信度都高于50%,前项对后项都是正相关影响,部署能力值都偏低。
在羽毛球场地中还原最后2拍的路线如图3所示。其中,虚线表示与对方运动员最后一拍击球的路线图,实线表示X最后一拍击球的路线图。图3中的线从粗到细分别表示关联规则由强到弱。
图3 最后2拍路线图Figure3 Route Map of the Last Two Shots
灵活多变是羽毛球项目的主要特征之一,这也使得对比赛发展规律、运动员技战术特点的描述与把握变得愈发复杂和困难。与传统的描述性统计相比,本研究尝试使用数据挖掘的方法对优秀羽毛球运动员比赛视频进行编码并用关联规则中的Apriori算法挖掘分析影响羽毛球比赛的多维度因素并寻找这些因素之间潜在的关系和相互作用。
在实际比赛过程中,影响比分、局分和场分的因素非常复杂。本研究在与专业教练员、运动员及科研人员深入研讨基础上设计编制信息记录表共包含时间、空间、技术和比分等4个方面,二十多项因素。这些因素在比赛中往往是以不同的组合方式和显著程度共同影响X的运动表现。
对X的运动表现有利的情况主要有:(1)比分或局段领先、发网前中路短球、最后一拍中使用上网步法与挑球手法相结合或后退步法与高远手法相结合、最后2拍路线为9→7→4时的得分效率较高;(2)连续得分或是在开局和中局得分频率较高,此时X的状态较好且存在潜在得分能力,这便是所谓的顺风局;(3)网前中路短球虽发得少,但却是X发球直接得分率最高的发球技术;(4)最后一拍中使用上网挑球或后退高远对X来说,使用后的得分率也相对较高。此外,分析最后2拍得分率最高的路线9→7→4,可根据X的技战术还原为对方的一个高远球从区域B的位置9打到区域A的位置7,X接过对手的高远球使用起跳点杀技术将球击落在区域B的位置4。X有待提升的方面有:面对比分或者局势的落后,应加强心理建设;对得分率较高的技战术要加强巩固并大胆使用。
运用大数据的思路,使用数据挖掘的方法通过积累大量比赛数据并发现这些复杂现象中存在的内在关系与规律,是从更科学客观的角度认识优秀运动员比赛技战术特点和致胜规律的一条可行途径,同时也应注意以下几点。
(1)明确研究对象,长期系统收集有针对性的数据有利于解决实际问题。本研究的初衷是使用大数据的研究思路为教练员与运动员提供切实可行的比赛技战术运用与得失分规律分析,属于问题导向的应用性研究。随着今后X的比赛场次不断增加,将积累更多比赛视频资料和数据资料,这对于扩大数据分析的方法与内容,提高数据分析的准确性和可靠性是相当有利的。同样在不断的数据积累过程中,教练员和运动员可以在实际比赛中检验本研究提供的规律与建议,双方相互促进,形成长期有效的合作。对于向顶尖水平冲击的少数优秀运动员而言,个人长期数据的意义可能优于横向的众人数据。
(2)合理运用新技术、新指标,提升数据的利用率和解释度。在已有研究中,常用支持度、置信度来描述关联规则的属性,本研究新增提升度、部署能力2个指标来尝试挖掘运动员在比赛中更多的隐含信息。如果说支持度和置信度指标反映了某一规则在已有数据中的发生情况,是运动员已完成的过往表现,那么提升度和部署力指标则更倾向于反映该运动员在某一规则上的改进空间。这对于处于技战术上升期的运动员而言,无疑具有更明确的指导意义。
(3)加入比赛维度,从心理学的角度分析运动员比赛技战术规律。已有的比赛技战术分析研究大多局限于以单个比分为单位,对运动员的技战术和得失分效率进行分析。本研究在数据编码过程中增加了比赛维度,从局分、比分、局段等具体因素描述,反映运动员每一个得失分发生时的比赛背景。这些背景条件对运动员在比赛过程中的心理具有显著影响,同时也在一定程度上反映了运动员在不同比赛局面下的心理特点。以X为例,从结果分析可知,该运动员在比分领先情况下的连续得分,比赛落后下的连续失分情况较多发生,反映了运动员处理困难局面上的心理坚韧性品质尚有较大的提升空间。
总的来说,利用先进技术手段和思路,简单、方便、快捷地将运动员在赛场上的优势和不足用可视化的数据呈出来,一方面为提高羽毛球比赛中的技战术运用提供解决思路,另一方面为运动员、教练员提供科学的技战术改进建议。
从数据挖掘的角度来看,本研究获取的数据仍相对较少,得出的结论具有局限性。在条件允许的情况下,可以做优秀运动员的纵向跟踪分析,累积数据并分析,争取在更深层次上揭示运动员与不同对手,尤其是某几位实力较强的主要对手比赛时的技战术特征,以便得到更加具有针对性的比赛技战术建议。
通过数据分析,可以总结运动员X的优势技战术有:发网前短球、起跳腾空点杀、后退高远球、上步挑球等,最后一拍直接得分的情况下相对稳定的落点位置是9→7→4。X相对较薄弱并有待提高的技战术有:发后场球以及网前球的处理等。另外,通过比分与连续得失分、局分与得失分的关联规则可以发现运动员X的临场表现很容易受比分和局面因素的干扰。
以关联规则为主的数据挖掘方法在运动员比赛技战术大数据分析中具有较高的应用价值。提升度和部署力指标对于认识发现运动员的潜在提升空间有一定指导意义。
在技术方面,X应该加强网前球的处理练习;在战术方面,X应该重视发球技术,掌握主动权;在临场决策方面,应该适当对X进行心理干预。
在数据挖掘方法的应用方面,对庞大复杂的比赛技战术数据的合理编码与分析需要从实际问题和需求出发,注意分析思路和视角的选择与设定,以更好地服务运动训练、竞赛实践。