孟凡明 黄文敏
( 1.呼伦贝尔学院体育学院,内蒙古 海拉尔 021008;2.福州大学体育部,福建 福州 350002)
澳大利亚网球公开赛、法国网球公开赛、温布尔顿网球锦标赛以及美国网球公开赛,被称为世界四大网球公开赛,或者“四大满贯”。它是每年最为重要的世界性网球单项比赛,世界各地的职业选手均将获得这四大比赛桂冠视为最高荣誉。它代表了当今网坛最高水准和至高殊荣,他们同时也引领着当今世界网球发展趋势和潮流。赛中和赛后四大网球公开赛官方网站将适时公布每场比赛的技术统计数据,一般认为网球比赛技术统计最集中、最概括、最准确记载着各参赛运动员的各项具体技术指标,能够直观地反映对阵双方的竞技水平。
近年来,网球技术统计数据引起有关专家和学者的重视和研究,特别是网球比赛制胜因素的相关研究成为热点。数据挖掘(Data Mining简称DM)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,使人们发现有用的新规律、新概念,提高研究人员对大量原始数据的深层理解、认识和应用[1-2]。而数据可视化挖掘可加深对测试数据的理解,并用形象、直观的计算机图形技术表示测试过程,以达到深入剖析测试数据的目的[3]。目前,数据挖掘在体育领域的应用还比较少。如何利用好体育比赛的有关数据,从中挖掘出有用信息,是数据挖掘技术在体育领域中的一项重要任务。数据挖掘分析方法很多,其中决策树算法是数据挖掘的一种重要方法,该方法可通过对大量数据有目的地分类,并从中发现或找出潜在的、有价值的信息,从而得到分析结果。本文把决策树方法应用于网球比赛技术统计,对有关数据进行挖掘,形成一棵网球比赛的决策树,从而探析和挖掘网球比赛致胜因素的量化指标,为网球训练比赛提供科学的依据和指导。
通过查阅“网球四大满贯赛事官方网站”,以近五年“四大网球公开赛”女子单打198场比赛的二十三项技术统计数据作为研究材料,具体采用赛事的年度场数见表1。
表1 赛事场数的年度分布
1.2.1 文献资料法
查阅与网球相关的资料、论文30余篇,收集近五年“四大网球公开赛”女子单打比赛的技术统计数据。同时查阅20余篇国内外数据挖掘及决策树方法的有关理论和研究方法,了解国内外对网球技术数据统计分析的最新进展。
1.2.2 数理统计法——决策树法
通过SPSS Modeler统计软件对搜集到的官方网站发布的数据各指标进行统计处理,应用决策树法从众多复杂的数据中抽出有价值有规律结论和信息进行定性、定量归类统计处理。
1.2.2.1 工具及方法介绍
决策树(Decision Tree)是一种重要的分类模型,利用信息论原理对大量样本属性进行分析与归纳,从而产生分类规则的树结构,它用样本的属性为节点,属性取值为分支。每个分支代表一个分类规则,可用于分析每个类别的属性特征,可以用于预测某个个体所属类别;每个分支对应的属性也揭示了一个属性对目标分类变量的影响程度与影响方向,可以用于发现对分类目标影响显著的属性特征;每个分支对应的属性值,还可以为量化调控指标提供指导意义。决策树的构造过程包含两个阶段:1)树构造阶段。关键是为每一个节点确定一个属性特征及其分割值,使得样本数据能够按照选定的属性特征与分隔值分割为不同的群组,并且每个群组里都只有单个类成为主导。2)树剪枝阶段。在应用过程中主要在大节点发现通用分类规则,而在小节点发现具体分类规则。
1.2.2.2 模型构建
选择近5年四大网球公开赛官方公布的198场(396条)女子单打比赛的技术统计数据,为避免一些极端数据对统计结果的影响,用工具SPSS Modeler进行数据抽取、转换,最终得到了需要的数据。经SPSS Modeler数据抽取转换共确定ACE球(个)、双误(个)、一发数量(个)、一发成功数(个)、一发成功率(%)、一发得分数(个)、一发得分率(%)、二发次数(个)、二发得分数(个)、二发得分率(%)、接发球次数(次)、接发球成功数(个)、接发球得分率(%)、破发次数(个)、破发成功次数(次)、破发成功率(%)、主动得分(分)、网前次数(次)、网前成功次数(次)、网前成功率(%)、总得分(分)、非受迫性失误(个)、相持得分(分)等23项指标数据作为输入数据,以比赛胜负作为输出数据,并生成决策树指标重要性和决策树分子树。
1.2.2.3 模型检验
为了确保得到的模型可信,对处理得到的数据,随机将其分成两部分:70%构成训练集,用于构建决策树模型,30%构成测试集,用于检验构建的模型是否可信,因为测试集没有参与模型构建,所以,测试结果能够反映模型对不同数据的适应能力。
采用混淆矩阵对模型进行检验,混淆矩阵是通过将每个实测像元的位置和分类与分类图像中的相应位置和分类像比较计算的。混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目,每一列中的数值表示真实数据被预测为该类的数目。基于此原理对处理得到的30%(共126条技术统计)测试数据对新构建模型进行测试,测试结果见图1。
图中1表示有47条技术统计我们预测为胜,实际也为胜,5表示有5条技术统计我们预测为胜而实际比赛为负,也就是误测。第二行59表示有59条技术统计我们预测为负,实际也为负,5表示有5条技术统计我们预测为负而实际比赛为胜,也就是误测。从图中看,胜负误判的条数为5和5,经计算判别准确率为106/116=91.4%,说明,该模型的预测效果是十分理想的,新构建的决策树模型是可行的。
注:行表示预测值,列表示实际值
决策树法预测变量重要性显示,在女子网球比赛中对比赛胜负起决定性作用的指标主要有三个,依次为接发球得分率(%)、一发得分率(%)、非受迫性失误(个)(见图2)
图2 决策树法预测变量重要性生成图
2.1.1 决策树法预测重要变量——接发球得分率分析
隔网对抗的球类比赛总是以一方发球和另一方接发球开始的,并且每方轮流交换发球局。发球、接发球和相持是隔网对抗球类运动的过程特征,接发球环节是其过程特征之一,几乎每一分的产生都要经过这个环节。现在网球比赛随着运动员发球技术不断精进和完善,发球方一般是处于主动地位,所以发球局多由发球方获胜。因此要想在比赛中取得优势并最终获胜,“破掉”对手的发球局就成为谋求获胜的首要选择。而接发球得分率是实现 “破发”谋求获胜的支撑性指标,进一步统计显示胜方每场比赛接发球得分率平均值为55.38%,负方为34.97%,相差15.41%,经独立样本T检验存在非常显著性差异(P<0.01)(见表2)。
表2 胜负双方变量重要性检验表
因此实战中,要想在对手的发球局取得主动,并破掉对方的发球局,提高接发球得分率就尤为重要。而提高接发球得分率,首要的途经就是提高接发球环节的质量。网球的接发球技术主要是准确的预判和回球,运动员必须从对手的发球动作中预先准确判断发球的线路和落点并及时移动,力求回击出准确的穿越球或有质量的大角度回球,有了高质量的接发球,可以缓解发球方给自己施加的压力,把比赛带入相持阶段,使双方在同一条件下展开对决。反之,如果比赛中接发球不好,直接失分或接好发球却无法有效得分会使自己的技战术无法发挥,导致心理紧张和畏惧,乃致输掉比赛。其实接发球得分率有更高的竞争对抗内涵,它是一项在非自主被控中寻求自我控制的瞬间决策过程,也是被动中寻求主动的转化突破过程,是被动→相持→主动→得分转化过程的体现,更是隔网对抗的球类比赛的魅力所在,现在网球运动竞争极其激烈,运动员自控技术能力方面相对较强,而“非自控”转化“控制”、“被动”转化“主动”的接发球得分能力将成为未来网球运动决定胜负的第一要素。
2.1.2 决策树法预测重要变量——一发得分率分析
决策树预测变量重要性分析显示一发得分率是决定比赛胜负的致胜因素之一。其属发球技术范畴,其中胜方每场比赛一发得分率平均值为72.94%,负方为56.98%,相差15.96%,经独立样本T检验存在非常显著性差异(P<0.01)(见表1)。
网球发球是唯一由自己掌握而不受对方控制的自控性击球方式,是众多优秀网球运动员最强有力的克敌制胜的武器[4],它既是每一场比赛的开始,也可以认为是每一次进攻的开始,同时还是双方攻防对抗的开始。ACE球、直接得分、创造好的下一拍进攻得分机会都是作为衡量运动员发球技术和质量的重要指标。发球得分率是指有效发球的得分效率,理论上讲,越高的发球得分率意味着,发球员越容易获得发球局的胜利,这是网球运动员在比赛中先立于不败之地而谋求胜利的安身立命之本。由于网球比赛允许球员在每一分的比赛中有两次尝试发球的机会,一发失误并不会造成直接失分,因此在实际比赛中一发往往是网球运动员最注重的技术环节,一发不仅注重攻击性,追求力量和速度,力求直接得分,而且追求角度和旋转,力求通过变化压制对手或为自己创造较好的下一拍进攻机会而得分。 因此,攻击性和安全性兼顾,效率突出,能起到良好战术效果的发球才是好的发球,而一发得分率则是这一好发球最直接最概括的量化体现, 表明获胜方在比赛中用更少的发球次数,轻松赢下自己的发球局。
2.1.3 决策树法预测重要变量——非受迫性失误分析
预测变量重要性分析显示非受迫性失误是现在女子网球另一个重要的致胜因素。非受迫性失误,(英文为Unforced Error),也可以叫主动失误,指在网球比赛中,运动员在非常主动、引领比赛节奏的情况下自身主动失误造成回球下网或出界而失分,而与对手无关。统计显示,胜方每场比赛非受迫性失误平均值为22.53个,负方为35.77个,相差-13.24个,经独立样本T检验存在非常显著性差异(P<0.01)(见表1)。
众所周知,网球比赛中的每一次击球都存在一个固有的矛盾,即攻击性与安全性之间的矛盾[5]。提高攻击性必然降低安全性,从而造成失误而失分,而过于注重安全性又势必造成攻击性的下降,丧失最好的进攻得分机会,甚至留给对手以过多的进攻空间[6]。非受迫性失误就是衡量运动员在主动、引领比赛节奏的情况下的攻击性与安全性兼顾的重要指标,大部分女子运动员由于力量和速度欠缺,很难在主动进攻中机会出现时做到一击致命或一击制胜,因此比赛中看似占据主动,引导进攻的一方往往过分强调击球的攻击性而造成失误而失分,因为他是自己打败了自己,这样比被对手打败更容易一些。现在,网球界也广泛接受了减少非受迫性失误的重要性。近几年世界职业网球比赛的结果表明,无论是优秀职业男选手还是优秀职业女选手,在与水平相当的对手比赛时,非受迫性失误的多少就决定了他们比赛的胜负。网球比赛本身就是一个比失误的游戏,有资料表明网球中只有15%的得分是自己主动得到的,也就是说绝大多数的分是对手的各种错误造成的。因此在比赛中,选手要在保持自身稳定发挥并减少失误的基础上,迫使对方失误送分,从而才能赢得比赛。
综上所述,良好的接发球技术、强劲的一发得分效率、较少的非受迫性失误(稳定的进攻主动得分)是支撑现在女子网球胜利的三大法宝.
2.2.1 决策树分支树接发球得分率>41%的组合胜率分析
根据之前构建的模型,用70%训练集生成决策树分支树模型,模型显示,41%接发球得分率是女子网球比赛胜负的生命线,在接发球得分率超过41%的156场比赛中获胜的场次为130场,胜率为83.3%。在保持41%的接发球得分率基础上如果一发得分率超过61%则比赛获胜的概率更高;在124场比赛中获胜的场次为117场,胜率将达到94.3%;在接发球得分率超过41%而一发得分率低于61%的32场比赛中,获胜的场次为13场,获胜率降为41%(见图3)。这充分说明强劲的一发得分效率是良好的接发球技术的重要而有效的保障,同时也说明了发接发技术环节在网球比赛中的重要性以及他们之间相辅相成的共生作用。
在保持41%的接发球得分率和61%一发得分率基础上如果运动员能有效控制非受迫性失误,场均非受迫性失误数少于28个,则比赛获胜的概率更高,在120场比赛中获胜的场次为116场,胜率高达到96.7%(见图3)。因此稳定的进攻主动得分对提高运动员的比赛胜率也起着较为重要的累集作用.
图3 决策树分支树示意图
3.2.1 决策树分支树接发球得分率<41%的组合胜率分析
在接发球得分率低于41%的113场比赛中,获胜的场次仅有11场,胜率仅为9.7%,而失败的场数高达102场,失败率为90.2%。而当接发球得分率低于41%,且一发得分率低于71%时,95场比赛,失败的场次为93场,失败率则高达97.8%(见图4),运动员基本没有获胜的机会。这些统计数据进一步说明了接发球得分率在现在女子网球比赛中的重要决定性。因此,加强接发球能力特别是接发球得分能力成了现在女子网球运动员的首要任务。
1)发接发技术环节本身就是控制和反控制的过程,而接发球得分率成为网球比赛第一致胜因素则说明随着网球运动员自身能力的不断提高,自控力的增强,反控制能力,化被动为主动的能力(接发球得分能力)在现在女子网球运动中尤为重要。
2)三个关键致胜因素都是效率指标,现在网球运动员都有很强的创造机会的能力,但是把握机会,化优势为胜势的能力则是顶尖运动员和一般球手的本质区别,效率必将成为未来网球运动的核心竞争力。
3)女子运动员很难在主动进攻中机会出现时做到一击致命或一击制胜,因此比赛中占据主动,引导进攻的一方往往过分强调击球的攻击性而造成失误而失分,因而非受迫性失误居高不下,这样输掉比赛,与其说被对手打败,不如说是她是自己打败了自己,而且比被对手打败更容易一些。