冯能山 龙超 熊金志 廖国君
摘要:数据挖掘在体育领域的应用还比较少。如何利用好体育运动的训练数据, 从中挖掘出有用信息,是数据挖掘技术在体育领域中的一项重要任务。决策树方法是一种常用的数据挖掘技术,该文把决策树方法应用于网球训练,对有关数据进行挖掘,形成一棵网球训练的决策树,从而协助体育工作人员更合理地制定网球训练方案,提高网球训练的效率。
关键词: 数据挖掘;决策树;ID3算法;网球训练
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2014)22-5336-04
现代竞技体育的发展方向是高、难、精、尖,因此体育训练需要尽量多地借助于现代科技手段。为了最大限度地提高训练效果, 在国际体坛拿更多的冠军,现代体育需要利用最新的信息技术,对体育运动的内在规律进行研究。随着信息技术的发展, 体育领域在运动训练方面有着大量的数据[1-2]。如何从这些大量的数据中,寻找各种因素间的相互联系, 得到有用的信息,发现规律,对体育科研和体育训练都极为重要。随着我国体育事业的不断发展, 中国体育已经成功走向世界, 信息技术在体育领域中有一些应用,但还远远不够。我国政府非常重视体育事业,体育领域积累了大量数据,如何利用最新的数据挖掘技术,对体育数据进行深入挖掘,对我国体育的进一步发展非常有益[3-4]。
2011年我国湖北选手李娜在法国网球公开赛女单夺冠,在国际和国内引起重大反响。这次夺冠在中国网球的历史上具有划时代意义,并进一步说明中国网球在国际网坛的影响力不容忽视。可以预计:越来越多的国际大赛将会把赛场移至中国,国内从事职业网球的人员也将越来越多。因此,如何跟随信息技术的迅猛发展,进一步提高我国网球的训练效果,是一个值得科研人员去研究的重大课题[5]。
1 决策树方法
1.1决策树的定义
决策树方法是目前应用最广泛的归纳推理算法之一,是一种逼近离散函数值的方法。它是以实例为基础的归纳学习算法,通常用来形成分类器和预测模型,着眼于从一组无次序的、无规则的事例中,推理出决策树表示形式的分类规则[3]。
1.2决策树算法的优点
1) 分类精度高;
2) 生成的模式简单;
3) 对噪声数据有很好的健壮性。
1.3 ID3算法的基本思想[1]
决策树方法中比较流行的算法有ID3、C4.5、CART、SLIQ等。这些算法的基本思路都是在训练数据样本集的基础上建立一颗决策树,然后用这颗决策树对数据进行预测。ID3算法在决策树方法中最为经典,其它很多算法都可从ID3算法演变而来。
ID3算法建树的思路是:首先找出最有判别力的属性,把样例分成多个子集,每个子集又选择最有判别力的属性进行划分,一直进行到所有子集仅包含同一类型的数据为止。最后得到一棵决策树。
2 决策树方法在网球训练中的应用
2.1 网球训练数据建表
在研究中我们主要挑选了客观的4个气候因素及两个自身因素。他们分别是:
1) 天气:多云 雨 晴。
2) 气温:冷 热 适中。
3) 湿度:正常 高。
4) 风:中风 大风 无风。
5) 情绪:好 一般 差。
6) 状态:Good Bad(为了与情绪的好差区别,将其设置为英文)
另外设置了Affection来表示是否合适训练。我们通过现有的24组网球训练数据进行研究,这些数据如表1所示。
这张表格记录了以往在不同的情况下,运动员训练效果的一个记录。将好的训练效果定义为适合,不好的训练效果定义为不适合。
由于网球训练及比赛一般都是在室外进行,属性中包含了天气、气温、湿度、风、情绪、状态这六个因素[1]。
2.2 决策树的创建
1) ID3算法过程[1]
(1) 计算各属性的信息增益;
(2) 选择信息增益最大的属性Ak;
(3) 把Ak处取值相同的例子归于同一子集,Ak取几个值就得几个子集;
(4) 对既含正例又含反例的子集,递归调用建树算法;
(5) 若子集仅含正例或反例,返回调用处。
2) 信息增益
(1) 其中S是样例的集合, P(ui)是类别i出现概率
[Gain(S,A)=Entropy(S)-vSvSEntropy(Sv)]
(2) 信息熵:
[Gain(S,A)=Entropy(S)-vSvSEntropy(Sv)]
(3) 信息增益:
[Gain(S,A)=Entropy(S)-vSvSEntropy(Sv)]
根据以上的训练集(表1 网球训练数据表),可计算天气、气温、湿度、风、情绪、状态这六个因素的信息增益。计算过程略去,结果如表2。
根据以上决策树,我们可以得到:
1) 当天气为晴天的时候,适合网球训练。
2) 当天气为多云的情况下,还需要考虑湿度。如果湿度为高,则不适合训练;反之湿度为正常,则适合训练。
3 当天气为雨的情况下,先考虑气温,如果气温为冷,则不适合训练;如果气温为适中也不适合训练;当气温为热时,还需要考虑风的因素,若风为大风,则不适合训练,若无风则适合训练。
2.3 模型测试
为检验决策树的正确性,我们选取3组数据进行测试,如表6所示。
第一组数据天气为多云,按照图 1 形成的决策树,我们判断为合适训练;第二组数据天气为雨,根据此决策树我们判断为不合适训练;第三组数据天气为晴,我们可以根据此决策树判断为合适训练。这些结果与我们的数据表1相符,说明我们的决策树是正确的。
3 结论
通过决策树的ID3算法,我们在大量的网球训练中找到了有用的、潜在的、有助于后续训练的信息,形成了一棵决策树。这就使得网球训练者更易于发现规律,从而指导训练。这棵决策树的优点是:基础理论清晰,算法较简单实用,是一个很有实用价值的算法。随着训练数据不断的增加,对数据不断地计算、删除、递归,结果会更加趋于准确。该决策树有一个不足:数据中我们假设训练子集中正反例的比例与实际问题中正反例的比例相同。但一般情况不能完全保证相同,这样计算训练集的信息增益就会有所偏差。这个不足也是我们今后要研究的工作。
参考文献:
[1] 朱明.数据挖掘[M].2版.北京:中国科学技术大学出版社,2008.
[2] 杨双燕,赵水宁.体育数据分析中数据挖掘技术的应用[J].浙江体育科学,2003(3):73-76.
[3] 韩家炜,堪博.数据挖掘概念与技术[M].2版.北京:北京机械工业出版社,2007.
[4] 张喆,马明纯.网球进阶训练[M].北京:吉林科学技术出版社,2011.
[5] 巫文佳,闵帆.基于决策树的网球选材指标学习方法[J].哈尔滨师范大学:自然科学学报,2013(6):90-94.