数据挖掘技术在排球生化指标分析中的应用

2016-10-26 06:18刘功聚

浙江体育科学 2016年5期

关键词：肌酸激酶睾酮决策树

马　静，刘功聚

(浙江体育职业技术学院科研处，浙江杭州 311231)

数据挖掘技术在排球生化指标分析中的应用

马静，刘功聚

(浙江体育职业技术学院科研处，浙江杭州 311231)

目的：采用数据挖掘技术分析生化指标与运动员技术等级间的关系，探索决策树算法及关联规则在排球生化分析中应用的可行性。方法：应用IBM SPSS Modeler 14.1软件中C5.0决策树及Apriori关联规则算法，对30名浙江省优秀女子排球运动员历年来部分运动生化数据进行分析。结果：生成11层决策树，模型整体预测精度为86%。产生6条关联规则。结论：C5.0决策树与Apriori关联规则算法可用于女子排球运动员技术等级的预测及规律分析。决策树预测分析中，肌酸激酶为关键因素，其次为睾酮及皮质醇。关联规则分析中，睾酮为关键变量。

数据挖掘；决策树；关联规则；生化指标

运动生化指标对运动员机能状态及运动能力判断具有很好的指导作用，其针对性分析为竞技体育科学化训练的重要组成部分。运动生化数据的分析及处理多集中于应用统计学方法展开一般性、阶段性[1]、个体化研究[2]等，较少涉及更深层次的数据挖掘研究和决策分析，从而易丢失测试数据中的隐含信息[3]。数据挖掘是一种通过自动或半自动方式探索和分析大量数据，以发现其中有意义的模式和规则的过程[4]，可为抽取数据间隐藏的有用信息提供科学的方法。数据挖掘的常用方法有决策树、人工神经网络、关联规则等。其中决策树算法的目的是通过向数据学习，获得输入变量和输出变量不同取值下的数据分类和预测规律，并用于对新数据对象的分类预测。关联规则一般用于分析大量数据项目之间的关联或相关关系[5]，能够有效揭示数据中隐含的关联特征。

本研究在前期对浙江省女子排球优秀运动员运动生化数据整理的基础上，将数据挖掘技术应用于数据分析中，旨在挖掘运动员技术等级与生化指标间的关系，探索决策树算法及关联规则在排球生化分析中应用的可行性。

1　研究对象与方法

1.1研究对象

以30名浙江省优秀女子排球运动员历年来部分运动生化数据及运动员技术等级为分析对象，包括运动等级、肌酸激酶、血尿素、睾酮、铁蛋白、皮质醇、白细胞、红细胞、血红蛋白、红细胞压积、平均红细胞血红蛋白量、平均红细胞血红蛋白浓度、红细胞分布宽度。

1.2研究方法

应用IBM SPSS Modeler 14.1软件中的C5.0决策树及Apriori关联规则算法对数据进行分析，探索数据内在的规律及新数据对象的分类预测模型。

2　数据挖掘技术在运动生化数据分析中的应用

2.1数据挖掘算法

2.1.1C5.0决策树算法。决策树是一种树状的结构图，根据不同的研究问题，将数据样本划分为不同的样本子集，并在每个样本子集上构成一个子节点，对测试数据结果进行分类的过程。其生长过程的本质是对训练样本的反复分组。构建决策树是为了快速找出或发现不同属性和类别的关系，并用它来预测将来未知类别的类型[3]。

C5.0是在ID3算法基础上发展起来的。决策树的核心问题之一为分枝准则的确定，C5.0以信息增益率为标准确定最佳分组变量和分割点，信息熵为其核心概念。

2.1.2Apriori关联规则算法。最早的Apriori算法是Agrawal和Srikant于1994年提出的，后经不断改善，现已成为数据挖掘中简单关联规则技术的核心算法。该算法包括两大部分：第一，产生频繁项集；第二，依据频繁项集产生关联规则。所谓频繁项集是指，对包含项目的项集，如果其支持度大于等于用户指定的最小支持度，则称为频繁项集。

Apriori算法寻找频繁项集的策略是自底向上，即从包含少量项目的项集开始依次向包含多个项目的项集搜索。寻找的过程是一个不断迭代的过程，每次迭代均包含两个步骤：第一，产生候选集，所谓候选集指有可能成为频繁项集的项目集合；第二，基于候选集计算支持度，并确定频繁项集。不断重复上述过程，直至无法产生候选项集为止[4]。

2.2数据挖掘过程及分析

2.2.1决策树生成及解释。本研究以肌酸激酶、血尿素、睾酮、铁蛋白、皮质醇、白细胞、红细胞、血红蛋白、红细胞压积、平均红细胞血红蛋白量、平均红细胞血红蛋白浓度、红细胞分布宽度为输入变量，运动员技术等级为输出变量。读入数据后，先进行预处理，而后对样本集变量进行分割，分为训练样本集和检验样本集，最后应用C5.0算法进行建模。生成决策树如下：

图1　决策树的前5层

本研究所得为一颗11层的决策树，在此不充分展开。决策树的第一个最佳分组变量为“肌酸激酶”，并以此形成二叉树。主要的预测结论为：

①如果肌酸激酶小于或等于69U/L，且皮质醇大于14.7ug/dL，则运动员的技术等级为一级运动员，置信度为90.714%。

②如果肌酸激酶小于或等于69U/L，皮质醇小于或等于14.7 ug/dL，且红细胞小于或等于4.34×10∧12/L，则为运动健将，置信度为92.857%。

③如果肌酸激酶小于或等于69U/L，皮质醇小于或等于14.7 ug/dL，且红细胞大于4.34×10∧12/L，则为一级运动员，置信度为100%。

④如果肌酸激酶大于69U/L，睾酮小于或等于0.39ng/mL，且平均红细胞血红蛋白量大于33.2PG，则为国际级运动健将，置信度为89.412%。

⑤如果肌酸激酶大于69U/L，睾酮大于0.39ng/mL，红细胞分布宽度小于或等于36.8FL，且血尿素大于6mmol/L，则为运动健将，置信度为80.068%。

本模型评价中，检验样本集的整体预测精度为86%，且预测置信度均值在正确预测和错误预测的样本上存在差异，因此高置信度可在一定程度上能得到高的预测正确率。

综上所述，C5.0决策树算法可用于女子排球运动员技术等级的预测分析，其中，肌酸激酶为运动等级预测的最关键因素，其次为睾酮及皮质醇。

2.2.2关联分析及解释。结合决策树在分组变量的众多取值中寻找最佳分割点的功能，利用以上决策树所得分割点对数据进行区间划分，将数值型变量转化为分类型变量，各变量分割点见表1。

表1　数值型变量分割点

经整理所得的数据如下：

表2　运动生化指标转化后的数据

其中，X1为一级运动员，X2为运动健将，X3为国际级运动健将，A1表示肌酸激酶小于69U/L，A2表示肌酸激酶处于69～224 U/L范围内，以此类推。

对以上数据进行Apriori算法处理，最低条件支持度设置为10%，最小规则置信度设置为85%，所得结果见表3。

表3　关联分析结果

第1条规则说明皮质醇大于14.7ug/dL、血红蛋白大于130g/L、睾酮小于0.39 ng/mL的运动员为一级运动员的置信度为85%。第2条规则说明睾酮为0.39～0.68 ng/mL范围内、白细胞4.4～6.04×10∧9/L范围内、红细胞分布宽度-SD大于38.4 FL、平均红细胞血红蛋白浓度大于306 g/L的运动员为运动健将的置信度为95%。第4条规则的支持度最高。6条规则的前项中均包含睾酮变量，且不同的取值范围对应不同的运动等级。由此可见，运动员技术等级的关联规则分析中，睾酮为关键变量。

3　结　　论

C5.0决策树算法与Apriori关联规则算法可用于女子排球运动员技术等级的预测及规律分析。决策树预测分析中，肌酸激酶为最关键因素，其次为睾酮及皮质醇。关联规则分析中，睾酮为关键变量。

总之，相对于生化指标及运动员技术等级间关系的传统一般性统计学研究，决策树及关联分析可进行深层次的决策及预测分析，有利于隐含信息的发掘及规律性研究，更为竞技体育生化测试的信息反馈提供了新的探索思路。本研究由于数据量有限，模型及规则的预测准确性及概括性不足，以后的研究可从建立较为全面的数据库入手，扩充各项指标，例如体能、身体素质、训练强度、运动生物力学指标等，在此基础上结合数据挖掘技术，可更好地为女子排球运动员选拔、训练等提供更充分的参考。

[1]赵钟晖，韦益毅．女子自由式摔跤运动员赛前训练期部分生化指标的监测研究[J]．北京体育大学学报，2011，34(5)：66-68．

[2]武露凌，季师敏，田春美，等．优秀运动员机能评定中肌酸激酶、血尿素等指标的个体化研究[J]．体育与科学，2008，29(2)：75-77．

[3]于岱峰，钟亚平，于亚光．基于数据挖掘技术在人体肌肉力量数据分析中的应用——以人体握力肌肉力量测试数据研究为例[J]．体育科学，2010，30(2)：70-74．

[4]薛薇，陈欢歌．SPSS Modeler数据挖掘方法及应用[M]．北京：电子工业出版社，2014．

[5]乔克满，欧阳为民，孙卫．关联规则挖掘技术在体质指标分析中的应用研究[J]．天津体育学院学报，2010，25(5)：453-455．

Application of Data Mining Technology in Volleyball Athletes’ Biochemical Indexes Analysis

MA Jing,LIU Gong-ju

(1.Scientific Research Department, Zhejiang College of Sports, Hangzhou 311231, China)

Objective：Analyze the relationship between biochemical indexes and the grade of athletes with data mining technology. Explore the practicability of using decision tree and association rule in volleyball athletes’ biochemical indexes analysis. Methods：We applied C5.0 and Apriori algorithm for analyzing 30 volleyball female athletes’ biochemical data, with the IBM SPSS Modeler 14.1 software. Results：A decision tree with 11 levels is built, and the model’s prediction accuracy is 86%. 6 association rules are found. Conclusion：C5.0 and Apriori algorithm can be used for the prediction and regularity analysis of the volleyball female athletes’ grade. Creatine kinase is the most important index for the decision tree, and the testosterone and cortisol are in the next place. Testosterone is the most important index for association rule analysis.

data mining；decision tree；association rule；biochemical index

1004-3624(2016)05-0096-04

2016-06-24

马静(1985-)，女，助理研究员，硕士，主要研究方向为运动人体科学.

G804.7

数据挖掘技术在排球生化指标分析中的应用

1 研究对象与方法

2 数据挖掘技术在运动生化数据分析中的应用

3 结 论

1　研究对象与方法

2　数据挖掘技术在运动生化数据分析中的应用

3　结　　论