数据挖掘在体育数据分析中的研究与应用①

2013-08-22 07:00谢向阳
当代体育科技 2013年23期
关键词:数据挖掘数据库球队

谢向阳

(广州体育职业技术学院体育运动系 广东广州 510650)

随着信息技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。因此可以用数据库管理系统来存储数据,用机器学习和统计学的方法来分析数据,挖掘大量数据背后的知识,它们的结合促成了数据挖掘的产生。数据挖掘是通过高度自动化地分析原始数据,作出归纳性的推理,从中挖掘出潜在的规律和知识,来帮助决策人员作出正确的决策;随着数据挖掘技术的发展,具有良好的准确性、时间复杂度以及空间复杂度的数据挖掘算法被提出,使得数据挖掘技术在很多领域中的能够得到广泛应用,数据挖掘技术越来越成为社会的研究和应用热点。

但是,数据挖掘技术在体育领域中的应用极少,国内外处于起步阶段,例如在NBA球队利用IBM公司开发的数据挖掘应用软件Advanced Scout系统找出球员的强弱点,优化球队的战术组合,来帮助教练制定相应的训练计划和布阵。随着我国体育事业的信息化,在国民体质健康、竞技体育、体育产业以及体育教育等方面积累了大量数据。如何充分利用这些数据,并从中发掘出有用的,却常被人们所忽视的重要信息,已经成为体育科研人员的一项重要任务。

表1 不同球员出场对赢得比赛的影响显著性

1 数据挖掘理论与体育数据分析研究

1.1 数据挖掘理论研究

数据挖掘的基本理论包括数据挖掘的概念、分类、方法和挖掘流程。

1.1.1 数据挖掘概念

数据挖掘在国内外都得到了广泛的应用,目前我国专家普遍比较认同的定义是“数据挖掘是从大量、随机、模糊、片段的数据中,提取隐含、潜在未知而又有用的信息或知识的过程,数据挖掘通常与数据分析、数据融合、决策知识和知识发现等技术结合应用。”

1.1.2 数据挖掘分类

数据挖掘技术涉及多个学科,分类方法也多种多样。综合国内外的研究成果,数据挖掘的分类方法主要有以下几个维度。

1.1.2.1 根据挖掘对象分类

数据挖掘技术根据挖掘对象可以分为文本数据库、关系数据库、面向对象数据库、空间数据库、多媒体数据库和环球网等。

1.1.2.2 根据挖掘方法分类

根据数据挖掘的不同方法可以分类为机械学习、统计、数据库和神经网络等。

1.1.2.3 根据挖掘目标分类

根据数据挖掘的目标可以将数据挖掘分类为预测模型、数据总结、关联规则发现、聚类、序列模式或依赖关系发现,发展趋势发现等。

1.1.3 数据挖掘方法

目前国内外常用的数据挖掘方法有遗传算法、决策树、聚类分析、关联规则、粗糙集、模糊集、灰色系统和影响因素分析等。

1.1.4 数据挖掘流程

常用的数据流程包括以下七个步骤。

(1)清理数据:清理与挖掘主题明显无关的数据。

(2)集成数据:将多元数据组合,形成数据仓库。

(3)选择数据:从数据仓库中提取和选择与任务相关的数据。

(4)转换数据:将数据转换为容易进行数据挖掘的数据格式。

(5)挖掘数据:利用数据方法挖掘数据规律或知识。

(6)评估模式:根据一定评估标准从挖掘结果中筛选出有意义的模式知识。

(7)表示知识:利用可视化和知识表达技术,向用户展现所挖掘的相关知识。

1.2 体育数据分析理论

近年来,随着我国国民生活物质文化水平的逐渐提高,社会公众对个人体质的监测和测试数据、社会各类体育竞技比赛数据逐渐增多,常年积累的社会公众体质数据和社会体育赛事竞技数据越来越多,如何发挥这海量体育领域数据的作用,为提高我国国民身体素质和体育运动训练效率,对海量体育数据进行分析并发现其影响因素和各因素间的相互关系成为体育教学工作者和研究者的重要课题。

体育数据分析是指利用信息技术手段,从逐渐积累的海量数据中寻找各种因素间的相互关系,发现它们之间的变化规律,进而对数据深入分析导致健康状况较低的可能的疾病原因,从而可以更好地为人们自我保健和健身等各方面提供有力的指导的技术。

2 数据挖掘在体育数据分析中的应用研究

2.1 数据挖掘在体育赛事数据分析中的应用

数据挖掘技术在体育赛事分析中的典型应用是NBA广大球队使用的IBM公司开发的Advanced Scout和美国职业棒球联盟中各球队广泛使用的Inside-Edge、欧洲足球职业联赛中广泛使用的PASW数据分析工具。本研究以足球、篮球和田径为例来阐述数据挖掘在体育赛事分析中的应用。

2.1.1 足球

数据挖掘技术在足球中的应用典型是意大利AC米兰队,作为欧洲一流球队,意大利AC米兰队成立了专门的米兰实验室,通过分析不同渠道的生理和心理数据识别与球员受伤的风险因素,防止球员受伤,2006年意大利国家队的大部分成员都在米兰实验接受过顺利,并成功帮助意大利国家队赢得了世界杯的冠军。本研究以PASW的回归模型为例来分析某支球队各球员的出场情况及对比赛结果的影响,得出不同球员对赢得比赛的影响显著性(如表1)。

从表1中的数据分析可以看出,van persie和Gallas的出场效率最高,因此球队可以作为核心使用,而Arshavin和Diaby的出场效率最低,球队可作为替补使用。

2.1.2 篮球

数据分析在NBA联盟的运用最多的是Advance Scout工具,如在2010年的魔术与热火的某场比赛中,主教练通过运用Advanced Scout系统分析魔术对先发阵容中的Hardaway和Shaw同时在场时,球队每48min的得分为-17分,而Hardaway和替补Armstrong同时在场时魔术队的得分为+14分,魔术队决定让Armstrong进入先发阵容,最后顺利地赢得了比赛。

2.1.3 田径

数据挖掘在田径运动中的成功运用案例是美国运动员的威尔金斯获取蒙特利尔奥运会冠军的事迹。美国体育科学家埃里尔利用数据挖掘工具在分析威尔金斯的投掷技术及投掷动作后,纠正了威尔金斯投掷拖成中没有利用制动腿部力量的缺陷,帮助威尔金斯改进投掷技术,一下就将成绩提高了3m多,帮助威尔金斯夺取了蒙特利尔奥运会冠军并创造了新的世界纪录。

2.2 数据挖掘在体育教学数据分析中的应用

数据挖掘技术在体育教学领域中有非常广泛的应用,如在教学管理、教学评价、课程设置、教学方法、教材选择等方面等可以广泛的应用,如利用数据挖掘中的管理规则可根据不同学生的性别、年龄、身体机能等数据建立测试成绩预测模型,寻找潜在知识以改进教学方法,提高体育教学和训练效果。如本研究选用2002~2007年《中国体育事业统计年鉴》中的相关数据进行建模研究,以“获世界冠军个数”为研究对象,将“优秀运动队经费”、“体育基本建设支出”、“国家级在队优秀运动队员”、“教练员总人数”和“等级裁判员”作为相关因素,建立数据挖掘关联模型,得出人力投入是优异成绩产出的基础,人力的投入对提高成绩而言起着的决定性的作用;而经费投入则是优异成绩产出的关键因素。因此,在两大类指标中与人力投入相关的指标相对于与经费投入相关的指标更为重要。

3 结语

数据挖掘的兴起,为体育统计学与体育信息技术的结合带来良好的契机,数据挖掘技术将成为继数学、计算机科学之后,又一推动体育统计学发展的强大工具。本文在阐述数据挖掘概念、数据挖掘分类及挖掘基本流程的基础上,研究了体育数据分析的作用及基本理论,重点就数据挖掘在国内外体育赛事分析和体育教学改进中的应用进行了研究,对我国体育学科研究者和数据挖掘研究者具有一定的指导意义和参考价值。

[1] 杨翠明,刘喜苹,熊高峰,等.一种基于数据库分解的关联规则挖掘新算法[J].湖南师范大学自然科学学报,2007(2):135-138.

[2] 赵唱玉.基于Web和数据挖掘的智能教学系统模型的研究与设计[D].湖南师范大学,2007.

猜你喜欢
数据挖掘数据库球队
改进支持向量机在特征数据挖掘中的智能应用
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
菜鸟球队菜鸟兵
数据库
软件工程领域中的异常数据挖掘算法
这些球队为什么拿不到总冠军?
数据库
球队年利润最多排名
数据库