乔克满汪德秀
(1巢湖学院体育系,安徽巢湖238000)
(2巢湖市体育局业余体校,安徽巢湖238000)
数据挖掘技术在体育领域的研究现状与应用前景
乔克满1汪德秀2
(1巢湖学院体育系,安徽巢湖238000)
(2巢湖市体育局业余体校,安徽巢湖238000)
通过文献研究的方法整理分析了相关文献资料,探讨了国内外体育数据挖掘的发展前沿,展望了数据挖掘技术在体育领域的应用前景,认为数据挖掘技术对我国体育领域的理论研究和实践工作具有广泛意义。
数据挖掘;体育;研究现状;前景
数据采集和存储技术的进步导致了数据规模的日益增加,这些数据涉及社会生产及生活的各个领域,包括从超市业务数据、信用卡使用记录、电话呼叫记录等普通应用领域到天体图像、分子数据等特殊应用领域。近年来,体育领域的数据亦在日益激增,如:各式各样的国民体质监测数据、竞技体育比赛数据等。数据是一种宝贵的信息资源,但这种资源同矿藏一样,只有通过、管理、分析、挖掘、提炼等操作,才能使潜在的资源变成可用的财富。而数据挖掘技术的目的正是为了解决此类问题。
数据挖掘是发掘大量数据中尚未被发现的知识,是从系统内部智能的自动获取知识的过程,是数据准备、数据开采、结果表达和解释的系统工程。Usama Fayyad博士于1996年提出了学术界较为广泛认可的数据挖掘定义:“数据挖掘(Data Mining,DM)是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取出隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程”[1]。随后十多年中,数据挖掘被众多领域的研究人员看作是数据库系统和机器学习方面的一个重要研究课题。许多产业界人士将其看作是一个能带来巨大回报的重要领域,从数据库或数据仓库中发现出来的规则和知识可以用在信息管理、查询响应、决策支持、过程控制等许多方面。
目前,数据挖掘的重要性已经被商业应用、电子商务、犯罪研究、生物医疗、Internet等领域认可。比如,商人们聘请数据挖掘人员帮他们发现顾客购买模式,Amazon.com、Taobao.com利用购买的历史记录把相应的产品推荐给购物者。数据挖掘在科学研究方面也有着广泛的应用,主要有生物研究、生物医学研究、气象研究、水文地质研究和考古等。朱玉全等归纳了比较活跃的数据挖掘应用方向,包括:市场营销,银行业,生产、销售和零售业,制造业,经纪业和安全交易,保险业,医药,交通,电信,公司经营管理等。[2]
在认识到数据挖掘的功能后,国外已经将其应用于众多体育领域中。如,从竞技体育历史统计数据挖掘得出许多重要的信息,并据此提出了一系列的研究思路、方法和公式,开发了专业的体育数据挖掘工具。许多体育组织都聘请专门的数据挖掘人员来预测球队未来前景、球员天赋、为球队的教练及经理们引进和选择球员提供决策依据。
2.1.1 全美职业棒球大联盟(MLB)中的应用
当前数据挖掘在美国职业棒球联盟中使用尤为出色。棒球领域内最先从事数据统计分析的先驱之一Bill James提出了新的分析方法“SABERmetrics”[3]——源于美国棒球研究协会(Society of American Baseball Research)的首字母——他用精确和科学的数据挖掘相关技术去搜集和处理棒球的统计数据,并提出了评价每位球员在比赛获胜中贡献量的一种新方法“Win Share”,用于评价球员对于球队的价值。
棒球领域的专家们通过分析棒球历史数据并结合Albert概率理论,提出并修正了广泛用于挖掘击球手和投手表现的加权线性预测评分公式。预测评分(RUNS)等于:
式中1B(2B、3B)表示一(二、三)垒打,HR为本垒打,BB四坏保送,HBP触身球,SB被盗垒,CS盗垒失败,(AB-H)为(打数-安打),OutsOnbase表示上垒被截杀次数。
另一个被棒球领域广泛用于评价投手能力的公式是由Thorns和Palmer提出来的。
式中Pitching Runs是反映投手能力的特征量,IP(Innings Pitched)为投球局数,LeagueERA为联盟平均自责分率,ER(Earned Run)为投手的自责分。结果大于0说明这个投手好于一般投手,结果小于0显示该投手较差。
2.1.2 美国职业篮球联盟(NBA)中的应用
NBA中与SABERmetrics形似的数据统计分析变革被称为ABPRmetrics,命名源于职业篮球研究协会(theAssociationofProfessional Basketball Research,ABPR)。ABPRmetrics是以篮球的团队运动理念为衡量准则的。这一新的数据挖掘分析方法证明了某些拥有优秀统计数据球员却给他们的各自球队的表现带来了消极影响。
82games.com网站通过数据挖掘在原始统计数据中查找各种模式,对篮球运动员的价值和贡献以及球队的表现和效率,提出了许多新奇见解。其中之一就是将控球进攻的半场划分为16个不同的投篮区域来观察和分析篮球比赛中的投篮。如图1(来源[4])所示。这种类型的分析价值在于能看出球员在哪些区域投篮最好,适用于教练们在进攻中如何最好的安排队员。相反的,如果知道对手球员在哪些区域投篮最差,教练就能安排适合的防守策略来迫使对手球员在最不利的区域投篮。
图1 进攻半场的投篮区域
82Games.com的数据分析专家们还提出了衡量球员关键时段效率的方法。他们定义“关键时段”为比赛分差不超过5分的第4节最后5分钟和整个加时赛。
篮球数据挖掘专家John Hollinger,提出了球员效率值(Player Efficiency Rating,PER)的概念,用于评价球员每分钟的比赛效率[5]。这一评价方法综合考虑了球员比赛中的积极贡献和消极影响。Dan Rosenbaum综合考虑其他场上球员(包括对手和队友)、主客场等多方面因素,根据球员上场与不上场时球队效率的比较,提出并修正了用于评价球员对于球队价值的综合正/负效率值[6]。
2.1.3 全美橄榄球联盟(NFL)中的应用
《职业橄榄球计划》主编Schatz通过对橄榄球的数据挖掘分析,提出了DVOA方程(the Defense-adjusted Value Over Average formula)。[7]这个方程衡量特定位置的进攻球员的成功率与联盟平均值的关系。全队DVOA值可以用于衡量整个球队在进攻、防守以及某些特别组的效率。
Jay Coleman和Allen Lynch通过历史数据的挖掘分析,提出了用于详细预测年度NCAA(全美大学生体育协会)赛事的公式Dance Card和Score Card。这两个公式成功预测NCAA赛事获胜者的准确率分别为94%和75%[8]。
除了美国三大体育联盟体育数据挖掘的成功应用外,其它一些国家和体育相关组织也正在建设体育数据挖掘的系统工程。如欧洲足球产业领域中,许多知名足球俱乐部一直非常重视体育数据仓库的建设,相关的体育数据挖掘理论与实践研究为足球产业的发展带来了巨大的经济效益。
2.1.4 澳大利亚体育学院数据分析的两项革新
澳大利亚体育学院(the Australian Institute of Sport,AIS)为了使与体育运动有关的多种丰富的体育数据信息得到最优化应用,提出了“两项革新”。[9]第一项革新是建立用于存储多种视频、音频和数据文件的数字化知识仓库,这一知识仓库集中规范化处理各种数据,使得各种不同的体育软件能够访问需要的信息;第二项革新是力图用数据挖掘的技术发现那些可能隐藏在数据库海量数据中的新知识。
2.1.5 体育数据挖掘工具
许多商业产品包含的数据挖掘功能可以用作体育领域的数据挖掘工具,如SAS、SPSS、SQL等。随着大多数体育组织和机构对数据挖掘应用感兴趣,以及数据挖掘对其它行业带来的效益越来越显著,使得更多的第三方公司为获取商业利润而专门开发和设计应用于体育数据分析的数据挖掘工具。以下是美国三大体育联盟应用较为广泛的三款体育数据挖掘工具。
Advanced Scout(AS)是IBM公司开发的一款体育数据挖掘软件。90年代中期起,NBA球队教练就借助Advanced Scout来发现隐藏在比赛统计数据里的重要信息。该软件有两种数据:一种是结构性的,即比赛统计数据;另一种是非结构性的,即NBA比赛录像带上的多媒体资料。教练使用该软件可以了解到即将比赛的对手特点以及预测比赛中出现的状况,从而为比赛的决策提供帮助。
Digital Scout是非常受美国职业棒球和NBA欢迎的体育数据挖掘软件,可以应用到棒球、篮球、橄榄球及其它体育运动中。该软件可以方便地收集数据、统计分析,并得出分析报告。比如,棒球分析报告包括击球队员击中和投手投中的数据统计图表,而篮球分析报告包括球员以及整个球队投篮统计图表等。
Inside-Edge是另一款颇受棒球领域欢迎的数据挖掘工具。棒球世界系列赛(美国职业棒球联盟总决赛)连续六次使用Inside-Edge产品。Inside-Edge给客户提供的报告包括击球队员和投球队员的具体数据,包括运动员力量、弱势、倾向及习惯。在遇到特殊对手时,经理或教练可以借助分析报告做出决策。队员自己也可以根据这些分析报告更好地了解自己,知道怎样改善自身的不足。
已有不少学者提出,面向我国体育领域日益积累的大量数据,利用成熟的数据挖掘工具,根据数据挖掘的基本步骤,是能够实现对体育数据的挖掘。但由于我国体育数据采集、体育数据库建设和管理不完善、体育数据挖掘工具开发不力等方面的问题,在体育界的应用尚处于起步阶段,大多为小规模样本数据的探索性研究。
国内学者最先关注的是体育统计与数据挖掘的区别、联系与融合,他们研究了数据挖掘对现代统计学发展的影响,数据挖掘在体育统计中的应用等,认为数据挖掘是一种重要的新思想、新理念、新方法,一种可以挖掘“宝藏”的金铲子。姜达维则认为“数据挖掘是一个实践性、目的性很强的数据分析技术门类,它充分利用数据资料,运用可利用的现有技术手段提取知识和信息,为决策服务,远远超出传统统计方法的服务领域”。[10]
体能、技战术等数据资源的挖掘研究,为提高运动员竞技水平提供了参考。戴敏、黄亚楼通过挖掘体能测试项目之间的关联关系,解决体能测试指标的优化问题;同时,运用数据挖掘的原理,将运动员体能状态评价与预测问题转换为分类挖掘问题,设计了一个包括输入层、隐含层、输出层的模型,用于对网球运动员体能状态进行评价。[11]高洪歌从数据挖掘技术入手,分别介绍了关联规则分析、聚类分析和基于马尔科夫过程的数据挖掘算法在乒乓球比赛技战术分析中的应用方法和实现过程[12]。
近年来,面向高等院校的体育数据挖掘研究也开始活跃起来。如李慧玲讨论和分析了数据仓库和数据挖掘在高校体育数据分析的应用,包括体育课程考核数据分析的应用、体质健康数据分析的应用、运动训练数据分析的应用[13]。周兴斌等采用数据仓库技术和数据挖掘技术构建了大学生体育训练辅助决策支持系统:基于大学生的体育成绩及身体检查表等数据,通过数据挖掘技术产生新的知识规则来充实知识库,根据用户输入选择相应的模型并结合知识库中的规则来逐步产生一套合理的体育运动训练方案[14]。
理论上讲,数据挖掘可以在任何类型的信息存储上进行。这包括关系型数据库、数据仓库、面向对象的数据库、对象—关系数据库、文本数据库、多媒体数据库和万维网等。体育领域的各项科研实践产生了大量存储形式各异的数据,但由于数据挖掘自身的优势,使得数据挖掘技术的应用具有与生俱来适应性。这项崭新的技术可提高体育领域的科技含量,符合我国从体育大国向体育强国转变的体育国策。
我国政府对人民大众健康和增强体质的重视,使得体质研究成为目前体育科研的热点之一。体育相关理论知识结合数据挖掘技术,对日益增加的体质数据进行分析,能较为容易的提取海量体质数据背后隐含的、人们事先不知道的,但又是潜在有用的信息和知识。如:根据体质数据和体育健身项目方面的知识,挖掘出不同健身项目和国民体质健康之间的关联,为全民健身项目优化服务;根据积累和不断收集的数据,结合体质数据和营养学方面的知识,可以挖掘造成不同地区体质好或差的营养方面的原因;根据体质数据和医学方面的知识,能够挖掘出人们的健康状况,甚至分析出导致健康状况较低的可能的疾病原因,从而可以更好地为人们自我保健和健身等方面提供有力的指导。
数据挖掘技术本身正是在产业经济发展背景下产生的,体育产业作为产业经济的一部分,其应用数据挖掘技术的可行性是毋庸置疑的。以体育销售为例,通过历史销售数据挖掘分析出流失客户的共同特征,可以在那些具有相似特征的客户还未流失之前进行针对性的弥补。这样,可以一定程度地提高体育销售的效益。如同数据挖掘技术为其它产业经济带来效益一样,必将可以为我国体育产业创造更多的财富。
从美国三大体育联盟数据挖掘的成功,可以看出体育数据挖掘可以为竞技体育水平提高做出积极的贡献。数据挖掘技术可以为体育训练提供决策支持,提高竞技体育数据分析的效率,挖掘优秀运动队(员)之间潜在的规律,为竞技体育的经营管理、教练员的战术决策等提供参考。此外,采用数据挖掘对优秀运动员的早期体质数据进行分析,能够找出它们的共同特点,从而为竞技体育选材提供有力的依据。
数据挖掘在体育教学领域的研究具有一定的应用前景,可以从体育教学管理,教学评价,课程设置,教学方法,教材选择等方面对数据挖掘在体育教育信息化过程中的应用加以研究。如:运用数据挖掘中的关联规则,根据学生性别、年龄、身体形态评分及身体机能评分、身体素质评价等级等对期末测试成绩建立预测模型,从而寻找潜在知识,改善体育教学效果;运用聚类,分类等数据挖掘技术对体育教学分组方法进行分析,实现按照学生身体素质的相似程度来进行合理的教学分组,适应因材施教的教学要求。
数据挖掘技术可以辅助科研工作者进行科研选题。科研选题是广大科研工作者面临的棘手问题,发掘即新颖又具相当研究价值的科研题项,对整个科研工作具有重要意义。数据挖掘技术可以根据纯数据之间的关联性挖掘出一些潜在的、容易被忽视的规则,这些规则可以作为潜在的科研题项。笔者在运用关联规则研究体质数据的过程中,发现一些规则具有一定的潜在科研价值。如:发掘出握力与平衡能力的关系;肺活量与握力间的关系;吸烟与肺活量之间的关系等等。这些仅仅是通过纯数据挖掘出的一些模式,尚需进一步的科研加以验证性研究。
数据挖掘技术自身的发展及其在众多研究领域的成功应用,为其在体育领域的发展提供了启示。数据挖掘技术对我国体育领域的各项科研实践工作具有广泛的意义,但尚需广大体育科研工作者和数据挖掘专业人员的共同关注。
数据挖掘技术在体育的许多子领域都具有旺盛的生命力。体育领域积累并不断扩充着大量数据,如何对这些数据进行整理并采用数据挖掘的方法进行分析,创造新的价值,是体育科研人员的重要任务之一。
体育数据挖掘是一项复杂的系统工程。目前市场上虽具有各种相对成熟的数据挖掘工具,能够在明确定义了解决的问题后,根据数据挖掘的基本步骤,实现对体育数据的挖掘。但体育领域自身的特殊性,使之难以避免的存在“水土不服”现象。因而需要在体育专业人员和数据挖掘专业人员共同努力下,完成对数据挖掘工具的二次开发,提高其在体育领域的交互性、适应性。
数据挖掘无法实现对结果的最终解析,永远不会替代有经验的体育科研人员所起的作用,它只是更科学、更容易的根据纯数据间的关系挖掘出一定模式的一种工具。
[1]Fayyad U,Piatetsky-Shapiro G,Smyth P.the KDD process for extracting useful knowledge from volumes of data[J]. Communications of the ACM,1996,39(11):27-34.
[2]朱玉全等.数据挖掘技术[M].南京:东南大学出版社,2006:12
[3]Albert,J.An Introduction to Sabermetrics[EB/OL].Bowling Green State University(http://www-math.bgsu.edu/~albert/ papers/saber.html),1997.
[4]Beech,R.NBA Player Shot Zones[EB/OL].82Games.com(http://www.82games.com/shotzones.htm),2005-10-08.
[5]Hollinger,J.Pro Basketball Prospectus[M].2002 Edition.Potomac Books,2002.
[6]Rosenbaum,Dan T.Measuring How NBA Players Help Their Teams Win[EB/OL].82Games.com(http://www.82games.com/ comm30.htm),2004-4-30.
[7]Schatz,A.Pro Football Prospectus:Statistics,Analysis,and Insight for the Information Age[M].2006 Edition.Workman Publishing Company,2006.
[8]Coleman,J.&A.Lynch.NCAA Men’s Basketball Tournament Score Card[EB/OL].University of Northern Florida(http:// www.unf.edu/~jcoleman/score.htm),2006.
[9]Lyons,K.Data Mining and Knowledge Discovery[J].Australian Sports Commission Journals,Ausport Volume 2,Number 4,2005.
[10]姜达维,姜一鹏.体育统计与数据挖掘:区别、联系与融合[J].天津体育学院学报,2005,(06):63-65.
[11]戴敏,黄亚楼.基于数据挖掘的运动员体能测试数据分析[J].计算机工程与应用,2003,(09):38-40,60.
[12]高洪歌.数据挖掘技术在乒乓球比赛技战术分析中的应用研究[D].北方工业大学,2006.
[13]李慧玲,林子.数据仓库和数据挖掘在高校体育数据分析中的应用[J].广州体育学院学报,2005,(05):126-128.
[14]迟殿委,周兴斌.基于数据挖掘的体育训练决策支持系统[J].微计算机信息,2009,(12):190-192.
Abstract:Through literature study,this thesis analyzed the development of data mining from home and abroad,made a view of the developing direction of data mining,and concluded that data mining has profound importance to theory study and practical work in sports.
Key words:data mining;sports;research status;prospect
责任编辑:宏彬
STATUS AND PROSPECT OF DATA MINING IN SPORTS
QIAO Ke-man1WANG De-xiu2
(1 Dept.P.E.,Chaohu College,Chaohu Anhui 238000)
(2 Amateur School,Chaohu Bureau of sport,Chaohu Anhui 238000)
TP311
A
1672-2868(2010)03-0031-05
2010-01-20
巢湖学院自然科学资助项目(项目编号:XLY-201015)。
乔克满(1979-),男,安徽宿松人。巢湖学院体育系,馆员,研究方向:体育信息统计、体育数据挖掘。