何牧
(扬州市职业大学体育学院 江苏 扬州 225000)
我国在过去10年里,通过引进和自主创新等方式,走出了一条适合中国国情的全民健身路线,推动了全民健身运动的蓬勃开展。与此同时,伴随着“互联网+”和电子商务兴起并不断发展壮大,我国体育事业也取得了长足发展。在国家对社会办体育的政策支持下,近年来我国运动员通过参加职业赛事以及借助互联网手段等方式积累了大量宝贵经验。
我国的竞技体育和社会运动项目经过多年快速发展,在运动成绩、运动竞赛管理、比赛组织管理和运动员培训等方面积累了丰富经验。但由于缺乏科学的统计分析方法,这些领域在很大程度上还停留在经验时代,这就造成了体育科研成果产出效率低下并不能满足当前对新技术手段的需求。随着大数据分析能力提高以及信息通讯技术发展,体育科研人员可以更好地把握相关领域的发展趋势,并为未来进一步研究提供科学依据。因此,本文主要对运动员竞技比赛质量、运动训练效果和运动竞赛管理等领域进行数据分析,进而为提高我国竞技比赛质量提供有益借鉴和启示。
大数据是一种能够全面记录和管理信息的技术手段。大数据通过大量数据采集、挖掘和处理,可以从多种角度帮助人们了解某一领域或行业的发展情况。随着计算机技术、数据科学与人工智能学科的发展和应用日益深入,在一定程度上改变了体育科研工作者的工作方式。近年来,随着大数据分析技术的不断发展,基于不同学科领域内大数据研究方法的结合,可以对运动项目开展深入细致地科学分析。体育科研人员利用大数据分析技术从各个方面提高运动项目竞技比赛质量水平,包括运动员的身体状态、训练效果以及运动成绩等等。目前体育科研工作者已经将大数据分析方法应用到了众多领域中。比如,利用大数据技术进行对运动员心理状态、身体素质和训练效果情况等方面研究;针对篮球运动员身体和心理状态进行相关数据统计;结合篮球教练员实际经验进行数据对比与分析等。基于这些研究方法对于运动员、教练员以及决策者都具有重要意义。
我国体育科研人员在利用大数据分析技术提高比赛质量方面也已经取得了很多成绩。比如,利用大数据对篮球比赛过程中各项数据进行实时记录并进行相关研究;结合运动员身体状态、训练效果以及比赛结果等方面进行比赛训练效果评估;同时针对运动员心理波动以及伤病风险问题进行分析研究等。通过对大数据的全面分析,我们可以对体育运动项目的竞技能力提升做出科学决策并有效改善竞赛管理效率等方面作出贡献,进而为国家培养更多高素质人才打下良好基础。但是随着大数据在体育领域中应用程度越来越深,也出现了一些亟待解决的问题。比如,数据收集困难、数据挖掘技术缺乏以及统计方法存在缺陷等等;此外也有很多其他因素影响了运动竞赛管理、运动训练和运动技术的有效应用等问题。基于以上背景,本文对国内外在利用大数据分析技术方面做出研究和探索提出了一些建议:首先要对体育大数据有一个全面深刻地了解;其次要利用大数据技术提高体育竞技比赛质量;最后通过数据驱动提高运动员训练水平并帮助运动员在比赛中取得优异成绩;此外对于运动竞赛管理、运动训练及竞赛方面的研究也有很多值得借鉴之处。
当前,随着大数据时代的到来,体育领域对于大数据分析也有了更加深刻的理解。首先,通过研究发现运动员训练水平与训练效率之间存在显著的正相关关系,这也从侧面说明了提升运动员竞技水平和竞技比赛质量的重要性;其次,从竞技体育领域来看,基于大数据分析的比赛质量提升方法可以为体育赛事组织提供借鉴;再次,在过去10年中,我国大众体育消费市场快速发展;伴随着“互联网+”运动健康理念和电子商务迅速发展以及电子商务平台迅速普及,电子商务已经成为人们购买商品或服务的主要方式之一;最后,随着我国网络基础设施日益完善,大数据分析方法也被广泛运用于体育领域中;与此同时,“互联网+”运动健康产业也取得了较大进步。
但在对相关研究文献进行统计时可以发现:当前国内数据分析相关研究并不多见;同时对于该领域相关概念的定义和分类尚未形成统一且具有代表性的分类标准;这一点与当前国外大数据分析研究现状有着较大差距;通过对体育大数据领域近10年来国内文献、国外文献以及相关论文进行分析可以发现:国内对于如何利用大数据分析方法来提升运动水平等问题并没有一个统一的认识。因此目前国内对于“大数据”和“数据分析”这两个概念存在较大的模糊认识;同时也有部分体育行业人士对大数据分析并不太了解。此外,虽然大数据分析已经被广泛应用于各个领域中。但其目前依然没有形成一个统一的分类标准。因此在未来需要加强对该领域相关概念的进一步普及和培训。
体育数据通常包含训练、比赛和赛事三个方面。训练(training)是指运动过程中发生的一系列生理或生化反应。比赛(training),是指在一个体育比赛过程中运动员和其伙伴所进行的运动活动,通常包括各种竞赛活动和非竞赛活动,也称为非赛或竞技赛(fight-training)。例如,在足球比赛中,根据一场足球比赛的时间长短和胜负判定结果,可分为世界杯足球赛、欧洲联赛、亚洲联赛以及其他联赛。赛事(tournament)是指比赛结束后所进行的一系列活动。包括各种类型的赛事,如世界锦标赛、奥运会比赛等。
赛事通常可以分为以下三类:一类是传统的运动项目赛事,包括奥运会、世界锦标赛、世界杯足球赛等;一类是新兴的运动项目如:马拉松、高尔夫等;一类是其他体育运动形式,比如马拉松和自行车。运动员通过竞赛的方式实现体育价值并获得经济利益的同时,也伴随着风险与挑战——成绩不稳定导致的风险与回报不对称现象也在一定程度上影响着竞技体育的健康发展与运动员自身经济利益之间存在着微妙平衡。因此,通过建立一个有效模型来实现上述目标显得尤为重要。本文基于体育大数据平台和研究领域中相关文献进行了梳理和分析,主要分为两大部分:一是分类模型研究;二是体育大数据分析方法研究。
研究发现,分类模型可分为两类:一类是基于概率论,另一类是基于机器学习的。其中,基于概率论的分类模型主要有Logistic、Logarithmic和Loginoidal三种,其在数据特征上都需要处理训练数据集。但无论是Logistic模型还是Logarithmic模型,都存在不足。在此基础上提出了两种改进的分类方法:基于机器学习的分类方法和基于深度学习的分类方法。
然而,对于实际应用中存在的复杂因素影响,其分类效果往往会大打折扣。由于训练样本数据分布不均,导致训练出的模型精度不高。另外,由于不同人、不同机构对同一赛事有不同的理解,因此对比赛结果会有很大差别。由于在传统体育赛事中数据样本不够充足,因此本文提出了一个基于数据预处理和机器学习分类的方法来对比赛结果进行预测和判断。此外还引入了两种基于机器学习方法来识别异常值:Fisher and Bonferroni et al和Kaggle数据集上的一项研究。
本文主要研究的体育大数据分析方法主要包括基于文本挖掘的文本分类方法、基于聚类的统计分析方法、基于时间序列特征的数据挖掘方法以及基于机器学习算法的统计分析方法。本文主要研究了两种算法:(1)基于特征的文本分类:通过特征选择和分类器设计来提取样本集中能够表征文本信息的特征,并将其应用于训练样本集中;(2)基于聚类算法:利用聚类算法对训练和测试样本进行聚类,并根据聚类结果将训练和测试样本划分为若干类别,然后对这些类别进行数据描述,以便于进一步研究这些类别之间存在的相关性。通过机器学习算法和传统方法结合使用,实现了对大量非结构化体育数据(如文字、图片、视频、音频等)的挖掘工作,从而发现了大量具有潜在价值的信息。此外,本文还针对体育比赛数据进行了分析和总结。研究发现:运动员成绩具有不确定性,且与成绩相关的变量在不同比赛阶段和比赛环境下是不同的(如竞技能力、心理素质、体能能力等)。
本研究通过国家体育总局、中国体科所以及中国奥委会和各省市体育局官方网站获取了大量数据,并对数据进行了分类与统计。(1)竞技项目基本信息:通过国家体育总局官方网站获取的相关竞技体育数据,如比赛项目、成绩(名次),以及相关运动员的年龄、性别以及个人基本信息等;(2)训练信息:通过国家体育总局及各省市体育局官方网站获得训练信息;(3)成绩分析:将在竞技比赛中取得优异成绩的运动员与其他运动员进行比较分析,如参加世界比赛的情况和参加国内比赛的情况;(4)教练员信息:通过中国体科所和各省市体育局官网获取教练员信息,包括教练员姓名、年龄、性别、执教项目、所属单位以及执教年份等,为后续分析提供依据;(5)媒体信息:主要为媒体网站获得的相关媒体信息;(6)社交媒体:网络社交网站包括新浪微博和腾讯微博两个主要社交媒体平台;(7)观众参与数据收集自中国国家体育总局官方网站,包括参与数据;(8)电视转播数据;体育总局官方视频平台的视频资源;各省市体育局官方体育频道等。通过对这些数据进行分类与统计,可以更加清晰地把握我国竞技体育和社会运动项目在过去10年中所取得的发展趋势,以及在未来十年中所面临的挑战与机遇。同时结合近年来国内外大数据领域学者在不同层面上对相关问题进行的讨论等,也为我国竞技体育和社会运动项目的发展提供了有益参考。
当前,随着移动互联网技术和电子商务等新兴技术在国内的广泛应用和快速发展,大数据已成为一个炙手可热的领域。本文所采用到的来自于国家体育总局和中国奥委会两个官方网站收集到的数据来自以下几个方面:一是国家体育总局官方网站;二是中国奥委会官网;三是国际奥委会官网;四是中国足球协会官网;五是各省市体育局官方网站;六为社会力量办体育、企业办比赛等。
在很大程度上,运动员竞技比赛质量提高有赖于以下几个方面:(1)科学训练和科学化训练。科学训练是提高运动成绩的关键环节,尤其是当运动员处于特定状态时,只有在具备较高身体素质基础上合理使用训练方法、制定科学计划才能取得理想效果。科学训练要遵循“三个结合”、“四个阶段”等原则,即:技术与思想相结合、技术与体能相结合、运动强度与负荷相结合、身体训练与心理素质相结合(包括有氧运动的规律)。运动员在不同阶段应根据自己的能力、状态来安排训练计划,从而取得最佳成绩;(2)运动员个体之间存在着差异。不同项目间的发展水平和个人天赋有着很大差异,而同一项目的不同阶段则会产生很强的可比性,这是保证运动员发挥出最佳竞技水平所必须具备的条件。因此为促进运动员科学训练和科学化训练,可以从两个方面入手:一方面是采用个体训练和群体研究相结合、个体差异研究和群体一致性研究等方法,找出每位队员在不同阶段和个人方面存在的具体问题;另一方面则是采用大数据技术对每位运动员在身体能力、竞技能力等方面进行全方位的分析与评价;(3)运动员信息技术水平提升。随着计算机硬件性能、数据存储容量以及计算速度等方面不断提高和完善,可以为运动员提供更加准确、便捷和个性化的信息服务;(4)充分发挥“互联网+”优势。
本文主要采用了文献资料法、专家访谈法以及比较分析的方法。从文献资料方面来看,我们首先从数据入手,结合了“十三五”规划的目标,通过对《关于实施促进全民健身计划(2016-2020年)的意见》等相关文件中提到的重点项目进行分类,我们可以看到目前体育大数据研究领域主要关注的是体育大数据技术、数据应用和分析等方面,通过对这几个方面进行综合分析后能够发现体育大数据在运动训练和比赛等相关领域中具有很大的潜力。
从专家访谈方面来看,专家们根据自身研究方向提出了许多具有指导性的意见和建议。通过比较分析方法来看,我们对专家们所提出建议进行了梳理总结,并且利用 SWOT方法对每一项内容所具有的优势和劣势进行了分析。综合考虑国内外大数据研究领域存在的问题以及对未来发展趋势做出预测之后,结合大数据领域目前研究最活跃的领域和当前重点项目展开分析。
本文主要采用了统计分析、案例和数理模型四种方法。统计分析部分主要包括回归建模、灰色预测、多元线性回归以及聚类模型等;案例研究部分涵盖了美国奥运代表团训练模式分析、中国体育总局训练基地运动员训练模式变化特征与规律、美国运动员竞技能力差异及特点等方面;数理模型部分主要包括运动项目数据集结构化特征与预测结果等。比较分析部分首先利用 SWOT方法,结合当前运动项目数据集中的优势和劣势以及国外相关案例进行比较;接着将研究结果运用到中国竞技体育实际,进而预测未来中国竞技体育在未来几年内可能面临的问题。以上是本文主要采取的研究方法。接下来就文章内容进行了总结。文章从数据收集到最后处理呈现两个阶段:第一个阶段主要是数据收集;第二个阶段就是在对数据进行归类整理并对其进行预测分析;第三个阶段为对预测结果进行检验评估并进一步指导训练计划。
在大数据时代,人们已经习惯于利用技术手段来解决问题。在此过程中,数据分析方法本身也得到了不断改进。但是,对于大数据时代的体育研究者而言,在对现有数据进行分析时,仍然存在一些问题。
第一是数据来源方面的问题。目前,绝大多数学者都倾向于使用互联网等非结构化信息进行研究,这会导致研究对象在统计上的不准确或者说缺失信息。从大数据角度看,体育大数据的来源并不少,但是由于没有经过训练或者数据处理水平较低等原因导致统计误差大。对于不同运动员个体而言,大数据分析的结果可能也存在差异;而对于不同国家或地区而言则可能会存在差异问题;
第二是相关概念和术语方面的问题。目前大数据领域出现了大量关于大数据技术、大数量概念、大数据技术等方面的相关理论或研究成果,但并没有形成统一的标准体系和分类体系;同时这些概念或者术语本身也具有一定的模糊性或不确定性;
第三是数据挖掘和分析方面存在的问题。首先在数据挖掘层面上,目前还没有形成统一标准和体系;其次是在数据挖掘和分析方法上还存在着一定的局限性;
第四是技术路线上存在误区。从大数据技术和相关领域专家学者研究提出了多种不同技术路线、不同层次概念和术语来对数据挖掘问题进行解释;
第五是数据分析本身存在一些缺陷或不足之处。尽管目前相关领域已经出现了一批专业人才,但大多数仍处于起步阶段、经验较少并不成熟;同时研究人员所采用的方法都是基于统计层面上进行数据收集、整理和挖掘,而不是在理论研究基础上进行数据挖掘,这样得出的结论往往有很大局限性明显;
第六是大数据分析模型本身缺乏可扩展性问题。大数据分析模型主要有两种:一种是基于数据驱动、模型选择、预测等传统方法建立起来的机器学习模型;另一种则是采用传统统计算法进行数据处理建立起来的机器学习模型。前者虽然在某些方面具有一定优势,但在某些方面存在很大局限性或限制而不能完全发挥作用;而后者则具有一些明显优势或局限性;
第七是大数据分析本身不够完善或存在局限性问题,主要表现为如下几个方面:(1)对大数据分析能力不足;(2)对相关概念及术语等理解不够准确;(3)没有考虑到不同类型体育比赛之间差异性问题;(4)对数据处理水平较低所导致结果不够准确等;(5)缺乏大数据分析中所涉及到大量理论和方法知识方面的相关理论知识和研究经验;此外很多学者还缺乏运用大数据分析方法所需的统计基础知识、相关领域知识和数学分析方法知识等;
第八是数据本身所具有不确定性、偶然性问题造成应用局限问题导致了对大数据分析能力不足或不够强等问题影响了大数据分析模型建立过程中可能出现的偏差问题,进而导致模型本身存在诸多局限性或误差问题、以及大数据研究方法本身不够完善等问题造成大数据分析模型应用困难问题,这些也会影响到人们对大数据库模型建立过程中存在偏差或可能出现偏差等问题所可能带来损失时的补偿与弥补方案及相应措施设计的合理性提出质疑等方面工作。
通过对过去10年我国运动员竞技比赛质量的大数据分析,我们可以发现以下几个方面。在国家对社会办体育的支持下,部分运动员已经开始参加职业赛事,并取得了不俗成绩。通过大数据对过去10年我国运动员竞技比赛质量进行分析,我们发现我国当前的运动项目在“以赛促练”、“以赛带训”等方面还存在诸多不足。通过分析近10年不同类型项目成绩变化发现,我国竞技运动总体上发展良好,但仍存在着发展不均衡、不充分和结构性矛盾突出的问题。