樊花梅
(广东医科大学体育教学部 广东湛江 524023)
大数据时代无声无息悄然来临,在全球范围内,大数据地来临带来信息技术的革命性变革,大数据不但和云计算、物联网联系紧密,更有自己独特的特点和优点,分分秒秒影响着社会生活、社会生产和人类生存生活方式[1]。如今,世界各国已经把大数据技术地研究和产业发展上升为国家战略重点推进。对于整个国家而言,能否真正抓住大数据发展机遇,快速形成自己的核心技术和成果应用,参与到全球化竞争的队伍,是决定未来国家科技力量格局的最重要的内容,是决定一个民族能否昂首挺胸与世界民族前列的核心技术成果应用。数据产生的变革无处不在,数据产生的变革如此影响巨大,数据产生的变革如此渗透力强,那么我们生活、工作、研究的步伐不得不考虑改变传统策略和方法,尽快走上大数据的优化时代。体育研究是对与体育相关的各个层面进行的价值挖掘和探讨其因果关系,得到预想的科研成果。那么在大数据时代,体育科研又要开辟什么样的道路呢?
传统的体育科研方面有文献资料法、访谈法、问卷调查法、统计法、实验法等,这些方法都是在有限的数据条件下随机抽取一定的样本,按照因果关系尽量去解释已经出现的问题。大数据时代对这些方法已经提出了彻底的革命性的挑战和要求舞台更换。
过去,我们在做科研的时候因为收集数据的局限性和处理数据能力的限制,在科学研究中我们通常采用随机从全集数据中抽样进行问卷调查、访谈,试验等,然后通过对随机性样本数据的分析来推断全部数集的总体特征,就此而言,我们所研究对象的范围比真正的数据范围小很多,我们是在我们自己能够控制研究过程的前提下来让分析尽量变得简单。现在,我们迎来的大数据时代,我们面对的是海量的数据,已经不是以前对千字节(KB)或者兆字节(MB)进行删减取其有效准确数据进行分析研究,而是面对拍字节(PB),甚至艾字节(EB)这种海量数据的处理和分析。这些非结构化数据的大量产生来源于物联网的飞速发展,它们构成了生物大数据、交通大数据、电信大数据、金融大数据、医疗大数据、科研大数据、教育大数据等。这些数据存在的特点就是结构性数据和非结构性数据混合存在,有效数据和模糊数据混合存在,我们根本不能从中看到价值取向。于是,大数据技术提供了海量数据的储存和分析:分布式文件系统和分布式数据库技术提供了无限制的数据储存能力,分布式并行变成框架MapReduce提供了强大的数据处理能力。因此,在这些技术支持的前提下,我们对全体数据的分析完全可以在短时间内迅速得到结果,速度之快超乎想象。
统计学家们曾反复证明:采样分析的精确性随着采样随机性的增加而大幅度的提高,但与样本数量的增加关系不大[2]。他们还认为:样本选择的随机性比样本数量更重要[2]。他们的这种观点,确实可以通过随机收集样本,用很低的代价做出高精度的判断,在过去的时代里取得了很大的成就,是那个时代测量领域的主心骨,但是,这条捷径是在数据不可收集和无法分析全部数据的情况下不可挑剔的最佳选择,它本身存在很多很多固有的缺陷。祝建华教授在一次讨论中明确指出:如果抽样队形更复杂,根本找不到最佳抽样对象,那么,我们就不能从随机抽样中得到反映总体的结构性数据[3]。就此而言,我们就根本无法从事一些研究,比如,我们在网络中调查人们对于体育运动项目选择性喜好时,我们根本无法确定我们随机得到的样本是否是我们真正需要的、真正有研究意义的样本,或许,你抽取的样本刚好是一个区域的数据!或许,你的抽样代表了一定阶层的体育运动者的喜好!又或许,我们再进行深层次细分领域的研究时,随机抽取的样本根本不可取,因为,宏观领域起作用的方法,在微观领域就失去了价值功能。所以,我们需要大数据,我们需要大数据的储存和处理分析,我们需要的样本就是“总体”,我们才能有更客观的成果反映。
在过去的抽样分析中,我们追求分析结果的准确性,随机采取样本需要可行的、有效的、严密的布置和实施,选择好比较恰当的关联物,然后通过理论指导从收集到的数据来进行相关分析,最后从相关结果的有效性得到自己事先所设想的问题和需要解决的问题的比较精确的答案,所以整个过程是在假设条或预想中开展,整个数据的分析目的就是为解决现有的怀疑和问题。比如,我们要分析优秀跳远运动员在起跳过程中摆动腿的摆动角度对跳远成绩的影响,我们搜集一定样本的数据,对样本中优秀运动员整个起跳过程中摆动腿的摆动角度进行分析总结,我们发现,运动员摆动腿控制在一定的角度内,会出现同级别的运动员跳远成绩更理想的情况。在同样情况下,我们只能从这些样本数据中解决我们自己提出的问题,这些数据不会再回答你突然意识到的新问题。我们可以肯定地说,这种样本分析方法是一个解决问题的有效方法,但是它只仅仅是一个有限制和范围的路径,它不能适用于新情况新现象,我们在体育运动发展到现在这个水平上,已经不仅仅是只解决一个事先设计好的问题,我们需要从数据中得到更有价值,更有延展性的实实在在的信息,能得到我们没有料想到的,我们计划之外的,具有时代意义的分析结果。那么,精确性就只能在小样本时代存在,而在大数据时代,我们追求的是实时分析结果(因为有些数据是秒级响应,否则会失去价值)和更多的数据自己说出来的不能预料的有效价值,那么,我们进行数据分析就需要的是效率,需要的是新价值,它们成为数据分析的核心。
大数据时代,我们传统的体育统计小样本量基础上实验结果关联物有精确相关性的方法要慢慢淡出历史舞台,我们不再需要人工耗时耗材去选择可行的样本和关联物去分析预想和假设的问题了。其实更有很多假设同时也带有个人偏见的,仅仅只为找到线性关系,也很容易导致错误,所以精确度已经属于个别事物的小数据现象了[4]。现在,我们拥有如此宏大的数据库,拥有如此高效率分析的现代化机器计算能力,这些现代化的信息和技术为我们提供了一系列新的视野和有效的预测,我们能看到以前我们根本不曾注意到的联系,还能够掌握以前无法理解的复杂运动技术、运动动态、运动现象、运动黑幕和其他相关的体育世界。我们不再去刻意去得到精确的数据发现关联,因为大数据优劣互掺,纷繁复杂,形式多样,我们在如此海量的数据中不能去刨根问底,而是要去寻找相关关系,要去从大体上把握发展方向,当然,我们不是放弃精确度,只是我们不再沉迷于此,我们适当放弃微观上层面上的精确度会让我们在宏观层面有更为宽广的观察力。自然,要求精确已经转变到寻找相关了。
过去,我们要在研究中要去努力发现因果关系,发现导致一种现象的原因,比如一场体育赛事的收入显著偏低,那么,我们就要从广告、门票、转播、赞助等方面收集样本数据,然后分析得出导致这种结果的原因,我们是在找原因,找因果关系。大数据时代开辟了一场寻找无声无息的游戏,开辟了一场挖掘宝藏的游戏,而人们对于数据的看法以及相关关系释放出的潜在价值正是这场演出的关键所在。大数据不需要去建立假设,不需要去找问题的结果,大数据的核心是从相关关联基础上去预测,比如,2014年巴西世界杯期间,大数据预测已经成为关注的焦点,百度、谷歌、微软和高盛等巨头都竞相利用大数据预测比赛结果,期间,百度预测最为亮眼,预测淘汰赛准确率竟然为94%。百度的做法就是收集到过去5年内全世界987支球队的3.7万场比赛数据,同时,搜索外围相关的数据。建立了一个囊括199972名球员和1.2亿条数据的预测模型,并在此基础上进行数据处理发现相关关系进行预测[4]。再如,芝加哥大学的一位经济学家使用11年中超过64000场摔跤比赛的记录发现了非法操纵比赛结果的实时现象,从而正确的预测到未来一场比赛的非法操纵的可能性,有效遏制了体育比赛的丑陋现象[2]。事实上,大数据之于全球体育领域的重要性,正在不断升级,诸如Amisco、OPTA、SAP、以及Prozone这样的数据公司,已经成为足球界必不可少的数据细分环节,细分技术就是对相关关系的搜索[1]。2016年乐视和搜达的合作,开辟了互联网大数据最具价值的第四极,成为消费者和互联网的新连接点。另外,“创冰科技”已经成为中国体育产业的大数据公司之一,专注于体育赛事分析和赛事预测[5]。可见,大数据时代已经不是刻意的去寻求因果关系,而是发现数据的相关关系,从相关关系中有效的预测会发生的事件。这就是大数据时代最为影响力的时代产物。我们在做一种运动的时候大数据相关分析会预测你还会做另外一种事情,但为什么要做这种事情,大数据不会告诉你原因,只是在分析关联中的一种预测。所以,我们在做科研时需要在大数据中挖掘纵横交错的相关关系,在相关关系中我们去处理我们需要做的事情,预测未来可能发生的事情,积极推进有利的可能,努力预防有害的现象。
我们谈及大数据时,已经不是单指数据的本身,而是大数据和大数据技术两者的协同,也就是说,在存在海量数据的前提下,我们要有实施大数据的采集、储存、分析和应用的技术,是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理和分析技术。
我们在讨论数据处理时,首先要了解数据处理的基本流程,其实也就是采集、储存、分析和结果展示。数据无处不在,足球比赛、篮球比赛、门票收入、广告展示、场地面积、技术动作录像、观众意见,还有一些传感器信息,个人微信、个人微博信息等,大量的分散数据从各个层面各个角度、各个地方涌现。这就需要有相应的软件进行采集数据,采集后的数据无法直接用于后续的数据分析,因为这些数据类型多样,来源广泛,还有数不尽的残缺数据和模糊不清的数据,所以要有采取一定的措施把这些数据预处理变成一个集合,这个集合里面的数据呈可用状态。处理后的数据放进数据库系统中储存管理,然后采用数据挖掘工具对数据进行处理分析,最后呈现给我们的是挖掘出来的科研宝藏,我们在宝藏指导下进行有意义的体育工作。在整个数据技术过程中,还要注意隐私保护和安全问题,具体如表1所示。
表1 大数据技术的几个层面和功能
大数据已经是无处不在,包括电信、能源、教育、医疗、金融等社会的各行各业,它同物质资源、人力资源一样成为国家的重要战略资源,影响着国家和社会的安全、稳定与发展。在大数据发展的背景下,我们体育科研工作已经不能再遵循传统的科研方法了,传统是在一定条件限制下所形成的优化研究方法,随着科技的飞速发展和科研成果的转化应用,我们的科研方法也走在了非变不可的重要时刻,我们要抓住机遇,紧跟大数据时代的全球性科研方法的更新和转变,把我们的体育科研工作切实的更上一层楼。
[1]维克托.迈尔-舍恩伯格.大数据时代[M].杭州:浙江人民出版社,2016.
[2]林子雨.大数据技术原理与应用[M].北京:人民邮电出版社,2017.
[3]徐子沛.正在到来的数据革命[M].南宁:广西师范大学出版社,2015.
[4]朱洁.大数据架构详解:从数据获取到深度学习[M].南宁:电子工业出版社,2016.
[5]杨百会.体育大数据的资本狂潮[J].企业观察家,2016(10):78-79.