张景香
(江西财经大学 江西南昌 330013)
大数据时代的兴奋剂检测①
张景香
(江西财经大学 江西南昌 330013)
近年来,大数据技术被应用于多个领域,如医疗、销售及工业等,利用大数据预测疫情的爆发时间及区域,了解消费者消费倾向,发现汽车零件存在的缺陷等使得人们发现大数据隐藏的巨大价值,并使其得到了快速的发展。美国一些新闻机构曾试图利用大数据判断运动员是否服用了兴奋剂,却以失败告终。本人通过阅读大数据应用的相关领域及其成功经验,分析大数据应用的关键,与兴奋剂及其检测方式的特点,试图找到其失败的原因,并探究是否可以用大数据技术进行兴奋剂检测。
大数据技术 兴奋剂检测 触感技术先导 身体机能
大数据的概念主要是相对于过去的小数据即抽样调查的概念而提出的。计算机技术的发展,数据收集、存储与计算能力的提高是大数据时代到来的主要原因,而大数据即将颠覆的是以往研究问题的方法与思维,主要体现在三个方面,一调查样本选择全体数据而非抽样调查;二收集数据时接受混杂性,不追求精确性;三更注重数据之间的相关性而非因果性。在竞技体育产业蓬勃发展的今天,兴奋剂问题却像是毒瘤一般一直伴随着竞技体育发展,近些年更有愈演愈烈的趋势,尤其是基因兴奋剂的出现,给兴奋剂检测机构造成了极大地困扰。与兴奋剂使用者越来越“精明”的反检测技能相比,兴奋剂检测机构却一直在“被牵着鼻子走”,只有当一种物质被使用,并被发现起到了作用且被列入违禁药物名单时,兴奋剂检测才能有效地检测出该种物质,这种信息的滞后性给体育的公平、公正性蒙上了阴影。
2012年,美国媒体机构已经尝试将大数据技术应用于兴奋剂检测当中。2012年7月28日,我国游泳运动员叶诗文以4′28″43的成绩夺得伦敦奥运会混合泳400m的金牌,并打破了该项目的世界记录。然而西方媒体甚至学术期刊却纷纷发文质疑叶诗文成绩的有效性,该文对叶诗文成绩的有效性提出两点质疑:叶诗文在混合泳400m的最后50m的成绩(28.93s)甚至比美国运动员罗彻特(Ryan Lochte)的男子400m混合泳的最后50m成绩(29.10s)还要快很多,这不符合常理。
其次叶诗文前后两次大赛(即2011年游泳世锦赛和2012奥运会)的成绩在短时间内提升太快,竟然获得近7s的成绩提升,这也是不正常的。如前文描述,在大数据时代,我们需要分析更多的数据,有时甚至需要与某个现象相关的全部数据,而不是依赖于数据的随机采样。事实上,该文所谓的“正常”数据仅为除叶诗文之外的2012年伦敦奥运会男、女400m混合泳决赛的运动员,样本总数也仅为15个如此小的数据集合,难免是有偏差的,而有偏差的数据推出的结论也势必存在误导性。
为了保证体育这种公平、公正、健康的理念,应该将一切采取非正当手段,提高运动技能的行为,暴露于阳光之下,兴奋剂检测机构应该有一种发现运动员“异常”的及时性手段。大数据技术的发展给这种手段提供了技术支持,下面本文将通过目前的大数据技术探讨其是否可以被应用于兴奋剂检测手段的问题。
表1 当下兴奋剂检测方法及其针对性
表2 不同种类兴奋剂的作用
由表1可以发现,兴奋剂的检测方法的针对性比较强,不同的检测方法只能检测出具有针对性的兴奋剂类药物,其主要方式都是已知一种兴奋剂,然后通过各种方式将其检测出来,如通过检测人体体液,发现其中的异常物质,然后对异常物质分解,检测其所含元素及结构,从而与禁药列表中的物质相匹配。这种检测方式不仅过程繁琐、耗资大、不及时,而且无法预测出禁药列表中没有的物质,造成兴奋剂检测机构总是落后一步的现状。
通过表2可以发现,兴奋剂的种类繁多,但其主要的目的只有6种:增加肌肉提高力量、增加血红细胞提高耐力、使兴奋、使镇定、止痛、减轻体重。从张广德的四十九式经络动功对提高人体机能的生理生化和医学观察中我们可以发现,通过身体的肢体动作对人体力量、心肺功能和其他身体机能的影响都有一定的规律,肢体动作对身体机能的影响虽然因人而异,但其差值极小,其起作用的幅度是由慢—快—趋于稳定,停止后的回落要高于起始值。而兴奋剂对身体机能的影响则主要是为了加强、减弱或改变这种一般规律,景俊青在它的文章中表示兴奋剂对人体的影响是快速—消失(反作用)的。既然两种方式的作用效果不同,我们可以大胆的猜想,将运动员身体机能通过各种信息数据化,并运用数学模型将其规律显示出来,当规律发生突变时,就可以判定运动员的行为出现了异常。
大数据时代象征着数据的收集和处理能力的大幅提高,为使用样本=总量的调查研究提供了可能,同时可以避免传统的抽样调查法所带来的误差及忽视信息的可能性。比如日本先进工业技术研究所(Japan’s Advanced Institute of Industrial Technology)的教授越水重臣(Shigeomi Koshimizu)所做的研究就是关于一个人的坐姿。很少有人会认为一个人的坐姿能表现什么信息,但是它真的可以。当一个人坐着的时候,他的身形、姿势和重量分布都可以量化和数据化。越水重臣和他的工程师团队通过在汽车座椅下部安装总共360个压力传感器以测量人对椅子施加压力的方式。把人体屁股特征转化成了数据,并且用从0~256这个数值范围对其进行量化,这样就会产生独属于每个乘坐者的精确数据资料。在这个实验中,这个系统能根据人体对座位的压力差异识别出乘坐者的身份,准确率高达98%。这项技术或许可以应用于兴奋剂的检测中,即将运动员未使用任何特殊物质时的某个动作数据化,之后的检测仅需对比数据之间的差值以检测运动员的体质是否出现不正常的变化。
大数据的精华之处更在于它使用大量看似混乱无关的数据找出各因素间的相关关系而非因果关系,用整体数据发现更真实的关系。数据的价值并不会随着使用完成而消失,“过时”的数据依旧有其潜在价值。数据的潜在价值有三种最常见的释放方式:基本再利用、数据集整合和寻找“一分钱两份货”。IBM获得的“触感技术先导”专利与东京的越水重臣教授对臀部的研究工作具有相同理念。知识产权律师称那是一块触感灵敏的地板,就像一个巨大的智能手机屏幕。其潜在的用途十分广泛。它能分辨出放置其上的物品。它的基本用途就是适时地开灯和开门。Zeo公司则早已制作出了世界上最大的睡眠活动数据库,揭示了男性与女性睡眠时快速眼动量的差异。Asthmapolis公司将一个感应器绑定到哮喘病人佩戴的呼吸器上,通过GPS定位,再汇总收集起来的位置数据,可以判断环境因素(如接近特定的农作物)对哮喘的影响。Fitbit和Jawbone公司让人们测量他们的体力活动和睡眠。Basis公司用腕带来监测佩戴者的生命体征,包括其心率和皮肤电传导率,以此测试他们所承受的压力。
因此,我们可以尝试将“触感技术先导”进行改进,用以兴奋剂检测。兴奋剂检测机构会定期对运动员进行体检,因此该机构会保存运动员各种身体条件的数据,其中包含当时未检测出违禁药品含量,但几年之后检测出来的样本数据。兴奋剂作用于人体的特点就是使人身体的某一项机能在短时间内发生较大的改变,而兴奋剂所起作用的机能正如上文表2所述的六种机能,将运动员身体机能情况数据化,并记录各种兴奋剂对其机能的影响情况,这样就可以通过检测运动员的身体机能是否在正常范围内来判断运动员是否采用了异常手段。通过此种方法,可以使兴奋剂的检测不再完全依靠禁药列表,同时也会提高检测效率,减少资金消耗。
正如大数据时代的特点,解决是什么而非为什么一样,兴奋剂检测只需知道运动员是否采用了不正当手段,而不需要知道这种不正当手段具体是什么,只有当运动员对判决提出异议的时候才需要具体检测该物质是什么。
数据的选择一定程度上会影响分析的结果。因此在数据的选择上要注意以下几个问题:首先,大数据这种研究方法与传统研究方法的最大区别就在于其收集数据的全面性即样本等于总体。传统的兴奋剂检测方法是每隔一段时间对运动员进行一次体检,比赛中检验兴奋剂也多是先进行抽样调查,这样容易给运动员一种有机可乘的信号,这应该也是兴奋剂问题一直存在的主要原因。而大数据所分析的数据一定要全面。正如上文中笔者所提到的,种类繁多的兴奋剂的作用效果只有六种,增加肌肉提高力量、增加血红细胞提高载氧耐力、使兴奋、使镇定、止痛、减轻体重。使用大数据对这个问题进行分析的时候,应该将运动员的这六种机能数据化,这里的数据化即量化,收集和利用兴奋剂检测机构以往的测试数据或定期对运动员的此类数据进行统计整理。
其次是数据的混杂性。过去人们利用小数据(抽样调查)时,总会检验数据准确性,还会通过检验剔除“无效”数据,大数据技术在信息的选择上颠覆了这一观点,在收集数据过程中将数据的全面性作为最重要的一点。因此在对运动员的身体机能数据进行收集时,时间间隔应尽可能缩短,间隔也应有其不确定性,甚至在技术允许的情况下可以每天收集运动员的数据,由于这些数据的测量难度系数特别低,有的甚至可以通过收集或小型的电子设备直接测量,并且数据的上传也十分便利,相信在技术上是允许的。其次,数据的收集应包含运动员伤病等异常情况下的收集,以便获取更全面的信息。
最后,大数据的精华部分正在于它寻找的是一种相关性而非因果性。因此这些数据不仅应包括运动员的身体方面的数据,还应包括精神方面的数据。在维克托·迈尔-舍恩伯格的大数据时代一书中就提到了将人类的情感数据化的技术,因此收集运动员因比赛、伤病、生活等原因而产生的对其身体机能的影响数据化更可以全面认识运动员身体的一般规律,只有这样,当运动员采用非正常手段时,身体机能的改变就可以通过数据展示出来,达到让数据说话的目的。
运用大数据进行兴奋剂检测虽然可以克服检测的滞后性和繁琐性的缺点,但由于其只解决是什么而非为什么的特点,该种方法并不能检测出具体的造成兴奋的物质,因此当必要时刻,还需要辅佐传统的兴奋剂检测手段。另外,一些新闻媒体机构曾利用运动员的以往成绩推算当前成绩,然后判断运动员是否使用了非正常手段的做法是不科学的,也并非是正确的利用了大数据技术,原因有二,一是其数据量太小,二是只采用过去的成绩一种因素进行推断不符合大数据的数据混杂性和样本等于总体的特点。
[1]维克托·迈尔-舍恩伯格.大数据时代[M].杭州:浙江人民出版社,2016.
[2]李卫东.兴奋剂检测方法的研究进展[J].广州体育学院学报,2012(3):38-44.
[3]谭进.兴奋剂的种类、毒性和副作用[J].成都体育学院学报,2014(3):89-94.
[4]张广德.四十九式经络动功对提高人体机能的生理生化和医学观察[J].北京体育学报,1988(2):60-71.
[5]景俊青.兴奋剂对人体的损害和中医药的良性保护作用探讨[J].陕西中医,2007(28):7.
G80
A
2095-2813(2017)10(c)-0241-03
10.16655/j.cnki.2095-2813.2017.30.241
张景香(1992,3—),女,汉族,河北邯郸人,研究生,研究方向:体育经济与管理。