数据分析在篮球领域应用尝试

2019-01-30 07:23:22刘玥玮北京市海淀区育英学校高中二年级1班北京100039
文体用品与科技 2019年2期
关键词:赢球首钢因变量

□ 刘玥玮(北京市海淀区育英学校高中二年级1班 北京 100039)

1、概述

CBA正在如火如荼地进行,各支球队都努力争取每一场比赛的胜利,尤其是今年这个赛季,季后赛的队数增加到12支,以前排名处于中下游的球队都看到了晋级季后赛的希望,所以比赛的观赏性也提高不少。

随着每轮比赛的进行,每一场球都会产生大量的数据,比如得分、篮板、助攻、上场时间等等。结合到多个场次,更是有不同的统计数据产生:场均得分、场均上场时间、场均篮板等等。如果是整个赛季,则有赛季出场次数、首发次数、赛季平均上场时间、赛季平均得分、赛季平均助攻数等等。这些数据都可以从不同角度体现出球员的不同特点,例如从上场时间上可以看出该球员是核心球员还是角色球员,从场均得分、场均篮板、场均助攻、场均盖帽以及场均犯规等数据上可以看出是主要得分球员还是蓝领球员。

但这些数据都只是从一个或者多个方面反映了一位球员的能力、对球队总的贡献,并没有体现出对球队输赢的影响,比如某一球员在一场球中爆发,得分很高,达到50多分甚至60多分,这只能说明该球员在这场球中对球队总得分的贡献很大,但不能说明球队肯定能够赢球。比如这个赛季11月11日北控主场对上海那一场比赛,上海球员弗雷戴特发挥大爆发得到75分,达到全队总得分136的55%,但球队却输了。

对于观众来讲,大家更关注自己喜欢球队的输赢,这一点对于球队的球员、教练和领导也更关心。如何将球员的各项指标数据和球队的输赢结合起来,让我们在看热闹的同时,能够看出一些门道,便成为一个关心的领域,作者正是在这样的领域做了一个尝试。

作者先是对2017-2018赛季北京首钢男子篮球俱乐部 (以下简称北京首钢)每场篮球数据进行采集,并对数据进行转换整理,然后结合球队的输赢进行数据相关分析,最后给出了北京首钢队主要球员的特点及建议。

2、数据采集与整理

2.1、数据采集

当前CAB共有20支球队,每支球队都有几年的数据,鉴于时间上的限制,作者没有对各个球队都进行分析,这里只收集了北京首钢在2017-18赛季的数据作为例子。

本文所有数据均来自于新浪网CBA频道,详细情况参见ht tp∶//spor ts.sina.com.cn/cba/。

采集的数据共有两类。第一类是北京首钢在2017-2018赛季各轮次比赛日期、对手、主客场和比分,这类数据总共一张表格。第二类是每一轮次北京首钢球员上场情况、比赛中的各种数据,这类数据共38张表格。

数据采集共分两步完成。

第一步:将新浪网页上的数据手工拷贝到一个Excel文件中。这样共有两类数据共39个表格。

第二步:通过一段程序,将39个表格数据转换成可供分析的数据,具体数据模型见下面的数据整理。

2.2、数据整理

为了分析球员的各项指标数据对球队输赢的影响,结合实际数据情况,设计了这样的数据模型:

(1)每一轮次的数据作为一个观测值;

(2)输赢作为目标变量;

(3)每一位球员在每一轮次中的各项数据都作为一个变量。

这样得到一个38个观测,366个变量的数据。下表列出了主要的变量列表:

表1

3、数据相关分析

3.1、数据相关分析概述

数据相关分析(Analysis of Cor relation)是对两个或者多个变量之间的关系进行分析,发现其内在因素。在开始介绍相关分析之前,需要特别说明的是相关关系不等于因果关系。

相关分析的方法很多,初级的方法可以快速发现数据之间的关系,如正相关,负相关或不相关。中级的方法可以对数据间关系的强弱进行度量,如完全相关,不完全相关等。高级的方法可以将数据间的关系转化为模型,并通过模型对未来的业务发展进行预测。

按照变量之间的类型不同,数据相关分析分为以下四种:

(1)自变量为数值型变量,因变量为数值型变量;

(2)自变量为数值型变量,因变量为分类变量;

(3)自变量为分类变量,因变量为数值型变量;

(4)自变量为分类变量,因变量为分类变量。

由于我们需要分析数据的自变量为数值型,而因变量只考虑输赢,所以我们的分析属于自变量为数值型变量,因变量为二元的分类变量。

3.2、数据相关分析结果

分析过程比较简单,就是将各个关心的球员指标数据分别与因变量进行比对,查看二者之间的关联性。对于关联性不强的,这里就不再赘述。另外我们只是分析了北京首钢几位重要球员的指标数据,其他球员要么出场次数太少,数据缺失严重,要么上场时间太短,多数指标数据为零,因此这里给出的是球队的几位重要球员分析的结果。

(1)7 号(杰克逊)分析。

①失误次数多于3个(含3个)时,11场球赢了10场,相反,当少于3个时,20场球输了9场;

②罚球出手次数5个(含5个)以上时,16场球赢了14场,相反,当少于5个时,15场球输了8场;

③前场篮板个数在2个(含2个)以上时,7场球赢了6场;

④当抢断个数3个(含3个)以上时,8场球赢了7场;

⑤当得分在18分(含18分)以上时,16场球赢了14场,相反,但得分在18分以下时,则是15场输了8场。

注:“.”表示该球员未参加比赛,下同。

球员分析:失误次数多反而赢球多,失误次数少反而赢球少。失误次数多说明杰克逊传球多,失误次数少一方面说明传球好,更多的是说明传球少。而当传球多时,无论是否是失误或者传球成功,目的都达到了,那就是起到串联的作用,通过传球带领全队,而不是自己单打独斗。至于罚球次数、抢断和进攻篮板,则说明当杰克逊打的比较硬气时,球队往往赢多输少。

(2)8 号(方硕)分析。

①三分球出手次数9个(含9个)以上,共有8场球,球队全部赢了;

②两分球出手次数小于4个(含4个),共有4场球,球队全部赢了。

球员分析:典型的外线球员,多投三分,少投两分。

(3)20 号(翟晓川)分析。

①盖帽2次(含2次)以上就能够赢球,共有5场球属于这种情况,5场全赢;

②犯规5次(含5次)以上就能够赢球,共有5场球属于这种情况,5场全赢。

球员分析:拼命三郎,打球积极,球队便能赢球。

(4)23 号(常林)分析。

只要有盖帽就能够赢球,共有5场球属于这种情况,5场全赢。

球员分析:内线球员,以后就坐镇内线,等着盖别人的帽。

4、展望

以上只是作者对于北京首钢一支球队、一个赛季的数据进行的分析,鉴于作者目前的水平,仅考虑了最简单的一类相关分析。除此之外作者考虑了还可以进行以下几种类型的分析:

(1)分析其他球队的情况;

(2)分析多个赛季的情况;

(3)多个变量相互作用对球队输赢的分析,比如将主客场因素考虑到分析中去;

(4)其它类型的相关分析。

猜你喜欢
赢球首钢因变量
首钢集团有限公司简介
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
中国药房(2022年7期)2022-04-14 00:34:30
首钢集团有限公司简介
首钢集团有限公司简介
首钢集团有限公司简介
适应性回归分析(Ⅳ)
——与非适应性回归分析的比较
偏最小二乘回归方法
文理导航(2017年20期)2017-07-10 23:21:03
回归分析中应正确使用r、R、R23种符号