数据驱动的NBA季后赛资格预测模型研究

2021-01-26 01:53胡凌锋刘铭涛
运动精品 2020年8期
关键词:胜率客场常规赛

胡凌锋 刘铭涛

数据驱动的NBA季后赛资格预测模型研究

胡凌锋 刘铭涛

(华南理工大学工商管理学院,广东 广州 510640)

以NBA职业篮球比赛为研究对象,预测能够进入季后赛的球队。文章提出影响模拟仿真比赛胜负关系的两个指标——“绝杀”制胜和加时赛制胜,根据常规赛前段每支球队的比赛数据,通过蒙特卡洛仿真计算每支球队常规赛后段每场比赛的胜负关系,进而计算得到每支球队整个常规赛的胜负场数,以此构建季后赛资格预测模型。以2015-2019连续4年的NBA比赛数据进行检验,结果表明预测模型能以较高的精确度预测球队常规赛胜负场数,以不低于87.5%的准确率预测联盟进入季后赛的球队。

预测模型;数据驱动;篮球比赛;蒙特卡洛仿真;季后赛资格

竞技比赛的结果所涉及的因素较多,预测时需要考虑的因素非常多。而团队作战的竞技比赛预测更加复杂,比赛结果涉及的因素除了个人能力和个人临场发挥以外,还包括团队配合等协同作战能力。因此,比赛结果的预测是一个非常专业的领域问题。

近几年,大数据分析技术逐步成熟,各种数据处理方法和数据分析方法的应用为比赛结果的预测开辟了一条新的研究范式,即“数据驱动+模型驱动”的问题求解范式[1]。在此研究范式下,不再对实际数据统计分析并构建数据模型,即传统的“模型驱动”的问题求解。取而代之的是,直接将原始数据带入到问题模型之中,进行问题求解[2]。相比之下,“数据驱动+模型驱动”的范式取消对复杂数据的建模分析中间环节,能够避免复杂数据建模引发的模型“失真”后果。

本文即是在此研究范式下,以美国职业篮球联赛NBA的比赛为对象,根据所有球队在常规赛前半段的比赛数据,预测每支球队常规赛后半段的比赛结果,进而根据预测结果,给出能够进入季后赛的球队。

1 相关研究

美国职业篮球联赛NBA是美国发展最为良好、商业运作最为成功的竞技类赛事之一。在经济利益的驱动下,对于NBA比赛中球员的数据统计、球队的数据统计都非常详尽。而这些数据成为对球队单场比赛结果的预测,甚至是球队的整体排名评价,是NBA体育产业的重要研究内容。

代表性的研究工作包括:[3]以球队在比赛中的助攻次数作为描述球队团队协作能力和水平的指标,验证了其与球队比赛胜算率的正向关系[4]。采用实验设计(DOE)的方法,分析了比赛中球队主客场、球队在本赛区排名、球队所属赛区排名等三个因素与比赛结果的关系。而比较常见的预测模型包括回归模型[5-9]、马尔科夫过程[10]、朴素贝叶斯模型[11]等。

近几年,随着大数据技术的不断创新,越来越多的新技术和模型被引入到比赛结果预测之中。例如,[12]采用两层前向反馈网络(人工神经网络)预测比赛结果;[13]融合了包括前向反馈网络等4种人工神经网络模型,用于预测比赛结果;[14]构建球员和球队的关系网络,并采用复杂网络分析的评价指标对比赛结果进行预测;[15]借鉴复杂网络分析中的PageRank算法,提出TeamRank算法预测比赛结果。类似的工作还包括:基于模糊集[16]、贝叶斯回归[17]、支持向量机[18,19]等。

由于竞技比赛结果存在着不确定性因素和随机性因素,前人除了引入Logit模型、贝叶斯模型、马尔科夫链等随机模型外,还转向采用计算机仿真分析方法[10,20]。相比于数学模型,计算机仿真模型(蒙特卡洛随机数仿真)能够考虑更多和更复杂的随机情况,因此逐步被推崇。

本篇论文即是采用计算机仿真模型,引入更多相关因素,从而能够更加准确的预测结果。

2 NBA季后赛排位的预测模型

2.1 球队比赛结果的预测模型

NBA正赛(夏季联赛不计入球队成绩)分为两个阶段:常规赛和季后赛。每年4月结束的常规赛,将确定参加季后赛的16支球队,即东部球队8支和西部球队8支。在常规赛中间,还有一个非常特殊的时间和比赛,即每年2月份的全明星表演赛。在NBA常规赛开始的第16周的星期四,是球队球员的交易截止日。在交易截止日之后,每支球队只能在现有球员基础上完成本年度剩余的常规赛比赛和季后赛比赛。而这个时间(交易截止日)通常是全明星表演赛前后。

NBA球队的比赛分为主、客场。对于一支球队而言,主场的场地熟悉、观众支持、裁判判罚等一系列因素影响下,其主场比赛的表现通常要强过其面对相同对手时的客场比赛表现。因此,本文主要将球队的比赛成绩按照主客场成绩进行分类统计,并以此构建模拟球队在主客场面对对手时的比赛胜率。考虑到球队的球员稳定性和磨合期的问题,本文以全明星赛之前的赛季数据,预测球队在全明星赛后的胜负情况。并且,根据每支球队的胜负场数,进行球队排名进而预测赛季进入季后赛的球队。

NBA正赛开始后,对每支球队的比赛结果进行统计。计算得到每支球队的主场比赛赢球的比率,客场比赛的赢球比率。以及,NBA中30支球队的平均主场比赛赢球比率LH和客场比赛赢球比率LR

定义变量H(i)为一场比赛中,主场比赛的球队的主场赢球比率;变量R(j)为客场比赛的球队的客场赢球比率。参考Ammar和Wright给出的球队赢得比赛的可能性[20]:

公式中,H(i)给出的是主场比赛球队的赢球预测结果/概率值,R(j)给出的是客场比赛球队的赢球预测结果。

不同于三大球中的足球、排球,篮球比赛中两支实力接近的队伍输赢结果不确定性更高。篮球比赛不接受平局,因此实力相当的篮球比赛,根据篮球比赛的比赛规则,会在正常比赛结束时间无法确定输赢时,增加“加时赛”。同样,在实力相当的篮球比赛中,经常会出现“绝杀”的情景,即一方球队在比赛的最后时间得分,改变比分并赢得比赛。因此,为了避免实力相当球队因加时赛或绝杀等偶然性因素放大球队的赢球概率,本文提出从原始数据集合中剔除这些比赛的比赛数据,即剔除那些比赛结果随机性较高的比赛场次,使保留的比赛成绩能够更加准确地衡量一支球队的实力。

为了检验预测模型的预测准确性,本文采用两个广为接受的预测模型评价指标。一个是预测模型得到进入季后赛的球队名单和当年实际进入季后赛的球队名单的匹配度:

= (实际进入季后赛的球队数量)/16 (3)

另一个是预测模型得到每支球队常规赛最终胜场数量和当年该球队实际比赛胜场数量的均方方差:

公式(4)中,x给出的是球队i实际胜场数,y是根据预测得到其胜场数。

2.2 基于蒙特卡洛仿真的比赛结果预测

由于公式(1)和公式(2)给出的是比赛双方的输赢概率,为了计算/预测该球队的比赛结果,以及常规赛结束后球队的比赛总胜场次,本文采用蒙特卡洛仿真的方法计算球队的输赢结果。具体来说,预测过程如下图所示。

图1 基于蒙特卡洛仿真的预测模型

3 进行季后赛球队预测

以2016—2017赛季为例,从NBA官方网站上下载并整理各支球队的比赛结果,计算全明星赛前每支球队主场比赛的平均胜率H和客场比赛的平均胜率R,以及30支球队整体的主场比赛平均胜率LH,客场比赛的平均胜率LR

通过剔除“绝杀”制胜的比赛和包含加时赛的比赛,计算得到所有球队主场平均胜率和客场平均胜率分别为LH=0.5838,LR=0.4162。公牛队的主场平均胜率和客场平均胜率分别为H(i)=0.5833,R(i)=0.4074。

以公牛队(客场)与太阳队(主场)比赛为例,已知太阳队主场平均胜率和客场平均胜率分别为H(j)=0.3333,R(j)=0.1923,可以计算公牛队能够赢得本场比赛的概率为:

H(i)=0.5833-[0.1923-0.4162]=0.8072 (5)

根据公牛队的比赛日程表,其全明星赛后还剩余25场比赛。根据公式(1)和(2)分别计算其主场比赛和客场比赛的比赛结果预测。表1为蒙特卡洛仿真方法下,单次仿真计算得到的公牛队的25场比赛的比赛结果和总胜场数。

表1 2016—2017赛季公牛队的全明星赛后25场比赛结果预测

全明星赛后赛程安排联盟主场胜率0.5838 联盟客场胜率0.4162 客场球队客场球队的客场胜率主场球队主场球队的主场胜率公牛胜率随机数X胜负情况 太阳0.1923公牛0.58330.80720.0022胜 公牛0.4074骑士0.88460.10660.5157负 掘金0.3704公牛0.58330.62920.0999胜 勇士0.8846公牛0.58330.11490.4179负 快船0.5862公牛0.58330.41330.4180负 公牛0.4074活塞0.60000.39120.5584负 公牛0.4074魔术0.34620.64500.2051胜 火箭0.6071公牛0.58330.39240.0919胜 公牛0.4074凯尔特人0.74070.25040.3579负 公牛0.4074黄蜂0.57140.41980.0580胜 灰熊0.4815公牛0.58330.51810.1335胜 公牛0.4074奇才0.78570.20550.8710负 爵士0.5652公牛0.58330.43430.7911负 公牛0.4074猛龙0.69230.29890.0581胜 活塞0.2963公牛0.58330.70330.3993胜 76人0.2800公牛0.58330.71960.7771负 公牛0.4074雄鹿0.54170.44950.4572负 骑士0.5000公牛0.58330.49960.4251胜 老鹰0.5000公牛0.58330.49960.6502负 公牛0.4074鹈鹕0.48000.51120.6272负 公牛0.4074尼克斯0.52000.47120.1239胜 公牛0.407476人0.40910.58210.6977负 公牛0.4074篮网0.17860.81260.2430胜 魔术0.3462公牛0.58330.65340.9313负 篮网0.0870公牛0.58330.91260.0197胜 12/25

重复仿真1000次,得到公牛队的胜场数量分布如图2。

图2 重复仿真的公牛队胜场结果

3.1 2016—2017赛季的常规赛结果预测

以赛事结束的2016-2017赛季的比赛数据进行分析。

首先,通过计算得到2016-2017赛季每支球队主场胜率和客场胜率,以及全联盟平均的主场胜率和客场胜率如表2。

重复1000次仿真,得到每支球队常规赛的胜场预测结果如表3。

表2 2016-2017赛季NBA全明星赛前30支球队的主客场胜率

2016-2017赛季全明星赛前联盟球队主客场胜率联盟平均主场胜率0.5838 联盟平均客场胜率0.4162 东部球队客场胜率主场胜率西部球队客场胜率主场胜率 凯尔特人0.56520.7407勇士0.88460.9600 骑士0.50000.8846马刺0.77780.7391 猛龙0.52000.6923火箭0.60710.7500 奇才0.50000.7857爵士0.56520.6552 老鹰0.50000.5652快船0.58620.7200 雄鹿0.40000.5417雷霆0.40000.7917 步行者0.32000.6154灰熊0.48150.5652 公牛0.40740.5833开拓者0.25000.5417 热火0.40000.4800掘金0.37040.6087 活塞0.29630.6000鹈鹕0.32000.4800 黄蜂0.34780.5714独行侠0.25000.5000 尼克斯0.34780.5200国王0.40000.4167 魔术0.34620.3462森林狼0.28570.4643 76人0.28000.4091湖人0.21880.4583 篮网0.08700.1786太阳0.19230.3333

表3 2016—2017赛季NBA常规赛结束后球队排位预测结果

东部15支球队 球队名称仿真预测胜场数真实胜场数排序仿真预测排位真实排位 凯尔特人54.33531骑士凯尔特人 骑士60.09512凯尔特人骑士 猛龙48.64503奇才猛龙 奇才50.57494猛龙奇才 老鹰46.49435老鹰老鹰 雄鹿37.65426公牛雄鹿 步行者40.23427步行者步行者 公牛40.61418活塞公牛 热火36.44419雄鹿热火 活塞39.113710热火活塞 黄蜂36.013611黄蜂黄蜂 尼克斯34.463112尼克斯尼克斯 魔术29.972913魔术魔术 76人29.92281476人76人 篮网13.142015篮网篮网 西部15支球队 球队名称仿真预测胜场数真实胜场数排序仿真预测排位真实排位 勇士70.17671勇士勇士 马刺61.39612马刺马刺 火箭56.32543火箭火箭 爵士49.35514快船爵士 快船51.67515爵士快船 雷霆47.38476雷霆雷霆 灰熊46.13437灰熊灰熊 开拓者34.57418掘金开拓者 掘金38.12409开拓者掘金 鹈鹕32.433510国王鹈鹕 独行侠32.303311鹈鹕独行侠 国王33.913212独行侠国王 森林狼29.843113森林狼森林狼 湖人27.272614湖人湖人 太阳25.062415太阳太阳

图3 模型预测结果图示(2016-2017赛季)

图3为预测结果与真实结果的对比。可以看出,无论是比赛结果(球队胜场总数)的预测,还是球队排位的预测(是否能够进入季后赛),预测结果与实际结果非常接近。

3.2模型有效性检验为了检验所提出模型的有效性,对影响模拟仿真比赛胜负关系的两个指标分别建模,具体对比分析以下四种不同预测模型下的比赛结果。

模型1:将“绝杀”和含加时赛的比赛剔除,用剩余的比赛结果计算球队的赢球比率和全联盟的平均赢球比率。

模型2:剔除那些含加时赛的比赛,但保留“绝杀”比赛,用剩余的比赛结果计算球队的赢球比率和全联盟的平均赢球比率。

模型3:剔除那些因“绝杀”比赛,但保留含加时赛的比赛,用剩余的比赛结果计算球队的赢球比率和全联盟的平均赢球比率。

模型4:保留所有比赛的结果,计算得到每支球队的赢球比率和全联盟的平均赢球比率。

图4 2015—2016赛季不同模型预测各支球队比赛结果

图5 2016—2017赛季不同模型预测各支球队比赛结果

确定不同模型后,根据不同模型计算每支球队主场和客场赢球比率,以及全联盟30支球队的主场和客场赢球比,球队的比赛结果预测依然采用公式(1)和公式(2)计算。对2015-2019年4个赛季的结果进行预测,四种预测模型的预测结果如图4至图7。

将仿真结果与当年球队的实际表现对比,可以发现本文所提出的预测模型都能够较好的预测球队胜场数。

图6 2017—2018赛季不同模型预测各支球队比赛结果

图7 2018—2019赛季不同模型预测各支球队比赛结果

表4 四种模型的预测效果对比

进入季后赛球队的匹配度 预测球队胜场数与实际胜场数的均方差(MSE) 2015—2016赛季2016—2017赛季2017—2018赛季2018—2019赛季2015—2016赛季2016—2017赛季2017—2018赛季2018—2019赛季 模型187.5%87.5%93.75%93.75% 5.98766.08466.19957.4900 模型287.5%87.5%93.75%93.75% 6.35206.11746.90427.7290 模型387.5%87.5%93.75%93.75% 6.16026.51496.43167.7068 模型487.5%87.5%93.75%93.75% 6.86477.34557.64017.8145

为进一步验证模型的有效性,对比四种不同模型对预测结果的影响,应用公式(3)和公式(4)计算预测效果的两个指标,得到结果如表4。四种不同模型对于进入季后赛的16支队伍预测结果相同,准确率均不低于87.5%,其中2017-2019两个赛季的准确率达93.75%。而从每支球队胜场数的预测结果来看,剔除了那些随机性较大的比赛结果后,可以发现预测结果更好,即从模型1、模型2和模型3可以看出,其预测结果都好过模型4,其中剔除了两种影响模拟仿真比赛胜负关系的“绝杀”和含加时赛的比赛数据后的模型1预测结果最好,精度最高。

4 结论

本文以NBA职业篮球比赛结果预测为研究对象,提出基于计算机仿真的季后赛资格预测模型,剔除比赛数据中随机性较高的比赛场次(“绝杀”制胜比赛和加时赛比赛),预测每支球队整个常规赛的胜负场数,并据此计算球队的常规赛排名进而预测联盟中进入季后赛的球队。根据2015-2019四个赛季的实际数据检验,本文提出的仿真预测模型能够以较高的预测精确度预测联盟球队常规赛胜负场数,并以不低于87.5%的准确率预测联盟中进入季后赛的球队。

[1]陈国青,吴刚,顾远东,等.管理决策情境下大数据驱动的研究和应用挑战—范式转变与研究方向[J].管理科学学报,2018,21(7): 1-10.

[2]Elbattah M, Molloy O. Learning about Systems using Machine Learning: Towards More Data-driven Feedback Loops [C]. In Proceedings of the 2017 Winter Simulation Conference. 2017:1539-1550.

[3]Melnick MJ. Relationship between team assists and win-loss record in The National Basketball Association [J]. Perceptual and Motor Skills. 2001,92(2): 595-602.

[4]Liu F, Shi Y, Najjar L. Application of design of experiment method for sports results prediction[J]. Procedia Computer Science, 2017(122):720-726.

[5]Shen K. Data Analysis of Basketball Game Performance Based on Bivariate Poisson Regression Model [J]. Computer Modelling & New Technologies. 2014,18(12): 474-479.

[6]Chatterjee S,Campbell MR, Wiseman F. Take That Jam! An Analysis of Winning Percentage for NBA Teams[J]. Managerial and Decision Economics. 1994,15(5): 521-535.

[7]Zimmermann A. Basketball Predictions in the NCAAB and NBA: Similarities and Differences[J].Statistical Analysis and Data Mining: The ASA Data Science Journal. 2016,9(5): 350-364.

[8]高红霞,杨迪,苏理云,等.基于Fisher模型的NBA季后赛资格预测[J].重庆理工大学学报(自然科学),2015,29(9): 126-130.

[9]潘建武.对NBA常规赛比赛胜负影响因素及Fisher判别分析[J].四川体育科学,2012(5): 45-48.

[10]Strumbelj E, Vracar P. Simulating a Basketball Match with a Homogeneous Markov Model and Forecasting the Outcome [J]. International Journal of Forecasting. 2012,28(2): 532-542.

[11]Miljkovic D, Gajic L, Kovacevic A, Konjovic Z. The Use of Data Mining for Basketball Matches Outcomes Prediction [C]. In Proceedings of 2010 IEEE 8th International Symposium on Intelligent Systems and Informatics. 2010:309-312.

[12]Giuliodori P. An Artificial Neural Network-based Prediction Model for Underdog Teams in NBA Matches[C]. In Proceedings of the 4th Workshop on Machine Learning and Data Mining for Sports Analytics, 2017: 73-82.

[13]Loffelholz B, Bednar E, Bauer KW. Predicting NBA Games Using Neural Networks [J].Journal of Quantitative Analysis in Sports, 2009,5(1): 7.

[14]Melo POSV, Almeida VAF, Loureiro AAF. Can Complex Network Metrics Predict the Behavior of NBA Teams? [C]. In Proceedings of 14thACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2008: 695-703.

[15]Xia V,Jain K,Krishna A, Brinton CG. A Network-Driven Methodology for Sports Ranking and Prediction [C]. In Proceedings of 2018 52nd Annual Conference on Information Sciences and Systems,2018: 1-6.

[16]Trawinski K. A Fuzzy Classification System for Prediction of the Results of the Basketball Games [C]. In Proceedings of IEEE International Conference on Fuzzy Systems, 2010: 1-7.

[17]Lam MWY. One-Match-Ahead Forecasting in Two-Team Sports with Stacked Bayesian Regressions [J]. Journal of Artificial Intelligence and Soft Computing Research, 2018,8(3): 159-172.

[18]Pai PF, Changliao LH, Lin KP. Analyzing Basketball Games by a Support Vector Machines with Decision Tree Model [J].Neural Computing and Applications. 2016,28(12): 4159-41679.

[19]曾磐,朱安民.基于支持向量机的NBA季后赛预测方法 [J].深圳大学学报(理工版),2016,33(1): 62-71.

[20]Ammar S, Wright R. Comparing the Impact of Star Rookies Carmelo Anthony and Lebron James: An Example on Simulating Team Performances in the NBA League [J]. Informs Transactions on Education. 2004,5(1): 67-74.

Study on the Data-Driven Forecasting Model for NBA Playoffs Qualifications

HU Lingfeng, etal.

(South China University of Technology, Guangzhou 510640, Guangdong, China)

胡凌锋(1993—),硕士生,研究方向:工业工程。

猜你喜欢
胜率客场常规赛
中国经济:从客场到主场的全球化发展新格局
主客场因素对大学生篮球联赛战绩的影响研究
NBA奥斯卡
认识足球(九)
2014—2015年中国女子篮球职业联赛单节得失分与比赛结果相关性分析
贫民富翁