基于模糊灰色关联分析法的足球比赛影响因素分析研究*

2023-07-11 07:32姜海富于化龙
计算机与数字工程 2023年3期
关键词:客队主队足球比赛

姜海富 于化龙 韦 磊

(江苏科技大学计算机学院 镇江 212114)

1 引言

随着大数据数据量越来越多,给各行各业带来无限想象力和商业应用价值,尤其是在体育领域。足球比赛作为体育领域热门的项目,伴随国内足球氛围不断浓厚,足球领域内的各个细分领域也快速发展,足球比赛大数据就是其中之一[1]。目前存在大量热爱足球的群众对下一场比赛的结果进行预测,并且通常个人预测对所支持的球队进行支持。但足球比赛结果因为其的不确定性,即使专家也很难能够预测下一场比赛胜负[2]。从足球比赛体育大数据的挖掘中发现,足球比赛对于赛果预测的困难,主要是由于足球比赛的结果含有众多影响因素,例如团队合作、个人技能、天气、主场优势等,很难预料足球比赛的实际结果[3]。即使比赛没有任何伤害或没有加时发生,运气也可能是影响足球比赛结果的一个因素,因此强队并不一定会赢弱队。也正是由于足球比赛影响因素多种多样,比赛情况纷繁复杂,给足球比赛关联分析更多研究的价值,也给商业界更多的兴趣、体育界更多的精力去探索没有接触到的特征信息。

当前针对足球比赛预测研究方法众多,但是对于赛后影响因素分析相对较少,且多见于传统、简单统计分析,不能够从多角度多方面比较价值影响因素[4]。Marcelino R[5]等通过多变量分析中评估赛前因素的组合及其与赛果(赢/输)的关系,采用预测性机器学习模型(ML)对澳大利亚足球联赛比赛(AFL)结果预测分析,表明使用ML 方法能提供最大限度地提高获胜机会的预测变量层次,还能够预测AFL比赛的结果,为比赛关联分析提供了一种新的方案啊。吴键等[6]使用Ologit(Ordinal logit)建立一种关联模型将球员的基本能力成绩与比赛成绩关联,提出球员的个人技能与赛果之间存在年龄和组别球员变现呈现不相同的现象。通过对球员的客观定量描述能够及时有效的判断球队的问题并针对性做出改变。在预测模型上Koppman[7~8]前后分别提出了一种新的动态多元模型,用于分析和预测国家联赛的足球比赛结果,实际结果对于足球比赛预测有着良好的效果。足球比赛赛场上每时每刻都在产生数据,这些数据都存在重要的利用价值,尽管国内外尝试了大量的研究从球员自身,或者动态调整预测模型,但针对比赛影响因素的深度挖掘还是未能深入展开。

本文采集大量足球比赛数据,包含西班牙甲级联赛,德国甲级联赛,意大利甲级联赛,法国甲级联赛和葡萄牙足球超级联赛五个赛季(2014-2019)完整比赛数据。针对足球比赛影响因素的多样性、不确定性、模糊性等问题,以及在计算经典灰色关联度时无法对比不同观测序列中多种因素对特征空间的影响。针对此问题提出一种采用模糊、灰色关联理论配合提出模糊灰色关联分析模型。通过本文方法得到的高贡献度的特征,按照贡献度大小进行排序分析,用一种相对科学的足球比赛结果预测估计模型(LightGBM 模型)对提取特征进行结果预测分析[9~10]。经过对模型效果的充分检验,反复迭代对模型中各指标进行统计筛选,指出了不同影响因素的重要程度特体现,发现既能够得到高贡献度特征同时又能在特征分析提取后仍能够得到高准确率预测的方法,而且在具体的特征分析得到价值一直的判断,最后针对性的提出足球比赛过程中应当重点考虑的问题。

2 研究方法

2.1 模糊隶属度以及灰度关联模型

针对足球比赛结果分析存在的问题,本文将模糊数学理论和灰色理论用于比赛影响因素分析中是一种创新的解决方案。目前在关联分析与评价领域,模糊综合评判法和灰色关联法被广泛提及,由于其特定的问题,存在一定的局限性。因素之间模糊性的主要原因在于各种因素在区别不同的过程中存在中间过渡的判断,包含着彼此包含的联系。但是在彼此包含的过程中仍然存在这客观的区别,更进一步的对比能够明显得出在上一阶段的彼此包含的关系中的信息,在下一阶段可能并不是包含有很强烈的联系[11]。

隶属度函数作为模糊理论中评价事务模糊性的重要评价方式,同时是关联分析法主要构成组件[12]。本文基于斯皮尔曼相关性系数模型与相近性原理的邓氏灰色关联分析模型,利用位移差来分别不同列之间的重要程度,根据计算出的关联度分析出关联序列,从而对根据关联序列对不同因素的关联程度进行研判[13]。

2.1.1 原始数据处理

数据标准化处理能够显著减少由于变量的量纲不同导致模型预测产生数据误差,产生。针对传统的灰色关联分析法常采用初值化或单一均值化进行数据处理,本文引用数据区间无量纲转换跟传统的模糊聚类中的极差变换相似也就是,对比较序列Xi(i=1,2,…,n)中的数据采用如Min-max normalization进行无量纲处理。

2.1.2 模糊隶属度与灰度关联度计算

为了保证模型包容所有信息,能够减少数据线性比例关系的影响,本文选用统计学上常用的斯皮尔曼相关性法建立模糊相似矩阵的数学模型,也就用它来衡量两个变量的依赖性的非参数指标,利用单调方程评价两个统计变量的相似程度,而且对于数据错误和极端值的反应不敏感[14]。其表现形式为

其中xi,yi分别是影响因素i 取值的等级,xˉ,yˉ分别是变量x,y的评价等级,N是影响因素的总数量。

针对比较序列Xi对参照序列Yi在i=k时的关联系数ξij(k)可由下面的公式确定:其中Δmin,Δmax分别为Yi与Xi中分别是影响因素中的极大值与极小值的绝对值大小。 Δij(k)为Yi与Xi在第K 个点的绝对值差。ρ为判别系数,也就是对极大值与极小值的权重,需要满足干扰性与关联度的一致性。对极大值与极小值的绝对值绝对值差值的均值进行计算,其次根据Δ 与Δmax的比值确定ρ的取值区间。其计算法公式如下:

由于关联系数的计算方式会导致计算结果众多,为了能够便于对比和分析本次将各关联系数集中展示在一个值的效果上,即灰色关联度。由于足球比赛影响因素众多,本文根据对原始的灰色关联度公式进行简化可得:

2.2 足球比赛模糊灰色关联分析法

根据2.1.2 节中模糊隶属度ρ与灰色关联度ξij就计算出一种足球比赛影响因素的一个判断综合评价指标,也就是本文提及的模糊灰色关联度Rij其公式如下:

对初始数据处理进行特征构造并对缺失数据进行合理补充。提取的七类特征数据共计43 个特征采用模糊灰色关联分析进行重要度分析,提取具有强关联的特征集合。最后带入到决策算法中进行实际的足球比赛预测,如算法1所示。

算法1.模糊灰度关联分析算法描述输入 比赛数据x,实际比赛结果y;

输出 灰色关联分析后的特征数据集合c

procedure Xi=(xi1,xi2,…,xip),(i=1,2,3,…,n)

1)collect the initial s instances as Xi

2)[F1~Fs,G1~Gs]=Fuzzy_membership(Xi),Grey_relational_degree(Xi)

3)[c1~cs]=algorithm(Fi,Gi)

4)P=LightGBM(Ci)

5) while max(P)

6) find ω which is the best prediction accuracy P

7) tune cjaccording to Eq.(4)

8)end procedure

3 实验数据收集

本次实验采用的数据集来自球探网数据(http://zq.win007.com/info/index_cn.htm),通过爬虫程序从此网站提取欧洲主流六个联赛(西班牙甲级联赛,德国甲级联赛,意大利甲级联赛,法国甲级联赛和葡萄牙足球超级联赛)五个赛季(2014-2019)共10661 场完整比赛数据作为实验的基础数据构建数据集,其详细信息如表1~2所示。

表1 球队最近比赛情况

表2 球员最近比赛状况数据

由于足球比赛包含人为因素和自然因素和现实因素相关关联,通过对文献以及足球比赛的了解。本文对提取到的初始足球比赛数据进行数据预处理,后对初始数据进行深入挖掘从积分差距、主客场及近期状态、轮次相关、体能状况、赔率状况、两队交锋历史状况和主客场攻守状况方面提取7 个维度的特征数据进行下一步的关联分析,详细特征介绍如图1所示。

图1 七大类别比赛特征数据

在对比赛特征进行提取完成后,发现部分数据存在一部分缺失存在,如“主队客队近五场失球和”,因为对于原始数据本文可以理解为本年度赛季的比赛在时间轴上的确实没有最近五场比赛的数据,因此为了公平起见对于缺失的数据本文采用平局的方式对于球队主客场进行打分。

4 实验结果及讨论

由于足球比赛结果预测本身相当复杂,本文根据每场比赛后的实际比赛结果归纳得出的特征能够尽可能地还原足球比赛实际预测结果中。经过对初始数据的清洗和处理得到七个维度的特征序列,需要对得到的特征进行下一步的模糊灰色关联分析。首先设足球比赛实际结果特征结合为对照序列Y,其中众多的比赛结果影响因素构成对比序列X。将对比序列X 经过归一化计算,得到一组标准化的足球比赛影响因素矩阵。将标准化的影响因素矩阵带入式(1)得到影响因素的模糊隶属度。将标准化系数矩阵带入式(2)得到,Δmin=0 、Δmax=1。通过约减计算均值求出ρ的取值范围为0.3202 ≤ρ≤0.4803,求出灰色关联系数矩阵。

将灰色关联系数矩阵带入式(4)能够得出对足球比赛赛果影响的加权灰色关联程度,本文将模糊灰色关联加权关联度带入式(5)也就计算得出足球比赛结果影响因素的模糊灰色关联度如表3 所示,其中两种计算方式差异如图2 所示。其中本文针对所有特征:主优势、平均平率、主队主场优势、分场平均平率、主队近五场得分、客队近五场得分,主队主场近五场得分、客队客场近五场得分、主对客对得分差、主队主场客队客场的分差、积分差小于3、积分差大于3但是小于6、轮次大于0.8积分小于3、轮次大于0.9 积分小于3、休息比,休息强度,负胜率、看平率、主赔率可信度、客赔率可信度、除去本场两队实力比、两队主对主场客队客场实力比、两队最近一次交锋比、两队最近一次主客交锋比、主队客队进球比、主队主场客队客场进球比,主队客队进失球和、主队客队近五场进失球和、主队主场客队客场最近一场进失球和、主队主场客队客场近五场进失球和、不包含本场的主队客队最近一场净胜球、不包含本场的主队客队近五场净胜球、主队主场客队客场净胜球、主队主场客队客场近五场净胜球、WilliamHill 胜初赔、WilliamHill 平初赔、WilliamHill 负初赔、bet365 胜初赔、bet365 平初赔、bet365 负初赔、LiBo 胜初赔、LiBo 平初赔和LiBo 负初赔分别用X1,X2,…X43表示。本文余下部分将用符号代替特征名。

图2 不同灰色关联度值测定折线图

表3 不同灰度计算方式关联度表

经过实验发现提取部分特征如X1、X10、X17、X20、X23、X24、X28、X32、X35、X37、X38、X40、X41、X43与比赛结果具有很高的关联度。可以理解在足球比赛当中球队主场优势以及最近主客交战情况在现实情况上能一定程度上反应两队比赛结果影响。对于欧赔的初赔,也可以发现尽管初赔是建立在给体育竞技一种可以量化的直观的数据体验上,但是仍旧对于足球比赛赛果具有一定的联系,反映了赔率机构对于足球比赛的强有力分析。因此通过模糊灰色阶关联分析的方法能够更好地将各种特征进行一个数据上的量化,方便与更好地对影响因素进行分析统计,便于下一步的实际结果预测。

本文选用LightGBM 模型,它是一个梯度Boosting 框架,是2017 年微软亚洲研究院发布的一种基于决策树算法,其具有训练速度快、运行内存低、准确率高、支持并行学习、可处理大规模数据的优点,特别是在工业界具有很高的利用价值[15~16]。通过提取影响因素具有高贡献度的特征,将提取到的特征变量带入到LightGBM 决策算法对提取的足球比赛影响因素进行实际的足球比赛预测。

本实验将数据分为训练集和验证集按9∶1 的比例进行数据拆分,调节LightGBM 决策模型参数,同时对预测结果进行十折交叉验证。实验对比全部特征与提取关联度最高的特征预测对比如表4所示。

表4 全部特征与关联度高的特征预测对比表

根据表4 实验发现本文提出的方法采用Light-GBM 决策算法对足球比赛的胜利预测准确率为73.01%,此方法在在相同数据源和数据填充处理方式的基础上能够在影响因素减少67.5%的情况下仍然没有损失比赛预测实际精度,而且在计算速度上得到极大的提升。对于足球比赛这种含有众多影响因素的关联分析具有很好的效果,而且能够发掘出与实际比赛结果最有用的特征,对于比赛预测具有很好的预测效果。

5 结语

基于模糊灰色关联分析,建立了一个对足球比赛多因素关联的模型。对足球比赛的多因素进行了定量的判定和分析,聚量化突出了不同因素对比赛结果影响程度,最大程度的抱着保证了分析的准确性和影响因素的可解释性。本文方法从统计与数据挖掘的角度上进行分析了比赛数据的探索,从比赛数据的特征构建,再到筛选后的比赛结果预测,不仅从海量的比赛数据探寻数据本身存在的价值,而且赋予体育比赛的数据分析一种新的探索方法。对于相关其他体育赛事比赛结果影响因素评定的研究具有一定的影响力,为体育比赛结果的分析与预测提供了参考科学有效参考。

猜你喜欢
客队主队足球比赛
精彩的足球比赛
“幽灵赛场”凸显出球迷对于裁判的心理影响
足球比赛
足球比赛“排兵”里的布阵
足球比赛里的“排兵布阵”(七)
主队
2014—2015年中国女子篮球职业联赛单节得失分与比赛结果相关性分析
裁判员对中国男子篮球职业联赛主场优势影响的实证研究
裁判员对我国女子篮球联赛中比赛胜负影响的实证研究*