曹雪薇 ,李小天 ,付颖瑶 ,3,吴 昊 ,刘天彪 *,梁亚普
中国足球职业联赛已经开展了20余年,有着大量的问题需要科学的回答。职业联赛实行主客场双循环比赛,主场优势即是一例。Koppet首次提出了主场优势的概念:在主场比赛会提高获胜机会[1]。在许多体育比赛中都存在着主场优势 (Home Advantage)现象,主场队伍或个人在比赛中能够更多获利从而取得优势。这一现象在个人项目(柔道比赛[2]、速度滑冰比赛[3]、高中摔跤比赛[4])和集体项目(足球比赛[5]、高校篮球比赛[6,7]、职业冰球比赛[8]、排球[9]、篮球[10]、手球[11]和橄榄球[12])中都有出现,包括奥运会[13,14]和世界杯足球赛这种大型赛事,在世界杯足球赛中,乌拉圭、意大利、英格兰、德国、阿根廷以及法国队都曾经在自己国家主办的比赛上拿到过冠军,多数取得世界杯冠军的国家都是在本大洲举办的世界杯上夺冠的。Schwartz和Barsky于1977年最早对体育比赛中集体项目的主场优势现象进行了研究,通过研究棒球、美式足球、曲棍球以及篮球联赛,发现在集体项目中,主场优势现象是存在的,室内项目比室外项目存在更大的主场优势[15]。美国心理学家Courneya和Carron于1992年提出了主场优势的操作定义:主客场均衡(主场和客场比赛数量相同)的比赛体系中,主场球队获胜概率超过50%[16]。因此,对主场优势的讨论多集中于主客场赛制的比赛,例如职业足球联赛。在主场比赛中,主场球队通常会在战术方面做出相应的安排,因为主队教练都希望本队能够取得比赛胜利,所以会更注重进攻。有研究发现,球队在主场比赛时的进攻以及进攻组织相关指标都要高于客场比赛[17],这是由于如果主场球队率先进球,其获胜概率会达到惊人的84.85%[18]。然而,以往大多数关于主场优势的研究都是以欧洲和美洲联赛为研究对象[8,19-22],近年对中国足球职业联赛主场优势的相关研究较少[23,24]。
在以往的研究中,学者们分析了各种职业联赛中所存在的主场优势,在职业联赛初期存在着“工体不败”“高原神话”等现象证明了主场优势效应的存在。殷小川和郑日昌的研究表明,在中国足球职业联赛的开始阶段,主场不输球(赢球或平局)的概率为71.1%~78.7%(包括甲A和甲 B)[25]; 根据 Pollard提出的计算方法[5],在2006—2012年间,我国职业足球联赛主场优势的程度为63.82%[20]。最近的研究表明,2014—2016赛季中,职业联赛的主场优势下降到59.7%。这一趋势与国际上的趋势相符合[26,27]。同时,国外的研究发现,首都球队的主场优势通常不及非首都球队高,Clarke和Norman发现在1981—1991年间英格兰联赛中伦敦球队的平均主场优势要小于其他地区球队[28];Pollard 和 Gómez发现,巴黎、罗马、里斯本和马德里球队的主场优势也不如其他地区球队高[21]。对希腊足球联赛的研究也表明,首都雅典的球队主场优势值要小于非首都球队[29]。研究主场优势不但可以在联赛层面给予俱乐部技术支持,增加比赛的对抗性和观赏性,提高俱乐部联赛成绩,而且在国家队层面也能给予更多的帮助。中国国家队在世界杯外围赛的比赛中如果能够利用好主场条件,在主场比赛中发挥出高水平,就可以大大提高亚洲区出线的概率。
足球比赛是一个复杂的非线性系统[30],一支球队的比赛表现不仅受自身因素影响,还取决于对手的水平和发挥,单纯使用简单统计无法对比赛指标以及与结果之间的联系进行更为精确的描述,为此需要更有效的数学手段来完成比赛数据的分析工作。复杂网络分析是在过去30年各个学科的交叉研究中发展起来的,随着信息技术的快速发展,研究复杂事物体系也更为方便,对复杂网络的研究也随之展开。Watts等人[31]和 Barabasi等人[32]先后发表文章,提出复杂网络的概念并打开了复杂网络研究的大门,自此之后,复杂网络的方法被广泛应用在生物、信息、金融等各个领域中[33-35]。相比于以往对比赛指标的研究,基于复杂网络方法的运动表现分析手段能够提供更多信息,并逐渐在体育比赛分析中得到应用。Duch等人第一次运用网络分析方法分析了2008年欧洲杯足球赛的球员表现[36]。在此基础上,Grund进一步研究了网络的结构和中心特征,该研究证实,比赛中传球网络具有低中心化程度和高集聚程度的球队更容易取得胜利[37]。社会网络分析(Social Network Analysis,SNA)提供了一个分析比赛中球队内部球员之间总体合作水平的方法,同时使用该方法也可以确定每一个球员在整体中所处的中心地位[38]。以往对足球比赛网络的分析研究集中于分析传球网络的结构参数对单一场比赛结果的影响,对于比赛地点是否会对网络的某些结构参数有影响的研究较少,因此,使用网络结构参数来量化主场优势效应是我们需要解决的重要问题。
本文使用2016赛季中国足球超级联赛30轮共240场比赛中各参赛队的传球数据构建比赛中的传球网络,使用复杂网络(Complex Network)的分析方法,计算各网络参数,用以衡量“主场优势”是否存在,并将结果进行可视化。
本研究统计了2016赛季中国足球超级联赛30轮共240场比赛中各参赛队伍的传球数据,比赛数据来自创冰足球数据网站(http://data.champdas.com),创冰数据的信度和效度已经得到以往有关研究的验证,数据质量能够满足学术要求[39]。2016赛季的中超联赛包括16支参赛队伍,每赛季共30轮,240场比赛,双循环赛制,每轮8场比赛。
1.2.1 传球网络
定义一个参赛队伍的传球数据作为复杂网络中的邻接矩阵W,以各个参赛球员为节点,以球员之间的传球情况对球员进行连边,连边权重是传球的邻接矩阵中W的数值大小,连边的方向表示传球的方向。即可得到两个网络的邻接矩阵A和W,A表示比赛中传球情况的有向无权网络,如有传球记录则记为1,否则为0,W表示球员之间传球的有向加权网络,若参赛球员为人,公式如下:
其中,Wij表示球员i传球给球员j的次数,传球方向即为网络连接方向。
图1展示了传球网络的拓扑结构示意图,图1(a)是2016赛季中超联赛第一场比赛时主场球队——重庆力帆队的传球网络,图1(b)是客场球队——广州恒大淘宝队的传球网络。
图1 传球网络示意图Figure 1 Sketch of the Pass Network
传球网络模拟了足球比赛的过程,在图1中的网络以不同的宽度表示了球员间传球的频数,可以反映出球员之间的联系程度,也可以看出球员在比赛中的参与度。同时,将两个传球网络进行对比分析,可以看出主、客场球队战术应用和比赛表现的不同,从而发现适合本队的战术。图1中蓝色方框标识出的队员在传球密度上明显高于其他队员,图1(a)显示了主队——重庆力帆传球集中的球员和主要的进攻方向,比赛中重庆力帆的传球主要集中于前场球员,前锋接触球的机会较大;而图1(b)显示了客队——广州恒大淘宝的传球主要集中在己方的后场球员,前锋的接触球机会较小。
1.2.2 网络参数
度:刻画节点属性的最简单而最重要的概念,可以表示球员之间的直接关联情况,球员之间更畅通的关联情况对球队表现有着更好影响。ki=kiout+kiin表示球员i的传接球个数,即球员i共与ki个球员的传接球个数,其中kiout表示球员i的传出球的个数,kiin表示球员i接到传球的个数。
集聚系数:描述网络中节点的邻点之间也互为邻点的比例,也就是小集团结构的完美程度。足球比赛中,球员之间都是相互作用的小团体,集聚系数的概念告诉我们它是指网络节点倾向于聚集在一起的程度。也就是说,球员之间传球关系的紧密程度,反映了球队小组配合的成功率,可以用来衡量小组进攻质量。
其中,ki表示球员i的传球个数,aij,aik,ajk分别表示球员i对球员j、球员j对球员k和球员k对球员i是否有过传球,如果有过传球记录,则a=1,否则a=0。 记传球矩阵 W=(wij),则表示球员i,j,k之间传球次数的评估值,其中是以球员i为端点的所有传球的权值的平均值[40]。
Ci表示每个上场球员的集聚系数,刻画每个球员所处传球关系的紧密程度。N表示上场球员数,一个传球网络的集聚系数C定义为网络中所有球员的集聚系数的平均值,即
1.3.1 描述和相关分析
首先对2016赛季中超联赛240场比赛中所有主、客队的网络参数进行描述统计。分别计算度和集聚系数的均值(Mean)、标准差(Std)、最大值(Max)、最小值(Min)、中位数(Median)、偏度(Skewness)和峰度(Kurtosis)。比较2016年中超联赛共240场主、客场比赛描述性统计量的差别,计算主、客场之间网络参数序列的Pearson相关系数。
1.3.2 假设检验
首先,检验数据总体是否服从正态分布。随后在这个分布的基础上,构造相应的统计量,根据统计量的分布做出统计推断。对网络参数进行检验,以检验主客场球队比赛的网络参数是否存在差异。
采集了2016赛季中国足球超级联赛240场比赛共480个的传球矩阵,建立了球员之间的传球网络,通过对网络的分析计算出网络结构参数:度和集聚系数。运用统计分析和检验,分析网路参数是否与主客场比赛有关。
2.1.1 描述性分析
表1显示了2016年中超联赛30轮共240场比赛中传球网络度的描述性统计量,可以看出主场球队的特征值均高于客场球队。两个数据分布的偏度(Skewness)和峰度(Kurtosis)均在 0 附近,说明分布与正态分布的差异不大,后文将对数据分布的正态性进行检验。
表1 主、客场传球网络度的描述性统计量Table I Descriptive Statistics of Pass Network Degree on Home and Away Courts
2.1.2 正态检验
通过假设检验的方法对网络度参数是如何受到“主场优势”的影响进行分析。首先由于统计推断中总是假定样本分布为正态分布,所以在进行假设检验之前,需要对样本数据进行正态性检验。
图2表示主、客场球队总的传球关联程度的正态性检验结果,虚线表示理论正态分布,散点表示实际计算出的数据分布,发现不管是主场球队还是客场球队总传球关联程度的平均值分布均在正态概率纸上呈现一条直线的形态,说明该参数呈正态分布。
图2 主、客场球队传球关联程度(网络度)的正态性检验结果Figure 2 Normality Test Results of Pass Relevance Degree(Network Degree)of Home and Away Teams
2.1.3 配对样本T检验
假设2016年中超联赛240场比赛主、客场球员传球关联程度的平均值(平均度)无差异,即检验原假设 H0:μ1=μ2 和备择假设 H1:μ1>μ2,并且该数据通过正态性检验服从正态分布。由于主场及客场球队比赛次数n1=n2=240>30,由中心极限定理[41]可知下述检验统计量近似服从标准正态分布。
2.2.1 描述性分析
足球的传球网络中,集聚系数表示球员之间传球的紧密程度,球员之间传球的紧密程度反映了比赛中更好的传球成功率。用相同的检验手段对集聚系数进行差异分析。表2表示主、客场传球网络的集聚系数,即比赛中球员之间的紧密程度的描述性统计量。表2中数据是对比赛中所有球员集聚系数平均值序列的描述性统计量,说明在主场比赛的球员相互间传球的紧密程度要高于客场比赛的球员。两组数据的偏度(Skewness)和峰度(Kurtosis)均在 0附近,说明分布与正态分布的差异不大,后文将对数据分布的正态性进行检验。
2.2.2 正态检验
对主、客场的样本数据进行正态检验,检验结果如图3所示,无论主队球员还是客队球员传球紧密程度的分布均在正态概率纸上呈现一条直线的形态,说明该参数的分布均通过了正态性检验。
表2 主、客场传球网络集聚系数的描述性统计量Table II Descriptive Statistics of Clustering Coefficients of Home and Away Pass Network
图3 主、客场球队传球的紧密程度(集聚系数)的正态性检验结果Figure 3 Normality Test Results of Pass Coherence(Clustering Coefficients)of Home and Away Teams
2.2.3 配对样本T检验
假设2016年中超联赛240场比赛主、客场球队传球的紧密程度(集聚系数)无差异,该数据服从正态分布。通过计算,在显著性水平α=0.05的情况下,该检验的统计量T=1.7080>Zα=1.645,并且p-value=P(Z>2.445)=1-Φ(1.7080)=0.0436343<0.05。 说明主场球队比赛球员之间传球的紧密程度显著大于客场球队比赛球员之间传球的紧密程度,原假设不成立。
在以往应用复杂网络方法的比赛分析研究中,研究人员着重于分析单场比赛中的网络参数或单个球队和关键球员的网络参数来研究这些参数与比赛结果之间的关系[36,42-44]。本研究第一次引入复杂网络分析方法对中超联赛主场优势进行研究,对2016赛季中国足球超级联赛 (CSL)16支参赛队伍30轮共240场比赛中的传球数据进行了分析。构建了所有比赛中主、客场球队的传球网络,分别计算了传球网络结构参数:度和集聚系数;分析了网络参数在主、客场比赛中的区别及相关程度,以及这些网络参数是否在主客场比赛中存在显著差异。
网络的度和集聚系数分别反映了比赛中球员之间直接联系情况和球队传球的成功率。研究表明,主场比赛球队的网络平均度要显著大于客场比赛球队。因此,主场球队任意两名球员的直接传球的可能性要大于客场球队,主场球队更容易将球推进到他们希望到达的球员位置。Poulter的研究支持了本文的研究结果,他发现主场球队比赛时,中场球员和前锋队员更容易取得射门和进球,也更容易获得队友的助攻[45]。这是因为主场球队更容易将球输送至能够得分的球员脚下。一项有关中超联赛的统计也支持了这一观点,在2014—2016赛季中,前锋队员在主场比赛时取得的进球数要大于客场比赛。这些都说明,球队在主场比赛时,网络的平均度越大,整体上球员的直接传球关联程度要更好,球员之间直接联系的可能性提高,更有助于在较少次数的传球后创造得分机会和进球,这也符合以往的研究结论[46]。刘天彪、刘鸿优等人的研究表明,当一方球队的传球网络通畅时,往往对手的传球会受到较大限制,特别是有威胁的传球[47,48],这也符合本研究的结论,这是因为当主场球队传球路线畅通、传球较多时,其控球率也相应提高,这与主场控球率高于客场的研究相一致[24,49-52]。
集聚系数反映了网络结构中小团体内部成员间联系的紧密性,高集聚系数往往意味着球队在比赛中具有较高的小组配合成功率,可以用于衡量小组进攻质量。一些以往的研究曾经使用集聚系数作为衡量球队比赛表现的指标[42,53],然而这些研究多集中于球员、球队或是单场比赛。从宏观角度出发,本研究发现,主场球队的比赛传球网络通常具有较高的集聚系数。可以认为球队在主场比赛时小组配合成功率会上升。有关研究也显示,球队在客场比赛时拦截指标会下降[29,50,54],这一指标的下降对应了小组配合成功率的提高,也对应了主场球队较高的传球成功率。
传球网络的度和集聚系数与球队主客场比赛有关,球队主场比赛中,代表球队中任意球员直接联系可能性的度参数和代表球队小组配合成功率的集聚系数均高于客场比赛。
使用复杂网络方法从比赛中传球的拓扑结构分析球员的比赛表现,能够客观地反映比赛中各队的相对水平,为评价球队在主、客场的比赛表现提供更多参考指标和参考信息。
田麦久认为运动成绩由运动员/运动队自身表现、对手表现以及比赛评定三方面决定[55]。其中,运动员自身与对手在比赛中的表现都取决于他们所具有的竞技能力及在比赛中的发挥程度。球类项目以及制胜类项目运动员的竞技表现则受着对手竞技表现的影响。这种影响是很大的,有时甚至是决定性[47]。本研究比较了主场球队和客场球队比赛时两个网络参数的差异,在未来的研究中可以加入对对手实力等因素的考虑。