奥运奖牌数据背后所凸显的唯象法则——基于数据挖掘视角的探究

2012-12-29 06:17杨华磊周晓波
体育科学 2012年10期
关键词:奖牌数量区域

杨华磊,周晓波

奥运奖牌数据背后所凸显的唯象法则
——基于数据挖掘视角的探究

杨华磊,周晓波

通过对奥运数据的唯象挖掘发现,奖牌数量在空间上存在明显的聚集效应,即地理空间上相近的区域都能获得奖牌,或都不能获得奖牌,抑或都获得的多,或都获得的少;奖牌数量下国家个数符合水平区段带有诸多小峰的L型分布,这种分布在自然和社会中是一大类普适性的分布,在一定时间段内,奖牌榜序下的奖牌数的分布函数具有对时间和空间变换的结构或总量的相对不变性,即奖牌数量可能在不同国家之间随机游走,但是,奖牌数量在不同国家之间的总体分布保持着基本不变的性状,历届奥运会都基本呈现相同的分布形式。同时,奖牌榜序下的奖牌数符合幂函数分布,这相近金融市场中价格波动的幂率法则。奖牌数量的不均匀程度近似为89%左右;每天奥运奖牌数据的更新路径为Z型,即存在间歇性的阶梯上升;气候越热的区域,获得奖牌数越少,温带区域获得的奖牌数量最多;总GDP与奖牌数量的正相关仅在某区段上成立;人均GDP对奖牌数的贡献是一区域的整体性质,但在局部区段上不存在明显的规律性,如果根据人均GDP对所有区域划分为二,则人均GDP高的区域获得奖牌数量多;越“民主国家”和越“集权国家”获得奖牌数较多,其他较少,并且,最民主区域比最集权区域获得的奖牌多,即左提的正U型。

聚集效应;幂函数分布;L型分布;气候;民主;基尼系数

奥运会是人类的视觉盛宴,同时,其所彰显的奥运精神也是人类的精神食粮。奥运场上的竞技水平,不仅是一个国家(地区)或者一个民族体质水平的近似象征,也是一个国家(地区)综合实力的展现,包括先天禀赋的自然地理条件,后天的制度、体制以及文化,当然,经济发展水平和政治民主程度也是影响竞技水平不可或缺的因素。虽然奥林匹克运动一直去政治化,但不可回避的是,竞技水平同时也是一个国家(地区)展现外部形象,进而提升国际影响力的一个途径。这些因素对竞技水平的影响是隐形的和复合的,其间的关系是不直接的弱关系,能否通过对奥林匹运动的考察,立足于逻辑实证主义的视角,对奥运会结果的相关数据进行从表到里的挖掘,寻找这些因素间的内在机制。奥运会奖牌数在地理空间存在较强的集聚效应(cluster effect)吗?人均GDP和总GDP与奥运奖牌数存在正相关吗?这种正相关是整体的,还是局域的?每个国家(地区)的气候影响其获得的奖牌数吗?是不是越热的地区,获得奖牌数越少?一个国家(地区)的民主程度影响其获得的奖牌数吗?是不是越民主的国家获得的奖牌数越多?诸如南亚大国印度在历届奥运会上的表现都不如人意,对于这样一个人口基数大、综合国力较强、经济总量很大的国家为何与她的体育水平不匹配?这一点不免让人产生好奇、诧异,这也正是本文所要讨论的。

当然,撇开上述这些问题,仅仅就学理性的问题探讨,寻找奥林匹运动数据中较普适性的法则,是任何一个对奥林匹克运动感兴趣的数理学者关心的问题。社会中的普适性法则不同于自然界,自然界中的法则是不变的,故自然界的普适性的法则较易寻找;社会中的研究,因文本是易变的,故其语境下孕育的普遍法则,更多的是一种轨迹或者分布上的普适性,在此考察与奖牌榜相对应的奖牌数,即奖牌榜序下的奖牌数的分布函数是否具有对时间和空间变换的结构或总量的不变性,即奖牌数量可能在不同国家之间随机游走,但是,奖牌数量在不同国家之间的总体分布是否维持着基本不变的性状,无论哪届奥运会都呈现相同的分布形式?抑或是这种分布随时间变化的比较缓慢?奖牌数下的国家个数是否也呈现一种普适性分布,分布函数是一种L型的分布,还是在水平部分带有诸多小峰的L型分布?以时间尺度较短的“天”为单位,是不是奖牌获得越多的国家,其更新的路径越平滑,间歇性越短,阶梯数越多;而获得奖牌越少的国家,奖牌量的更新路径越曲折,阶梯性越强,阶梯越少,间歇性越久?奖牌数量的分布存在不均匀性,而这种类似贫富差距的不均匀的程度有多大,能否采用测度贫富差距的基尼系数加以计量?本文将围绕这些问题加以展开。

1 奖牌数的空间分布

奖牌(本文所指“奖牌”主要是指金牌)在空间上如何分布,是否呈现一些普适性的法则,如空间的聚集效应,这是对奥运会奖牌进行的学理性探讨。奖牌在空间上如何分布,同样对政策的实施也具有重要作用。为形象的表述奥运会奖牌在空间上的分布,在此统计了我国2002—2012年三届奥运会出现的奖牌运动员的籍贯,根据籍贯对各省、自治区、直辖市进行分类排序。把全国各省份分为6类,第1类表示最近三届奥运会累计贡献的奖牌运动员数大于20名的省份,这类有辽宁省;第2类表示累计贡献的运动员大于15小于等于20的省份,有江苏省和山东省;第3类主要是累计贡献奖牌运动员大于10而小于等于15的省份,有北京市和广东省;第4类主要是累计贡献奖牌运动员大于5而小于等于10的省份,有上海市、浙江省、福建省、四川省、湖北省;第5类贡献奖牌运动员数量大于等于1小于等于5的省份,有黑龙江省、吉林省、河北省、陕西省、河南省、安徽省、江西省,湖南省、重庆市、贵州省以及云南省;第6类没贡献一名奖牌运动员的省份,为余下的省份。这样划分存在没有对各类内部再排序的问题,特别是第5类上,但基本能说明问题。

贡献奖牌运动员较多的省(区、市),呈现出明显的空间聚集效应。最多的集中在东部沿海区域,东部沿海以辽宁省为首,空间上相近的江苏省和山东省为一类,浙江省和福建省为一类,而天津市和北京市差别不是太大,这些几乎占据了一、二、三以及四类,故东部区域内空间聚集效应呈现模块化;次之是中部区域,中部区域以湖北省为中心,累计贡献9名奖牌运动员,中部省(区、市)基本上属于第5类,但山西省是一例外,没有贡献获得奖牌的运动员,基本上在地理空间上相近的区域,在贡献奖牌运动员上也呈现明显的空间聚集效应;最次之是西部广大区域,而西部的西南区域奖牌运动员贡献相对较多且集中,最多为四川省,贡献了9名,几乎西南各省(区、市)对奖牌运动员都有所贡献,同为第5类,这表现为在空间上的另一聚集效应,但西北除陕西省外,几乎都是空白,同样呈现明显的空间聚集效应。综合来说,对奖牌运动员的贡献顺序依次为东部的北部区域,东部的南部区域,中部的南部区域,中部的北部区域、西南区域以及西北区域。

同样为获得奥运奖牌在世界范围内分布的信息,以2012年各国(地区)获得奖牌数为样本,对世界各国(地区)重新聚类,同样通过奥运数据在地理空间上的分布,挖掘数据里面所蕴含的信息,观察奖牌数量在地理空间上的分布是否存在普适性的规律。在此分为8类:第1类是奖牌数量大于40的国家(地区),在此有美国;第2类奖牌数量大于30小于等于40的国家(地区),在此有中国;第3类是奖牌数量大于20小于等于30的国家(地区),在此有英国和俄罗斯;第4类是奖牌数量大于10小于等于20的国家(地区),在此有德国、法国以及韩国;第五类是奖牌数量大于5而小于等于10的国家(地区),在此有澳大利亚、日本、哈萨克斯坦、意大利、匈牙利以及乌克兰;第6类是获得的奖牌数量大于1而小于等于5个的国家(地区),在此有巴西、南非、伊朗、土耳其、白俄罗斯、波兰、西班牙以及埃塞俄比亚等;第7类是获得奖牌数量为1的国家(地区),在此有加拿大、墨西哥、阿根廷、瑞典等;第8类是没有获得奖牌的国家(地区)。发现获得奖牌数量越少的国家(地区),与其获得相同或者相近奖牌数量的国家(地区)就越多,相反则反之。总之,随着类数的增大,类里的国家(地区)个数在不断增加,没有获得奖牌的国家(地区)高达150多个,获得奖牌的仅54个国家(地区)。

图1 2012年奥运会世界各国(地区)获得的奖牌(金牌)数量分布示意图Figure 1. 2012Olympic Games,The Distribution of the Number of Gold Medals that Countries Receive

从图1可看出,奖牌获得最多的区域主要集中在欧洲区域,几乎欧洲的大多数国家(地区)都获得了奖牌,而科技水平、教育以及幸福程度较高的芬兰,竟然没有获得一枚,同样,人均GDP最高的卢森堡也没有获得一枚;获得最少的大陆应该属于非洲大陆,且非洲大陆上,奖牌获得的区域具有明显的模块化和聚集效应,即集中在3个区域——东非高原、南非高原以及靠近地中海的阿尔及利亚和突尼斯,其他是一片空白;获得奖牌最少的地域是南亚和东南亚,这个区域几乎没有获得一枚奖牌,与其经济总量、经济发展速度及人口总量是不相称的;对比之下,较有意思的是加勒比海上的国家(地区),获得的奖牌数量之多,同样与其国土、经济发展水平以及人口总量也是不相称的;分量较大的是东北亚和大洋洲,就是中国、日本、韩国、朝鲜以及澳大利亚、新西兰,获得的奖牌数量都很可观;令人惋惜的是加拿大和巴西,同样获得的奖牌数量与国土、经济发展水平以及人口是不相称的;当然,阿拉伯世界除去伊朗之外,多少还是有点获得的奖牌数量与经济发展水平不相称,如海湾石油富国,像沙特、阿联酋以及卡塔尔等,没有一枚奖牌。

从图1还可以看出,在空间上具有很强的簇聚效应,就是在空间上邻近的区域,获得的奖牌数目差不多。较典型的如阿尔及利亚和突尼斯,埃塞俄比亚、肯尼亚以及乌干达,委内瑞拉、哥伦比亚以及墨西哥,古巴和牙买加,德国和法国,伊朗和土耳其,白俄罗斯和波兰,当然澳大利和新西兰也较相似。这源于其所处地理空间相似,示范性效应易于传递,同时地理空间的邻近,诸如气候的自然地理条件,引致风俗以及饮食结构相同,生理结构和信仰较为相似,进而经济发展水平和政治文化背景也较为相似,这就是所谓空间上簇聚效应的内在原因。

表1 2004—2012年三届奥运会各大洲的奖牌(金牌)数量分布一览表Table 1 The Distribution of the Number of Gold Medals in all Continents in 2004—2012 (枚)

2 奖牌分布中所蕴含的普适性法则

奥运数据背后是否隐藏着普适性的法则,这是很多研究奥运的专家以及统计学家等关心的话题。在挖掘历届和本届奥运会数据中的信息时,发现两种较普适性的分布:一是奖牌排行榜数据和奖牌获得量数据中所凸显的呈现阶梯性下降的幂函数分布形式;二是奖牌数量下国家(地区)个数的分布函数在水平区段呈现很多小峰的L型分布。

图2表示,奖牌榜下奖牌数的分布函数,其呈现向右稍微倾倒的L型分布,若对这个分布深度挖掘,可以把这个分布分为3个部分:第1部分就是排名靠前的国家(地区),随着排行榜名次的下降,奖牌数呈现较平滑的极速下降,即不存在停顿性的间歇,获得的奖牌数很少出现相同;第2部分是排名较靠前的区域,随着排行名次的下降,奖牌数目出现了阶梯性的停顿间歇性下降,就是获得相同奖牌数目的国家(地区)个数逐渐增大,且排名越靠后,获得相同奖牌个数的国家(地区)的个数越多;第3部分就是稍微向右倾斜的L型的水平部分,此部分的区域一枚奖牌都没有获得,即获得相同奖牌个数的国家(地区)最多,故其呈现水平的形式。

图2 本研究奖牌榜与奖牌(金牌)数之间的关系示意图Figure 2. The Relationship between the Number of Medals and Medals Table

这种近L型的分布具体呈现何种分布形式,能否找到一个具体的函数加以拟合这些现实的数据,进而生成一经验上的公式。对经验公式以及普适性分布感兴趣,这是科学的追求,也是探讨学理性问题的需要,因其具有对变换的不变性,实际点,还可以更好的为预测和控制服务。在此加以尝试寻找一种经验分布,即一种普适性的分布。通过对2008年奥运会、2012年奥运会以及其他年份的数据拟合发现,上述分布基本符合最低次数为-2,最高次数为0的幂函数形式

图3 本研究2008年和2012年按奖牌量排序与此序下奖牌(金牌)占总奖牌比例的散点图及拟合曲线图Figure 3. 2008and 2012,the Sequenceand the Ratio of the Scatter Plot and Fitted Curve

这是一多项式函数,包含自变量的零次幂、负一次幂以及负二次幂的形式,也就是每一种序下获得的奖牌数量占总奖牌数量的比例,不仅与位序的负一次方存在关系,还与位序的负二次方存在关系,而对2008年以及2012年的数据计算机拟合结果如下所示:

上述法则不论对于年份,就是说无论哪一届奥运会,这种分布都具有相对稳定性,即对时间变换下的不变性(invariance)。同时,获得的金牌、银牌以及铜牌数目同样具有上述特征,即对奖牌变换的不变性;当然,不论是伦敦奥运会,还是北京奥运会,还是将来的里约热内卢奥运会,依然还会呈现这种法则,即具有对空间变换的不变性。总之,这种分布具有对时间、空间及文本变换的不变性。

图4 本研究奖牌(金牌)获得数量下国家(地区)个数的分布图Figure 4. The Distribution of the National Number in the Number of Gold Medals

从图4的两幅图可以看出,虽然是两届不同的奥运会,但是奖牌数量下国家(地区)个数的分布是一种较普适性的近似L型的分布(L Distribution),这种L型又不同于传统的L型分布,即在L发生转折的过程中,波动较为剧烈,并出现一小峰(Hinata)。接近水平的区域部分,存在很多小峰,当奖牌比较少的时候,这些小峰比较高,随着获得奖牌数量的增加,小峰的高度逐渐趋于变低,进行一致。为清晰陈述,在图形中,专门对这个水平区域进行放大,使之更清晰看到这些小峰。这些小峰分别代表不同的国家(地区),且小峰表示的国家(地区)获得的奖牌数都比较多,小峰很多是孤立的,如果忽略这些小峰,单纯把这种分布看做L型的,将遗失掉很多重要的信息。

这些间接说明存在奖牌数量差距,初始奖牌比较少时,国家(地区)个数的比例从一个很高的值,近似垂直衰减下来,就是拿奖牌比较少的国家(地区)特别多,如73%的国家(地区)一枚金牌都没拿,58%的国家(地区)一枚奖牌都没拿,奖牌被少数的国家(地区)占有,如不到10%的国家(地区),竟然拿走将近80%的奖牌,说明奖牌分配严重不均匀,这也说明为什么奖牌数量下国家(地区)个数的分布是一个存在很多小峰的近似L型分布。近似垂直部分说明,奖牌数获得较少的国家(地区)比较多,且获得奖牌数越少,则国家(地区)越多;近似水平的部分,并且其上存在很多小峰,说明奖牌仅仅被个别几个国家(地区)拿走,这些国家(地区)占所有参赛国家(地区)比例很小,这是为什么水平上凸显小峰的原因。同样,上述L分布不论对于年份,就是过去哪一届奥运会,都会呈现这样的分布形式,即具有对时间变换稳定性的性质;同时,总奖牌数和银牌、铜牌数目,依然符合上述分布,这种分布具有对时间即届次以及对文本依然成立的性质。

3 奖牌分配的不均匀程度

在经济学中存在资源分配的不均匀性(heterogeneity),而衡量资源分配不均匀性通常采用广义的基尼系数(Gini coefficient),就是累计人口的比例与累计资源比例数据生成的图形与45°线围成的面积占45°线与坐标轴围成的面积之比。无论在自然界还是人类社会,无论是对自然资源还是社会资源,都不是绝对均匀的分布,而是存在一定分配的不均匀性,这时对这种不均匀程度的测量就采用广义的基尼系数。在此对2008年北京奥运会以及2012年伦敦奥运会奖牌数量分布的不均匀程度进行测量。首先,按照国家(地区)获得奖牌量从少到多排序,计算出国家(地区)个数的累计比例量,把其当做坐标横轴,进而计算出相应的奖牌数量的累计数的比例值,当做纵轴,把这些国家(地区)个数的累计比例数和奖牌个数的累积比例数在图5中绘制出来,同时绘制出45°线。

图5 本研究2008年和2012年两届奥运会奖牌分配的不均匀程度示意图Figure 5. Medal Assigned Degree of Inhomogeneity in the 2008—2012Two-time Olympic

从图5可以清晰看出,国家(地区)累计数比例高达73%时,这些国家(地区)获得的奖牌数占总奖牌数的比例值还是零,并且,2008年的北京奥运会和2012年的伦敦奥运会所呈现的分布曲线基本相似,都在国家(地区)数累计73%之前,获得的奖牌数累计的比例为零。这给计算奖牌数分布不均匀性的广义基尼系数提供了思路。因为,基尼系数的计算是分布曲线与45°线围成的面积占45°线以下面积的比例。分布曲线和45°线围成的面积可以看做45°线以下面积减去分布曲线以下面积,而分布曲线以下的面积包括两部分:第一部分面积是在累计国家(地区)个数比例值73%之前的区域,这部分区域没有一枚奖牌,故这部分区域的累计面积为零;另一部分是累计国家(地区)个数达到73%以后,这部分分布曲线与坐标轴围成的面积不为零,故如果能计算出这部分面积,就可知道分布曲线和45°线围成的面积,即拿45°线以下的面积减去这部分区域的面积,则基尼系数的计算:

又由于45°线与坐标轴围成的面积已知,就是一等腰直角三角型的面积,而这个三角形的腰长是一个单位,这部分的面积根据面积计算公式可得:

最终对奖牌数量分布不均匀的计算归结到对分布曲线在区间[73%,1]的区段内与坐标x轴围成的面积的计算,而对这部分面积的计算,首先要知道分布曲线的具体函数形式,故采取做出这些累计的国家(地区)个数的比例与累计的奖牌数量的比例的数据组的散点图,然后,对这个散点图进行曲线拟合,找到这部分分布曲线的具体函数形式,而这部分曲线基本符合下述公式,为了把这个函数包含前一部分为零的区域,在此记住分段函数,即:

图6 本研究分布曲线的部分拟合结果示意图Figure 6. Fitting Results of the Portion of the Distribution Curve

因分段函数前半部分是恒为零,故计算出来的面积也为零,其不影响最终的计算值。在此只需要计算分段函数的后一部分,给出拟合曲线来,然后计算此拟合曲线与坐标轴围成的面积,通过拟合,则2008年奥运会以及2012年奥运会的拟合获得的曲线分别为:

为计算分布曲线与坐标轴围成的面积,就归结为对上述分段函数的积分,而积分的计算如下:

对分布曲线面积计算出来以后,拿上述45°线与坐标轴围成的面积减去这部分面积,得分布曲线和45°线围成的面积,再拿着这部分面积比45°线下的面积,就得出类似基尼系数的奖牌分配的不均匀程度系数,分别为:

从这些系数可以看出,奖牌分配极其不均匀,说明大多数奖牌被极少数的国家(地区)拿走,以2012年为例,获得奖牌的仅为54个国家(地区),而剩下150个参赛国家(地区)竟然没拿到一枚。在经济学中,0.5的基尼系数是很危险的,意味着社会中贫富差距很严重,如果不处理就会出现社会矛盾。从上述分析结果还可以看出,2012年奥运会的基尼系数比2008年奥运会的增大了,但在此不知道是趋势还是短期波动,还有待于观察的深入。反过来利用衡量贫富差距的指标测度奖牌分配的不均匀程度,即奖牌的基尼系数,当然生成这种图形取决于奥运机制和本国(地区)自身的特点,而奖牌数据背后差距的机制,相反可为理解贫富差距提供隐喻,就是奖牌的生成机制和经济资源的生成机制应较为相似。

4 奖牌数的更新法则

对社会中数据的挖掘,在时间尺度上一般是以月、季度、年以及十年为单位,而对尺度更短的若秒、分、小时以及天,尺度更大的半个世纪、百年以及千年,这个研究谱段上却很少涉及。为了更深、更广的的窥探到数据中所蕴含的普遍性法则,在此以2012年奥运会为例,连续观察16天每个国家(地区)奥运奖牌的更新,进而以天为单位加以挖掘信息,寻找其中所蕴含的更新法则。

从图7以可看出,3幅图都呈现随着时间增加,奖牌数量不严格上升的趋势,虽然中间会出现间隙(interval)的性质。这3幅图形的区别是:第1幅一直上升,上升幅度较平稳,间隙时间较短,路径较为光滑;第2幅图虽一直上升,但表现出来阶梯性(ladder)的间隙,间隙时间比第1幅图的长;第3幅图上升较慢,间歇时间最长,明显的出现大阶梯。把这3幅图作为一个序列来看,就是根据奖牌获得量的多少,奖牌数量更新的曲线逐渐的变得不平滑,阶梯数变少,即上升的速度变慢;一个阶梯变长,即在上升过程中,间歇时间越来越长,即呈现阶梯性上升。奖牌越多的国家(地区),阶梯数越多,且每阶梯的长度较小,间歇的时间较短,越看不出阶梯,行进越平滑。总之,随着奖牌数获得的减少,越来越呈现大Z型的阶梯性推进路径。

图7 2012年伦敦奥运会奖牌榜1~4、9~12以及20名以外的国家(地区)每天获得的奖牌(金牌)数示意图Figure 7. 2012,The Medal Standings,in Some Countries the Number of Gold Medals Daily Obtained

这种在时间上奖牌获得的簇聚效应,即一会儿没有奖牌,一会儿连续来几个奖牌,源于奖牌获得少的国家(地区),参赛项目单一,优势项目也单一,赛事有一个规则,一个项目一般集中在一段时间。故如果参赛国家(地区)项目单一,并且这个项目实力比较强,就会呈现出明显的簇聚效应,而其他项目没有参与,或实力不强,一旦这个项目结束后,奖牌总数会出现长时间间歇,等待另一参赛或者优势项目的出现,故呈现上升缓慢,间歇性较长,即阶梯数较少且长,表现曲线不光滑的特性。获得奖牌数量比较多的国家(地区),参赛项目较多,优势项目也多,即使赛事使得项目分布较为分散,但其每天都可以获得奖牌,使得奖牌数得以更新,最终表现出阶梯数较多,间歇时间较短,即曲线一直上升且比较光滑的特性。

上述阶梯性的更新法则,能否找到一个函数把这个阶梯路径拟合出来,最先想到的就是简单函数(simple function)。给出路径的具体曲线形式,在此仅仅给出这样一个更新函数,这个函数具体模拟现实的结果,不再做出。以一个国家(地区)为考察对象,考察获得的奖牌数的更新,可这样设想:一个国家(地区)在这16天内任一天,不妨设第t天获得奖牌数包括两部分:一部分是截止到昨天累计获得的奖牌数,一部分是今天所获得的奖牌数。今天获得的奖牌数取决于参赛项目以及这些参赛项目获得奖牌的数目,就是今天要想获得奖牌,则必须有参赛项目,同时这些参赛项目获得奖牌,故今天获得的奖牌数是所有今天参赛项目并且这些项目获得奖牌的数目,可以用下述一个更新方程加以表示

5 奖牌数中所蕴含的其他法则

进一步挖掘奖牌数据中所蕴含的其他规律性的东西,下述较为零散的考察气候对奖牌获得数的影响,总GDP、人均GDP以及民主程度分别对各国家和地区奖牌数量获得的影响,同时考察奖牌榜上各个国家(地区)男性和女性分别对国家(地区)获得奖牌数的贡献度。当然,在此仅仅是唯象考察,而其中的内在传递机制还未深究。

不同的气候类型造就不同的风俗文化以及信仰,不同的气候造就不同的包括饮食习惯的生活方式,这会引致拥有共同的生理构造,进而相近的体质以及与这种体质相近的锻炼方式,进而相近的体育项目。同时,也会促使选择相近的社会体制,如政治制度、文化氛围,进而使得对体育的爱好以及某些体育项目重视程度相近。从图8可以看出,具有热带气候的国家(地区)和区域获得奖牌数小于具有温带气候的国家(地区)或者区域。而热带气候里面获得奖牌数从低到高依次是热带沙漠、热带雨林、热带季风、热带草原以及亚热带季风;温带气候里面近似依次是地中海气候、温度季风气候,温度大陆气候以及温度海洋气候。而图中展现的如温度海洋获得的奖牌数量不如温度季风获得的多,在此的排序更多指具有这种气候类型的区域。

奖牌数前10名的国家(地区),除去第1名和第2名外,男性对奖牌的贡献度基本上大于女性;10~20名前,男性比女性对奖牌数量的贡献度大,但基本上呈现贡献的聚集效应,就是无论是男性还是女性贡献大的倾向在位序上靠近,如男性贡献大的集中在14~18名,而女性集中在11~13名;在20~30位序间,同样,男性贡献的比例大于女性,当然也呈现聚集效应,女性贡献度集中在21~22位序区间,男性集中在18~20位序区;而在30~40位序之间,女性的贡献大于男性,聚集效应不是那么明显;排名在40~50名之间的国家(地区),男性贡献明显超过女性,呈现聚集效应,整体上男性贡献大于女性的。按照经济发展水平,也就是经济总量最大的3个国家(美国、中国、日本),对奖牌贡献大的是女性,而非男性,具体的内在机理有待进一步考察。

图8 本研究气候与各个国家(地区)获得奖牌(金牌)数的关系示意图Figure 8. The Relationship between Climate and the Number of Gold Medals

图9 本研究男性和女性对各国家(地区)获得奖牌(金牌)数的贡献示意图Figure 9. Men and Women Contributing to the Number of Gold Medals

总GDP和获得的总奖牌数量仅仅是在某个区段上呈现传统认为的正相关,而非在整个区段上这个命题都成立,即获得的总奖牌数与总GDP呈正相关,但这种法则的成立也仅仅是在某个区段上成立,而非所有区段。对于总GDP大于3 000亿美元的国家(地区),按照从高到低排序,相应获得的总奖牌数量基本与总GDP位序呈现正相关,就是位序越高的国家(地区),获得的总奖牌数量近似越多,拟合方程为 :

总GDP小于3 000亿美元的,却呈现较为随机的特性,这个区段上的获得的奖牌数量和总GDP位序间关系的解释,不能仅用经济因素就能解释,如先天的自然禀赋等,这些因素无法用后天经济因素加以完全替代。

人均GDP与奖牌数量间的关系更为随机。从图10的第2幅图中可以看出,奖牌数量的峰部呈现模块化,且这些峰分布在人均GDP的不同片段上,同时,其间差距很大。如果人均GDP与奖牌数量存在关系,那这种关系也是弱关系(Weak Ties)。可以说,人均GDP高的区域,就是作为一个整体区域,而不是某一部分,获得的奖牌数相对人均GDP较低的整体区域可能会多点。当然,奖牌数量与总GDP的关系上也是在某个区段上成立,奖牌数量与人均GDP的区段关系(Section relationship),没有总奖牌与GDP的区段关系强烈,当然,这种关联的性质更多是局部的整体性,而非局部的局部上的。

图10 总GDP量及人均GDP与奥运会奖牌数间的关系示意图Figure 10. The Relationship between the Amount of Total GDP and GDP Per Capita and the Number of Olympic Medals

表2 本研究人均GDP高的国家(地区)与人均GDP低的国家(地区)获得的奖牌数对比一览表Table 2 Comparison of the Number of Medals in Countries with High and Low Per Capita GDP

可以看出,人均GDP将近100 000美元的挪威,不如仅有350美元的埃塞俄比亚获得的奖牌数量多;人均GDP 80 000美元的瑞士和人均GDP仅850美元的肯尼亚相近;人均GDP最高的卢森堡和人均GDP最低的乌干达差不多,说明人均GDP对奥运奖牌的获得不是最重要的因素,如果有关系,其间也是弱关系,或者是局部的整体关系。

奖牌获得量与民主程度无直接的关系,即无在整体上呈现正相关或者负相关,但这也并不意味着没有关系。这种关系对不同民主程度上集体模块来说,展现为不同的关系。完全民主的国家(地区),获得的奖牌数量最多;集权的国家(地区),获得的奖牌量次之;较民主的国家(地区)获得的奖牌数量再次之;而较集权的国家(地区),获得的奖牌数量最少。总之,越民主的区域获得的奖牌数量越多,越集权区域获得的奖牌数量也相对越多,而中间无太多民主的区域,获得的奖牌数量相对较少,呈现左提的U型分布。

6 结束语

通过对上述奥运会数据进行唯象分析发现:在地理空间上,奖牌数量的分布具有明显的簇聚效应,也就是地理空间上相近的区域,获得奖牌数量较为相近,获得奥运奖牌和没有夺取奥运奖牌的国家(地区)、获取奖牌数量多和获取奖牌数量少的国家(地区)在地理空间上呈现在某一区位上集中的态势,即地理位置相近国家(地区)之间形成具有板块集聚的性状。在世界奖牌的地理空间分布上发现,东北亚地区、北美洲和中美洲地区、北欧和西欧地区,这些板块在奥运会上表现得都不错,南亚和东南亚地区、南美洲地区、南非洲、西亚地区等这些板块在奥运赛场上表现平平;同时发现,中国近三届奥运奖牌运动员的籍贯依次集中在东部、中部和西南,东部的北部比南部多,中部的南部比北部多,西北部的西南比西北多,西北部除去陕西省以外是空白。

奥运数据中存在对时间、空间及文本变换的结构和总量的不变性,表征为按照从高到低排列的奖牌榜的序与此序下获得的奖牌数的分布函数符合一最低次数为-2,最高次数为0的幂函数分布;奖牌数下的国家(地区)个数的分布函数,近似符合一个水平区段存在诸多小峰的L型分布,并且这种L型的分布在自然界和社会中普遍存在,如人口数下的国家(地区)个数分布,这也同社会和自然中广泛存在多数资源被极少数主体占有类似。在为天的时间尺度上,获得奖牌越多的国家(地区),奥运奖牌更新越频繁,即更新路线平滑,间歇性短,阶梯数越多;获得奖牌越少的国家(地区),更新慢,阶梯较少,且间歇性较长。为测度奥运奖牌分配的不均匀程度,引入计算贫富差距的基尼系数,发现如今奥运奖牌分配不均匀程度高达89%,社会中50%不均匀程度是警戒线。

图11 本研究民主程度与奥运奖牌数间的关系示意图Figure 11. The Relationship between the Degree of Democracy and the Number of Olympic Medals

本研究还发现,气候越热的区域,获得奥运奖牌数越少,根据不同的热带气候划分,获得奖牌数从低到高依次近似为热带沙漠、热带雨林、热带季风、热带草原以及亚热带季风,在温带里面获得的奖牌数从低到高依次为地中海气候、温带季风气候、温带大陆气候以及温带海洋性气候。同时发现,在奖牌榜上前10名的国家(地区)里,第1名和第2名的奖牌获得数量中,女性贡献超过男性,而其他是男性贡献超过女性;在总GDP排名前3名国家(地区)中,也是女性对奖牌量贡献超过男性。总GDP与奖牌数量在局部上存在正相关,此局部表现为总GDP大于3 000亿美元的区段内,其他区段上不存在明显的关系;而人均GDP与奖牌数量的关系更是很弱,只能说人均GDP高的区域比人均GDP低的区域获得奖牌数多,但在局部上不存在这种关系。同时还发现,一个国家(地区)民主程度与其获得的奖牌数的关系表现为,越民主的区域获得的奖牌数越多,越集权区域获得的奖牌数量相对较多,而中间无太多民主的区域,获得的奖牌数量相对较少。

当然,本文还有诸多不足,如对影响奖牌数量的分析仅仅是单因素分析;人口基数、人口结构、东道主效应等也是影响奖牌获得量的重要因素,但本文中并没有具体陈述;另外,不同国家(地区)对体育事业的支持力度也没有直接的测度标准,而这里根据总量GDP和人均GDP的差异,间接地进行替代和补充,进而进行计量分析。总之,本文分析还停留在唯象的层面,但为什么呈现这种表观,还有待于对其内部机制、机理研究的深入和跟进。

[1]吴殿廷,吴颖.2008北京奥运会中国奖牌赶超美国的可能性——基于东道主效应的分析和预测[J].统计研究,2008,25(3):61-65.

[2]夏力.第23—29届奥运会我国奖牌项目地域分布特征[J].体育成人教育学刊,2012,28(1):69-71.

[3]杨秉龙.中国获得奥运会奖牌特征分析[J].山西大学学报(哲学社会科学版),2010,33(5):165-170.

[4]张洪潭.北京奥运启示录[J].体育与科学,2009,30(2):1-8.

[5]张宇,张建玮,王正行.金融市场中幂律分布的经验和理论研究进展——经济物理学研究的一个前沿[J].物理,2004,33(10):734-740.

[6]张玉超.第29届奥运会中、美、俄奖牌分布特点及其启示[J].体育学刊,2009,16(2):82-84.

[7]H E STANLEY.Econophysics:Can physicists contribute to the science of economics?[J].Physica A,1999,269(1):156-169.

[8]MARK B.It’s a(stylized)fact![J].Nature,2012,478(8):3-4.

[9]XAVIER G.A theory of power-law distributionsin in fiancial market fuctuations[J].Nature,2003,423(5):267-270.

The Phenomenological Laws Highlighted by the Data behind Olympic Medals—From Data Mining Perspective

YANG Hua-lei,ZHOU Xiao-bo

The Olympic data like the number of gold medals in the space rest upon the cluster effect,that is approximately the same number of gold medals obtained by the similar area on the geospatial;meet the level of section with many countries.The number of gold medals embodied peak L-type distribution,the distribution in nature and society is a large class of universal distribution;gold medal in the medals table sequence number coincided with the power function distribution,which is similar to the power law distribution of price fluctuations in financial markets;the number of gold medals uneven degree of approximation is about 89%,more than 50%of social vigilance of Gini coefficient;a daily update of the data path of Olympic gold medal is the Z-curve,there are intermittent ladder rise;the hotter climate of the region,gained the smaller number of medals,on the contrary the opposite;the number of gold medals positively related to total GDP,set up only in a section;GDP per capita contribution to the number of gold medals is the nature of the region as a whole,but it does not exist in the local section of the apparent regularity all zoning,according to per capita GDP between the two,the high per capita GDP of the region won the gold medal count;more democracies and more authoritarian countries won the gold medal more,others less,and most democratic region than in the most autocratic region won more gold medals,that is left U-shaped.

clustereffect;powerfunctiondistribution;L-typedistribution;climate;democracy;Ginicoefficient

G80-05

A

1000-677X(2012)10-0003-09

2012-08-22;

2012-09-17

杨华磊(1986-),男,河南平舆人,在读硕士研究生,主要研究方向为数理统计学和经济物理学,E-Mail:hualei0928@gmail.com;周晓波(1988-),男,安徽六安人,在读硕士研究生,主要研究方向为空间计量经济学,EMail:ddhizhouxiaobo@hotmail.com。

兰州大学经济学院,甘肃兰州730000

School of Economics,Lanzhou University,Lanzhou 730000,China.

①其中n(t)是截止到第t天获得的奖牌数,ai(t)表示第t天的第i个参赛项目,其取值为0或者1,bi(t)表示第i个项目是否获得奖牌,其取值也为0与1,m(t)表示第t天总参赛的项目。

猜你喜欢
奖牌数量区域
首枚奖牌!
分割区域
基于BM3D的复杂纹理区域图像去噪
那枚来之不易的奖牌
统一数量再比较
区域发展篇
角:开启位置与数量关系的探索
头发的数量