戴钰璁+王清华
摘要:综合运用时间序列指数平滑法、一元线性回归和层次分析法等数据挖掘方法,预测第32届奥运会奖牌榜排名。首先从纵向的角度,利用奥运会历史成绩数据,运用时间序列指数平滑法预测出第32届奥运会主要国家地区的金牌占比排名;然后从横向的角度,采用一元线性回归方法,分析国内生产总值与奥运会金牌数量之间的关系;在归纳了影响奥运会奖牌榜排名的主要因素的基础上,采用层次分析法,建立了综合预测模型,并根据历史成绩、国内生产总值、人口、东道主的排名,计算出了有望在第32届进入前十的14个国家地区的得分,最后预测了奖牌榜排名前十名的国家,并进行了拓展分析,研究结果对我国备战第32届奥运会具有一定的参考价值。
关键词:奥运会奖牌榜排名;国内生产总值;人口数量;东道主;指数平滑法;一元线性回归;层次分析法;R语言;Excel
中图分类号:G811.8 文献标识码:A 文章编号:1009-3044(2017)26-0215-05
Abstract:This paper focus on predicting the 32nd Olympic Games medal ranking by data mining methods including exponential smoothing of time series, linear regression and analytic hierarchy process. First, we use history medal counts to predict the gold medal rankings of the major countries in the 32nd Olympic Games by exponential smoothing method. Then, the relationship between GDP and Olympic gold medal counts by linear regression is studied by linear regression. Based on such results, a comprehensive forecast model is established using historical Olympic medal counts, GDP and rankings of Olympic host by analytic hierarchy process, and scores for the 14 countries that is possible to be the top 10 of the 32nd Olympic Games is calculated. Finally, top 10 is predicted through the scores, and extensive analysis is provided. Our results shed light on the preparation of the 32nd Olympic Games for China.
Key words:olympic Games medal ranking; GDP;olympic host; exponential smoothing of time series; linear regression; analytic hierarchy process;R;Excel
1 概述
奧林匹克运动会(在本文中的奥运会特指夏季奥运会,简称奥运会)是目前世界规模最大的综合性运动会,奥运奖牌榜排名是各个国家和地区人们在奥运会期间热议的话题,也是从事体育运动相关人员在备战第32届奥运会特别关注的问题,那么第32届奥运会奖牌榜排名情况如何,特别是奖牌榜排名前十名是哪些国家呢?本文运用数据挖掘的方法,对第32届奥运会奖牌榜排名进行了预测分析。
国内不少学者对奥运会奖牌榜问题进行了相关研究。王宇鹏,许健等对奥运会奖牌榜影响因素进行了实证分析,以20-28届夏季奥运会的数据为样本,建立了多变量计量经济模型,定量分析了国家经济实力、人口数量、东道主效应、人种、文化传统、国家体制等6个奥运会奖牌榜的影响[1];郭爱民、赵明发根据第25届至第30届连续6届奥运会奖牌排前十的国家获得的金、银、铜牌数量,建立了GM(1.1)模型,并计算出第31届奥运会十国金、银、铜牌数量并给予排序[2]。赵慧娟通过回归方程定量分析GDP与奥运会奖牌数量的关系,预测第30届奥运会前五名国家的排名[3]。这些研究成果主要是研究影响奥运会奖牌榜排名影响因素,或是建立预测模型计算奖牌数量,但是由于每一届奥运会设置的奖牌总数不同,而且影响奖牌获取的因素很复杂,很难精确预测各国将获得的奖牌数量,通过单一的线性回归分析方法存在较大的预测误差。本文在总结这些研究成果的基础上,利用各个国家和地区奥运会历史成绩、国内生产总值、人口等数据,综合运用时间序列指数平滑法、一元线性回归和层次分析法,对第32届奥运会奖牌榜排名进行了预测。具体的研究思路包括以下四个步骤。
(1) 数据准备
利用R语言编写了网络爬虫程序(程序详见附录),从国家体育总局官网爬取了第1届到第30届奥运会奖牌榜(官网只有第1届到30届奖牌榜数据)[4],从奥林匹克运动会官网下载了第31届奖牌榜数据,并对历届奖牌数进行了汇总,并计算了在第31届排名前14国家和地区在第23届到第31届金牌占比1,并保存到Excel文件中。从联合国数据中心官网下载了2015年人口数据[5],从世界银行数据库官网下载了2015年国内生产总值数据[6],从国际货币基金组织数据库官网下载了2016年至2020年的GDP预测数据,对下载数据进行整理,并保存到Excel文件中[7]。endprint
(2) 纵向分析
根据第23届到第31届奥运会奖牌金牌占比数据,利用R语言指数平滑预测函数ets对近几届排名靠前的国家和地区,逐一进行指数平滑预测。
(3) 横向分析
通过Excel工具,利用一元线性回归分析方法,分析国内生产总值对奥运金牌数量的影响。
(4) 利用层次分析法,建立预测模型
①影响奥运会奖牌榜排名因素分析
借鉴其他学者的研究成果,归纳总结影响奥运会奖牌榜排名的主要因素。
②建立层次分析模型
根据影响奥运会奖牌排名的主要因素,建立判断矩阵,利用R语言权重计算程序,计算权重,并进行一致性检验。
③计算分值,得出结论
根据历史奥运成绩、国内生产总值、人口和东道主排名得出各个国家和地区的分数,再根据权重,计算总分,然后排序得出排名。
2 利用奥运会历史成绩纵向分析
奥运历史成绩是由时间要素和不同时间上的数据要素组成,具有鲜明的时间序列性质,因此可以采用时间序列分析方法,通过对不同时间数据的动态变化和发展过程进行定量分析,时间序列趋势的测定主要有[8]:时距扩大法、移动平均法、趋势回归法和指数平滑法。时距扩大法和移动平均法可以绘制出趋势线,并定性地判断出长期趋势方向,但这两种方法不能给出数据变量随时间的定量关系,因此不适合用来进行预测,在本文中采用指数平滑法进行预测分析。
由于我国从第23届正式参加奥运会,俄罗斯从第26届开始参加奥运会,因此分析以第23届到第31届夏季奥运会的历史数据为主。通过国家体育总局官网爬取和整理数据,得到第23届至第31届主要国家地区金牌占比,如表1所示。
2.1 指数平滑法预测模型
采用趋势回归方法虽然可以运用趋势方程进行预测,但由于所有的预测均基于同一趋势回归方程,无法对时间序列的变动做出反应。指数平滑法采用时间序列本期的实际值与前期对本期预测值得加权平均作为本期的预测值,相当于用本期的实际值对预测值进行不断地修正,以适应数据的变化。预测的前提是过去存在的各种因素的影响和发展趋势在今后继续下去,适用于中短期预测[8]。
由公式(1)可知,每期的预测结果需要通过t期实际值和t期预测值来计算。因此,指数平滑法预测需要确定平滑系数a值。一般的方法是以a=0.1开始,依次加大进行试算,计算预测误差[i=1nYi-Y*i],找到最小的平滑系数a值。R语言的forecast包中的ets()函数,可以自动选取对实际数据拟合优度最高的模型和平滑系数[12]。
2.2 分析结果
利用R语言的ets函数和数据可视化函数编写的预测程序,对表1所示数据,计算出了第32届预测结果及误差,如表2所示,并给出了各个国家和地区的时序折线图、正态Q-Q图、预测直方图(限于篇幅,在此选略)。
根据表2指数平滑预测分析结果,第32届奥运会金牌占比由多往少的顺序是:美国、中国、英国、俄罗斯、德国、意大利、法国、韩国、日本、澳大利亚、匈牙利、巴西、西班牙、荷兰。
从程序计算给出的正态Q-Q图、预测直方图来看,模型的残差基本满足均值为0的正态分布,预测模型比较合理。但是由于影响各个国家获得的金牌占比因素很多,历届数据变化大,因此预测误差还是比较大。指数平滑预测的结果只能作为预测的参考依据,不能作为预测最终排名。
3 利用国家综合实力进行横向分析
奥林匹克运动是国家综合实力的竞争,既是国家经济实力的竞争,也是体育人才的竞争。奥林匹克运动需要国家投入巨大的人力、物力和财力支撑。良好的经济基础可为运动员提供较好的训练条件、生活条件和物质奖励,使得运动员具有更高的积极性,得到更好的训练。一般用国内生产总值(GDP)来衡量国家综合实力。根据GDP和金牌数据,采用线性回归分析方法,定量分析GDP与获得金牌的关系。
3.1 一元线性回归分析模型
Excel提供了回归分析功能。利用Excel,根据GDP和金牌数量画出散点图,增加线性趋势线,由Excel自动计算出拟合方程和拟合度[R2],再利用Excel回归分析工具计算出拟合优度和误差。
3.2 分析结果
以2015年各国的GDP和2016年召开的第31届夏季奥运会奖牌榜数据为例,分析GDP对奥运奖牌数量的影响,具体数据如表3所示。
回归分析结果如图2所示。
从图1、图2可见,回归系数为0.0002,相关系数R2为0.7846,通过显著性水平为0.0005的t检验,因此生成的模型具有统计学意义。由模型可以看出GDP和金牌数量呈正相关。
4 综合分析
影响奥运会奖牌榜排名因素很多,因此需要综合考虑多种影响因素,建立能预测响奥运会成绩的综合数学模型。本文运用层次分析法,建立奥运奖牌榜排名预测模型。
4.1 影响奥运会奖牌榜的主要因素
对于奥运会奖牌榜排名的影响因素研究已经有不少学者进行了深入探讨,综合这些学者的研究结果主要是[1,2,3]:除了国家经济实力因素以外,其他影响奥运会奖牌榜排名的主要因素包括人口数量、東道主效应、人种、地区文化传统。
人口数量。各种体育人才的概率分布在各个国家和地区是大体相当的,人口基数越大,拥有优秀运动员的数量越多,在奥运会获得奖牌的概率就越大。
东道主效应。竞技体育中的“东道主效应”是运动员在自己的国家参加比赛能取得更好的成绩。一是东道主国家运动员熟悉生活环境、运动场所和比赛环境,有利于比赛水平的发挥;二是有更多的观众加油助威,有利于充分发挥运动员的潜力;三是东道主国家的运动员由于部分项目可以直接进入决赛阶段,从而有更多的参赛机会。从第23届奥运会到第31届奥运会来看,东道主国家的排名都比较靠前,如表4所示。endprint
人种。人类一般划分为蒙古人种、尼格罗人种和高加索人种3类。不同人种的体格特征擅长不同的体育运动,造成了在奥林匹克运动的不同优势。蒙古人种或称黄种人擅长技巧类项目。尼格罗人种或称黑种人擅长田征等耐力项目。高加索人种或称白色人种在田径、球类、游泳和力量型项目比賽中占据着天然优势。
文化传统。由于不同的文化和历史传统等因素的影响,各个国家和地区普及和爱好的运动项目不同,导致各个运动项目的后备人才的数量和质量存在差异,从而影响各个国家在奥运会的表现。
4.2 层次分析法预测分析
预测第32届奥运会奖牌榜排名,除了考虑历史成绩以外,还要考虑其他影响因素。从前面的分析可知,影响预测结果的因素很多,但人种和文化传统等因素难以量化,因此本文选取国内生产总值、人口和是否是东道主三个因素,以及历史成绩预测结果,采用层次分析法建立预测模型。
4.2.1 构建判断矩阵
[Ai]表示历史成绩、国内生产总值、人口和是否是东道主四个因素,[wi]表示权重,采用层次分析法的“1~9标度法”(如表5所示),对因素[Ai]和[Aj]进行相互比较判断,构建判断矩阵A[11],如表6所示。
4.2.2 计算权重,进行一致性检验
利用R语言编写的权重计算程序[12](限于篇幅,在此选略),计算得出各项权重Wi=(0.545 0.315 0.100 0.040),矩阵的相容性检验CI=0.047,相容性指标CR= 0.052,通过一致性检验。
4.3 预测结果计算
设预测结果总分为100分,4个因素的分值分别为100分。各个国家和地区的各项分值根据排名计算,排名第一的得100分,排名第二的得98分,排名第三的得96分,依次类推。历史成绩采用第二节预测的排名数据,人口数据采用2015年人口数据,国内生产总值GDP数据采用国际货币基金组织数据库2016年至2020年的预测数据的平均值,排名靠前的14个国家的得分情况如表7所示。
5 结论及分析
根据表7,第32届奥运会奖牌排行榜前十名预测结果如表8所示。
从表8排名结果也可以通过以下证明:
(1) 美国是体育强国,从第1届奥运会到第31届奥运会,美国有16次排名第一,9次排名第二,2次排名第三。美国排名第一的可能性较大。
(2) 根据中国历年奥运会成绩,是逐年稳步上升。而且第32届在邻国日本东京举办,将会有更多的观众到现场加油助威,生活环境、比赛环境对我国奥运会运动员水平的发挥非常有利,因此,中国有望“保二争一”,排名可能超过美国。
(3) 根据英国历年成绩预测,英国排名逐年稳步靠前。但英国启动脱离欧洲进程,可能对英国经济和社会有一定的影响,英国预测排名第三。
(4) 第32届奥运会在日本东京举办,是东道主,具有天时地利的优势,而且其GDP处在世界前列,排名会较第31届奥运会大幅进步,预测排名第四。
(5) 从德国近几届成绩来看,排名处于第五和第六之间。德国排名第五的可能性较大。
(6) 从俄罗斯历年成绩来看,俄罗斯的排名逐年小幅靠后。排名第六的可能性较大。
(7) 从法国历年的成绩来看,法国排名稳步靠前,法国排名第七的可能性较大。
(8) 从最近几届奥运会来看,意大利排名在第八或第九,在第32届排名第八的可能性较大。
(9) 从韩国历年的成绩来看,排名比较稳定,且小幅靠前。另外第32届奥运会在同在亚洲的日本东京举办,生活环境、比赛环境对韩国运动员水平的发挥有利,预测排名第九。
(10) 从最近几届奥运会来看,巴西排名逐年大幅靠前,与澳大利亚竞争排名第十。
注释:
1.金牌占比是某个国家和地区在某届获得的金牌数所占当届设置的金牌总数的比例
2.预测区间值由程序计算结果有负数,按照现实情况手工改为0
参考文献:
[1] 王宇鹏,许健等.奥运会奖牌榜影响因素的实证分析[J].统计研究,2008(25):57-62.
[2] 郭爱民,赵明发.基于灰色理论预测2016年夏季奥运会金牌榜次序[J].中国科技信,2013(9):173-174.
[3] 赵慧娟.预测奥运会奖牌方法——以2012奥运会为例[J].科技创新导报,2014(23):254-254.
[4] 国家体育总局.http://www.sport.gov.cn/n318/n359/n410/c242528/content.html
[5] 联合国数据中心.http://data.un.org/Default.aspx
[6] 世界银行数据库.http://data.worldbank.org/data-catalog/GDP-ranking-table
[7] 国际货币基金组织数据库官方网址:http://www.imf.org/external/chinese/
[8] 马军.Excel统计分析典型实例[M].北京:清华大学出版社,2009.
[9] 虞枫.基于指数平滑法的需求预测[J].物流工程与管理,2011(3):77-78.
[10] 杨嘉.各国奥运会金牌数量的影响因素分析[J].江西理工大学学报,2012(33):116-118
[11] 百度百科.http://baike.baidu.com/link?url=7bqiCWUAhdp8CHVE7wofnMqpSuYxqdy-WKMaltmM2EEP3nUaSHfH6—isyKaioNVBe_PFdhHI3aK-AjEPtWOA1Ycx9vCzQIBw1a6iKO7dXG[EB/OL],2016.12.
[12] Robert L Kabacoff.R语言实战[M].王小宁,黄俊文.译.北京:人民邮电出版社,2016.endprint