影响RFA高尔夫产业发展的因素分析与对策

2011-01-10 13:01段永桓王洪礼李飞鹏
关键词:高尔夫球场高尔夫森林

段永桓,王洪礼,李飞鹏,2

(1.天津大学管理与经济学部,天津300072;2.天津大学建筑设计规划研究总院,天津300072)

一、高尔夫产业的影响因素分析

1984年,中国的第一个高尔夫球场建立,打开了中国现代高尔夫运动发展的序幕。1985年,中国高尔夫球协会在北京成立。在随后的几年里,中国高尔夫产业发展迅速,高尔夫球场数量也迅速增加。21世纪,中国的高尔夫产业迎来了快速发展时期,高尔夫球场数量的年增长率高于20%[1]。

高尔夫产业发展的影响因素有很多,经济因素是影响高尔夫产业发展的主要因素[2]。研究表明,我国高尔夫产业的发展始终与区域经济同步增长[3]。本文选取反映经济发展的四个重要经济指标:一是国内生产总值(GDP);二是第三产业增加值;三是固定资产投资;四是居民消费水平。GDP反映该国或地区的经济和社会发展水平,是衡量经济发展综合水平通用的指标,同时也是宏观经济中最受关注的经济统计数字。第三产业增加值占国内生产总值的比重是一个重要的统计指标,它反映一个国家或地区所处的经济发展阶段,反映经济发展的总体水平。固定资产投资是社会固定资产再生产的主要手段。固定资产投资额是以货币表现的建造和购置固定资产活动的工作量,它是反映固定资产投资规模、速度、比例关系和使用方向的综合性指标。居民消费水平是指居民在物质产品和劳务的消费过程中,对满足人们生存、发展和享受需要方面所达到的程度,通过消费的物质产品和劳务的数量和质量反映出来。由人均GDP决定的居民消费水平是影响高尔夫球俱乐部发展的重要经济指标。同时,旅游业的发展也在较大程度上推动着高尔夫产业的发展。目前,我国高尔夫旅游发展迅速。因此,考虑选择旅游人数和旅游消费作为旅游业指标。

二、随机森林算法

随机森林算法(RFA)是Breiman(2001)[4]提出的一种分类和预测模型,它在许多领域预测方面得到了应用,例如天文学、微阵列、药物发现、癌细胞分析等[5]。RFA主要是它有以下5大特点:一是较少的参数调整;二是不必担心过度拟合;三是适用于数据集中存在许多自变量;四是能够估计哪个自变量在分类中更重要;五是当数据集中存在大量的噪音时,同样可以取得很好的分类性能。RFA模型是许多决策回归树(CART)集成在一起的分类或者预测器,如果把决策回归树看成分类或者预测任务中的一个专家,那随机森林就是许多专家在一起对某种任务进行分类或者预测。随机模拟实验证明,随机森林在分类或者预测中对各个类别的分类和预测性能比较好,也比较稳定。

随机森林是通过自助法(Bootstrap)重采样技术,生成二叉树。自助法是一种重抽样技术,通过对样本的经验分布进行随机再抽样,得到Bootstrap子样本,然后再进行统计量的估计,很多统计量已被证明该方法满足大样本的相合性[6]。自助法是从原始的样本容量为N的训练样本集合中随机抽取N个样本生成新的训练样本集,抽样方法为有放回抽样,这样重新采样的数据集不可避免地存在着重复的样本。独立抽样k次,生成k个相互独立的自助样本集。

(1)从原始训练数据中,应用Bootstrap法有放回地随机抽取k个新的自助样本集。并由此构建k颗回归树,每次未被抽到的样本组成了k个袋外数据(outof-bag,OOB)。

(2)设总共有mall个自变量,则在每一棵树的每个结点处随机抽取mtry个变量,mtry≤mall。然后在mtry个变量中选择一个最具有分类能力的变量,变量分类的阈值通过检查每一个分类点确定。

(3)每棵树按照递归自分算法最大限度地生成,不做任何剪裁。

(4)将生成的多棵树组成随机森林,用随机森林对新的数据进行分类与回归,分类结果按树分类器的投票多少而定。回归以这些树的均值计算。在随机森林构建过程中,自助样本集用于每一棵树的形成。每次抽样生成的OOB被用来预测分类的正确率。对每次预测结果进行汇总得到正确率的OOB估计,然后评估整个森林判别的正确率。

在随机森林中,生成每一棵树时,所应用的自助样本集从原始的训练样本集中随机选取,每一棵树所应用的变量从所有mall个自变量中随机选取,从而使得随机森林有较稳定的正确率,可以应用袋外数据来衡量分类器的正确率。随机森林通过在每个结点处随机选择自变量进行分支,最小化了各棵分类树之间的相关性,提高了分类正确性。因为每棵树的生长速度很快,所以随机森林的分类速度很快,并且很容易实现并行化,同时生成许多分类树。

三、高尔夫产业发展影响因素重要性分析

针对影响高尔夫产业发展的6项指标,利用随机森林算法,对其重要性进行分析。

本文以我国高尔夫球场数量来表征高尔夫产业的发展,6项影响指标分别为国内生产总值(GDP)、第三产业增加值、固定资产投资、居民消费水平、旅游人数和旅游消费。数据来源于《中国统计年鉴》(1996—2009年)[7],具体数据见表1。为了消除各个因子由于量纲和单位不同带来的影响,对样本的输入和输出变量分别用下式进行规范化处理,即

式中:zi和yi分别为规范前后的变量;zmax和zmin分别为z的最大值和最小值。

表1 高尔夫球场数量及经济和旅游指标数

随机森林由R语言的Random Forest包完成。随机森林中最重要的参数是mtry,它表示在每次分割中,随机选取候选变量的个数。mtry的建议值是整个自变量个数的均方根,较好的方法是在不同mtry值下,利用袋外数据(OOB数据)计算经验损失误差,也称为OOB误差,从中选择误差最小的mtry值。

随机森林提供两种计算自变量重要性方法:一种是随机变换计算重要性;另一种是纯度改变计算重要性。对于随机变换方法,如果要计算自变量的重要性,在OOB样本数据中,只是随机改变自变量的值,所有森林中每颗树的拟合类型改变的OOB样本个数的平均值就是自变量的原始重要性得分。另外一种计算变量重要性的方法是计算自变量的纯度改变量,纯度的计算方法一般是Gini纯度或者残差平方和。

为了表示各个变量对于高尔夫球场的影响程度,可以考虑部分自变量对整个函数的偏相关性。高尔夫球场数量与各个变量的偏相关情况如图1所示。

从图1的计算结果可以看出,在影响高尔夫产业发展的6个分析因素中,固定资产投资是决定高尔夫产业发展的最重要因素(见图1d),原因在于本文所分析的数据是采用高尔夫球场的数量表征高尔夫产业的发展,而高尔夫球场的建设与固定资产的投资息息相关。当国家加大固定资产的投资力度时,高尔夫球场的建设乃至高尔夫行业的发展都会加速。

国内生产总值是仅次于固定资产投资的第二个重要指标,国内生产总值反映了国家综合经济水平的增长速度,经济高速增长的支撑下,高尔夫产业也会蓬勃发展(见图1a)。旅游消费和旅游人数是影响高尔夫产业发展的重要指标,旅游消费市场的规模较大程度上决定了高尔夫旅游市场的规模和高尔夫消费的人群,从而间接影响着高尔夫球场乃至高尔夫产业的发展(见图1e和图1f))。居民消费水平和第三产业增加值对于高尔夫球场数量的影响程度较小(见图1b和图1c)。

图1 高尔夫球场数量与各个变量的偏相关

四、结 语

改革开放30多年经济的快速发展为我国高尔夫运动及其相关产业提供了良好的发展环境。中国高尔夫球场的年平均增长速度为26.4%,达到了GDP增长速度的3倍。在我国经济稳定增长的同时,高尔夫产业也存在持续的发展空间。本文分析了影响我国高尔夫产业发展的主要因素,基于机器学习的随机森林算法,对影响我国高尔夫产业发展的不同因素的重要性进行分析。研究结果表明,固定资产投资规模对高尔夫产业的发展影响最大,其次是国内生产总值,旅游消费和旅游人数对于高尔夫产业也有一定的影响,居民消费水平和第三产业增加值对于高尔夫球场数量的影响程度较小。

[1] 刘宗现.中国高尔夫产业分析[D].北京:中国农业科学院,2008.

[2] 付 冰,周申立,郝百强.试论中国高尔夫旅游的发展与规划[J].哈尔滨商业大学学报:社会科学版,2006(1): 60-63.

[3] 詹新寰,靳英华,詹国勇.中国高尔夫产业市场集中度与市场绩效的分析[J].北京体育大学学报,2009(9):25-28.

[4] Breiman L.Random forests[J].Machine Learning,2001,45(1):5-32.

[5] 张世英,李 琦.非线性检验及预测在污水处理厂评价中的应用[J].天津大学学报:社会科学版,2010,12(7): 318-321.

[6] Singh K.On the asymptotic accuracy of efron’s bootstrap[J].The Annals of Statistics,1981,9(6):1187-1195.

[7] 中华人民共和国国家统计局.中国统计年鉴(1995—2008年)[M].北京:中华人民共和国国家统计局,1996:20

猜你喜欢
高尔夫球场高尔夫森林
高尔夫MK7.5的 10位对手
高尔夫球场遇险
中国高尔夫球场全名单
哈Q森林
哈Q森林
里约奥运高尔夫球场遭水豚啃食
哈Q森林
哈Q森林
高尔夫
休闲高尔夫