孙 燕,王伟伟,张志恒
(1.北京大学城市与环境学院,北京 100871;2.兰州大学资源环境学院,甘肃兰州 730000)
基于PCA+GRNN+SOFM的入境旅游空间分布研究
孙燕1,王伟伟2,张志恒2
(1.北京大学城市与环境学院,北京100871;2.兰州大学资源环境学院,甘肃兰州730000)
摘要:选取2011年中国31个省级行政区的入境旅游数据,先采用GRNN,SOFM方法对原始数据进行系统聚类,初步分析其空间分布特征,并基于GRNN网络得出合适步长,在此基础上采用主成分分析(PCA)方法实现变量关系的正交,以排除变量间共线性对分析结果的干扰,然后结合GRNN,SOFM方法对数据进行系统聚类.结果表明,采用PCA+GRNN+SOFM的方法可以较好地解释中国入境旅游的空间分布格局,并且空间分布呈现明显的“人”字形格局特征.
关键词:入境旅游;GRNN;SOFM;PCA;系统聚类;空间分布
入境旅游是指非本国居民基于愉悦、商务或其他目的,离开惯常环境到访某一特定地区持续时间不超过一年的访问活动[1].当前,对入境旅游的研究主要集中在入境旅游的空间分布格局,入境人口在时空上的流动过程,入境旅游集聚和分散过程以及危机事件或者重大节日、活动对入境旅游的影响效应[2-16].同时,一些学者对不同国籍的游客在旅游过程中的行为进行了研究,还有一些研究者集中于探究入境旅游发展变化的影响因素[17,18].
对中国入境旅游空间、时间上的变化特征进行分析,目前采用的方法多种多样,主要集中于集中指数、扩散指数、社会网络分析方法、空间场、位序-规模分布、Theil系数、优势度、改进熵值法、重心法等方法.文中选取了中国31个省级行政区的入境旅游人数(人次)、停留天数(d)、国际旅游收入(万元)数据,结合利用主成分分析方法(PCA)、径向基函数方法(RBFN)和自组织特征映射方法(SOFM),来解释入境旅游的空间分布特征.
1研究背景、数据来源与研究方法
1978年以来,统计数据显示来我国旅游的外国游客人数蹿升,同时国际旅游收入也不断增加.1978年,过夜入境旅游人数71.6万人次,国际旅游收入2.63亿美元,这个时候我国的入境旅游发展状况在世界上还很靠后,基本榜上无名.1980年,我国过夜入境人数已经达到350万人次,排世界18位;国际旅游收入6.17亿美元,排世界34位.2011年,我国的入境旅游人数达到了5 758.07万人次,国际旅游收入达到484.64亿美元,分别排世界第3位和第4位.统计数据表明,1978—2011年,我国的入境旅游人数翻了80倍,同时国际旅游收入翻了200多倍.在全球国际合作和交流不断加强的时代,研究入境旅游的发展规律和空间分布特征具有重要的现实意义.
文中从《中国统计年鉴2011》中摘取了31个省级行政区的入境旅游人数(人次)、停留天数(d)和国际旅游收入(万美元)的统计数据,在数据结果分析中用自组织特征映射神经网络(SOFM)对原始数据进行聚类,再采用径向基函数神经网络(RBFN)对数据进行分析,并采用主成分分析方法(PCA)对数据进行聚类,最后采用主成分分析(PCA)、径向基函数的神经网络(RBF)与自组织特征映射(SOFM)相结合的方法进行分析.其中在SPSS 19.0中聚类的时候,采用系统聚类法中的类平均法或者组间链接法(between linkage groups),并且采用欧式距离平方(square Euclid distance)的方法.
2原始数据的分析
2.1基于SOFM网络的入境旅游空间分布特征
自组织特征映射网络(SOFM)是一种无监督类的学习网络[19],当不能获得外部数据和评判指令时,网络只要输入样本数据就可以进行无监督机制的学习.SOFM网络在输入样本之后进行无监督的竞争学习,使得功能相同的输入靠得比较近,而功能不同的输入靠得比较远.因此基于SOFM的格局分类的自组织特征,输入原始的入境旅游人数、停留天数、国际旅游收入数据,在MATLAB(R2009a)中运用newsom函数构建网络,最大训练次数达到1 000,误差达到MATLAB(R2009a)中默认的值.由于MATLAB(R2009a)中定义的网络结构不同,可能的分类结果会呈现一些差异,因此对31个省级行政区入境旅游的空间分布格局进行了大体的判断之后,认为分为6种或者5种类型比较符合研究的实际,所以构建隐含层的网络结构为3×2,6×1,5×1的形式,最终输出结果如图1~3所示.
图1采用SOFM(3×2)分析图2采用SOFM(6×1)分析图3采用SOFM(5×1)分析
Fig 1The SOFM(3×2) analysisFig 2The SOFM(6×1) analysisFig 3The SOFM(5×1) analysis
从图1~3可以看出,东中西3大地带之间具有明显的地带性特征,东部分布差异最大,中西部的差异则比较小,这与汪德根等的结论相一致[9].从总体上看,采用SOFM分析入境旅游空间分布特征具有一定的借鉴意义.
2.2基于GRNN的入境旅游空间分布特征
图4GRNN步长=0.5的聚类结果图5GRNN步长=1的聚类结果图6GRNN步长=1.5的聚类结果
Fig 4Clustering results of GRNN (0.5)Fig 5Clustering results of GRNN (1)Fig 6Clustering results of GRNN (1.5)
径向基函数(Radial basis function, RBF)是沿着某种径向对称的标量函数,通常定义为空间中的任意一点到中心点之间的欧式距离的单调函数[20].GRNN是RBF中的一种,一般情况下包含3层:输入层、隐藏层、输出层.在MATLAB(R2009a)中编写程序前,需要对原始数据进行归一化,使归一化的数据在0~1,并且通过归一化的数据求出每一变量对应的最大值和最小值,构建权重矩阵,由于数据只有3×31个,所以只能建构3×3的权重矩阵.GRNN的输出层是31维的向量,其实是31个省级行政区入境旅游的评价值.GRNN网络在MATLAB(R2009a)默认环境下的步长(spread)为1,已有研究结果表明,不同的步长值会使输出的评价值变得平滑或者尖锐,步长值越大输出结果越平滑,步长值越小输出结果越尖锐.文中为了得到更好的结果,选取了步长=0.5,1,1.5分别进行研究.为了找出省级行政区之间的相似性和差异性,将GRNN人工神经网络的输出结果导入SPSS中,并且采用系统聚类的方法.分析结果如图4~6所示.
总体来看,采用径向基函数的方法不能较好地反映入境旅游在空间分布上的差异性和相似性.在步长为0.5和1.5的时候,只有东部少数几个省级行政区呈现出了合理的空间分布的异同.但是对于所有的中部和西部省级行政区来说,基本是一个一样化的特征.在步长为1的时候,分析的结果与前面采用原始数据进行SOFM分析的结果相似.
研究表明,选取步长为1的GRNN网络对中国31省级行政区进行研究,可以得到比较好的结论.
3加入主成分分析的结果
前面的研究中,并没有考虑数据之间的相关性,只是将入境旅游人数、停留天数、国际旅游收入全部作为变量代入所选用的方法中进行空间格局的研究.为了避免数据相关性对研究结果的影响,文中采用主成分分析方法(PCA)对原始数据进行降维、压缩,使变量之间呈现正交的关系.
首先对数据进行主成分分析,分析数据的相关性,并且分别提取3个主因子和2个主因子,其数据之间的相关性如表1所示,累计百分比和特征根如表2所示.
表1 数据之间的相关系数
表2 总的方差解释
从表1,2可以看出,人数与停留天数或者国际旅游收入与停留天数之间的相关性很小,但是人数与国际旅游收入之间的相关性很大,达到了0.90以上.从表2可以看出,当提取1个因子时,保留了原始变量的64.802%的信息;当提取2个因子的时候,保留了原始变量的97.074%的信息.
接下来对主成分的因子得分(1个主成分、2个主成分、3个主成分)直接在SPSS中进行系统聚类,然后提取2个主成分进行GRNN+SFOM聚类,进而分析31省级行政区在空间上的分布特征.
3.1基于PCA的入境旅游空间分布特征
在SPSS中首先进行主成分分析,保留因子得分,然后再进行系统聚类,结果如图7~9所示.
从图7,8可以看出,提取1个或者2个因子进行系统聚类来分析中国各省市入境旅游的变化是无能为力的.从图9可以看出,即使提取3个因子,也不能解释空间格局的分布规律,这与对原始数据直接进行系统聚类相比,并没有多大的差别.
对比发现,采用PCA的方法进行系统聚类,在变量比较少的情况下,试图揭示入境旅游空间分布格局,局限性比较大.
3.2基于PCA+GRNN+SOFM的入境旅游空间分布特征
图7提取1个因子时的聚类结果图8提取2个因子时的聚类结果图9提取3个因子时的聚类结果
Fig 7Clustering results of extracting 1Fig 8Clustering results of extracting 2Fig 9Clustering results of extracting 3
在第2节中,当GRNN网络隐藏层的步长定义为1时,会得到比较稳定的结果,而且效果比较好.前面已经表明,选取2个主成分时可以解释原始变量的97%的信息,并且可以消除变量共线性的影响,所以本研究中默认GRNN网络的步长为1,选取2个主成分.具体思路是先采用2个主成分在GRNN神经网络中进行评价,当然首先必须对2个主成分进行归一化处理,再根据归一化的数据定义权重矩阵.由于归一化的数据最大值是1,最小值是0,因此在定义权重矩阵时进行了一些技术上的处理,定义第二大的归一化值和次最小归一化数据作为权重矩阵的初始值,将其分2级,定义2×2的权重矩阵,再在MATLAB(R2009a)中进行编程分析,得出评价值.最后根据评价值构建SOFM网络,对31省级行政区的入境旅游进行分类,以便分析空间格局的变化特征,如图10~12所示.
图103×2聚类结果图116×1聚类结果图125×1聚类结果
Fig 10Clustering results of 3×2Fig 11Clustering results of 6×1Fig 12Clustering results of 5×1
从图10~12可以看出,采用PCA+GRNN+SOFM的方法研究中国31省级行政区入境旅游空间变化的特征,无论是采用SOFM网络中隐藏层的结构为3×2,6×1还是5×1,空间分布格局基本明确,均形成了以河北、内蒙古、黑龙江、河南、湖北、湖南、广西、海南、青海、新疆构成的“人”字形空间分布格局;以北京、天津、上海、广东为热点集聚省级行政区,并且辽宁、浙江、江苏的空间格局可分为一类.还可以看出,中国入境旅游呈现明显的地带性特征,空间分布东部省级行政区之间的差异比较大,西部省级行政区次之,中部省级行政区最小.这种空间分布格局可能是经济发展水平、地理区位因素、旅游资源禀赋差异及外向性因素和交通基础设施等作用的结果.
采用这种方法进行研究,可以较好地解释中国入境旅游在空间上的集聚和分散特征,同时可以找到区域之间的异同.
无论是分为5类还是6类,无论采取SFOM隐藏层结构是线状的还是网状的,最终分布格局是确定的.稍微的变化或许是网络隐藏层结构的变化在寻求集聚核的时候的扰动所致.
4结论与讨论
通过以上分析可知,在对原始数据进行分析时,采用SOFM分析入境旅游的空间分布特征,有一定的借鉴意义.采用径向基函数的方法不能较好地反映入境旅游在空间分布上的差异性和相似性.考虑到变量之间的相关性,为了消除变量之间的共线性,对数据进行主成分分析以达到数据正交、降维,由于2个主成分时可以解释原始变量97%的信息,所以选取2个主成分对31个省级行政区入境旅游空间分布格局进行研究.研究结果表明,PCA+GRNN+SOFM的方法,可以明显地反映出中国入境旅游空间分布格局,可以看出中国入境旅游呈现“人”字形的格局,以北京、天津、上海、广东为热点集聚区,并且辽宁、浙江、江苏的空间格局可分为一类;入境旅游空间分布呈现明显的地带性特征,东部省级行政区之间的差异比较大,西部省级行政区次之,中部省级行政区最小.这种空间分布格局可能是经济发展水平、地理区位因素、旅游资源禀赋差异及外向性因素和交通基础设施等作用的结果.
无论分为5类还是6类,对最终的空间格局的影响不是很大,关键在于GRNN网络中步长的确定以及消除变量之间的共线性.
参考文献:
[1]保继刚,项怡娴,吴永莹.北京奥运会对非举办地入境旅游的影响——以桂林阳朔为例[J].人文地理,2009,24(2):1-6.
[2]陈刚强,李映辉,刘娟.中国入境旅游规模分布特征及其变化[J].地理研究,2011,30(6):1044-1054.
[3]陈刚强,许学强.中国入境旅游规模空间分布变化及因素分析[J].地理科学,2011,31(5):613-619.
[4]李创新,马耀峰,张颖,等.时空二元视角的入境旅游流集散空间场效应与地域结构——以丝路东段典型区为例[J].地理科学,2012,32(2):176-185.
[5]李创新,马耀峰,张颖,等.1993—2008年区域入境旅游流优势度时空动态演进模式——基于改进熵值法的实证研究[J].地理研究,2012,31(2):257-268.
[6]李创新,马耀峰,郑鹏,等.基于STSM的入境旅游流集散地域结构特征分析——以中国入境旅游六大典型区域为例[J].地理科学,2011,31(5):620-626.
[7]刘军胜,马耀峰,李振亭.1997—2010年中部六省入境旅游流集散时空动态分析[J].地理科学,2013,33(4):450-456.
[8]马耀峰,林志慧,刘宪锋,等.中国主要城市入境旅游网络结构演变分析[J].地理科学,2014,34(1):25-31.
[9]汪德根,陈田.中国旅游经济区域差异的空间分析[J].地理科学,2011,31(5):528-536.
[10]王兆峰.入境旅游流与航空运输网络协同演化及差异分析——以西南地区为例[J].地理研究,2012,31(7):1328-1338.
[11]吴晋峰,潘旭莉.京沪入境旅游流网络结构特征分析[J].地理科学,2010,30(3):370-376.
[12]杨国良,张捷,刘波,等.旅游流流量位序-规模分布变化及其机理——以四川省为例[J].地理研究,2007,26(4):662-672.
[13]张郴,张捷.中国入境旅游需求预测的神经网络集成模型研究[J].地理科学,2011,31(10):1208-1212.
[14]马燕.近10年来新疆入境旅游市场时空动态变化研究[J].西北师范大学学报:自然科学版,2012,48(5):109-114.
[15]孙根年,周瑞娜,马丽君,等.2008年五大事件对中国入境旅游的影响——基于本底趋势线模型高分辨率的分析[J].地理科学,2011,31(12):1437-1446.
[16]孙根年,舒镜镜,马丽君,等.五大危机事件对美国出入境旅游的影响——基于本底线模型的高分辨率分析[J].地理科学进展,2010,29(8):987-996.
[17]肖星,李文兵,伍延基.丝绸之路入境旅游者空间行为浅析与旅游开发建议[J].甘肃社会科学,2002(2):115-117.
[18]赵东喜.中国省际入境旅游发展影响因素研究——基于分省面板数据分析[J].旅游学刊,2008,23(1):41-45.
[19]DISTANTE C,SICILIAN P,PERSAUD K C.Dynamic cluster recognition with multiple self-organising maps[J].PatternAnalysis&Applications,2002,5(3):306-315.
[20]卢艳秋,张公一,崔巍.基于RBF网络的TBT预警模型[J].情报科学,2007,25(10):1588-1592.
(责任编辑惠松骐)
E-mail:wangww13@lzu.cn
The inbound tourism spatial distribution based
on PCA+GRNN+SOFM
SUN Yan1,WANG Wei-wei2,ZHANG Zhi-heng2
(1.College of Urban and Environmental Sciences,Peking University,Beijing 100871,China;
2.College of Earth and Environmental Sciences,Lanzhou University,Lanzhou 730000,Gansu,China)
Abstract:This paper selected the 2011 inbound tourism data of 31 provincial level administrative regions in China to analyse the spatial distribution characteristics of inbound tourism through the GRNN,SOFM and hierarchical clustering method.Firstly,the suitable step length from the GRNN network is fixed,and then the principal component analysis(PCA) method is used to achieve orthogonal variable so that overcome the collinearity between the variables.In addition,the GRNN,SOFM and hierarchical clustering methods are applied to study the spatial pattern of Chinese 31 provinces.The results show that using PCA,GRNN and SOFM methods can explain the spatial distribution pattern of Chinese inbound tourism better.And the inbound tourism present obvious“human”glyph structure characteristics.
Key words:inbound tourism;GRNN;SOFM;PCA;hierarchical cluster;spatial distribution
中图分类号:F 592
文献标志码:A
文章编号:1001-988Ⅹ(2015)02-0099-06
作者简介:孙燕(1985—),女,甘肃兰州人,硕士研究生.主要研究方向为城市与区域规划.
基金项目:环保公益性行业科研专项(201209034)
收稿日期:2014-11-26;修改稿收到日期:2014-12-10