陈 俊 蔡付斌 肖碧云
(景德镇陶瓷学院,江西 景德镇333403)
聚类分析(Cluster Analysis)是根据事物本身的特性来定量研究分类问题的一种多元统计分析方法。其基本思想是同一类中的个体有较大的相似性,不同类中的个体差异较大,于是根据一批样品的多个测量指标,找出能够度量样品(或变量)之间相似度的统计量,并以此为依据,采用某种聚类法(Method),将所有的样品(或变量)分别聚合到不同的类中。
聚类分析使用的方法大致分为两类:系统聚类法(Hierarchical Clustering)和非系统聚类法(Non - hierarchical Clustering),前者用于所给数据所分类别数目未知的情形,后者用于所给数据所分类别数目已知的情形。本文选择系统聚类法。
在实际应用中,根据分类对象的不同有样品(Case)聚类(又称Q 型聚类)和变量(Variable)聚类(或称R 型聚类)之分。前者对样品(或事件)进行分类,后者以变量为单位进行聚类。本文选择前者进行聚类。
目前进行聚类分析的软件很多,SPSS、SAS、R、S -plus、Matlab 等,本文采用SPSS18.0 测试版进行聚类分析,其基本步骤如下:
第一步,选择分析变量,生成变量矩阵X =(xij),i =1,2,…,n,j=1,2,…,p,n、p 分别为样本数和变量数。
第二步,数据标准化。本文采用标准化变换来消除各变量间的量纲。具体做法如下,通过标准化公式
将原始数据X=(xij)变换为X*=(x*ij),其中,Sj为第j 个变量的样本标准差。经过这样标准化变换后的数据,每个变量的样本均值为0,标准差为1,与变量的量纲无关。
第三步,选择距离或相似系数的计算公式,生成距离矩阵或相似矩阵作为相应的聚类统计量,距离主要用于样品分类,相似系数主要用于变量的分类。本文是对样品进行分类,所以选择欧氏距离平方作为聚类统计量,其矩阵表达形式为:
其中,p 为变量个数,i=1,2,…,n 为样品数目。
第四步,选择聚类方法,将距离最近的两个样品合成一类。本文选择离差平方和法(WARD 法)进行聚类,WARD 法必须采用欧式距离计算。当Gp和Gq合并为Gr后,Gr与其他类Gk的距离递推公式为:
其中,nk、np、nr和nq分别为Gk、Gp、Gr和Gq各类中样品的数目。
第五步,重复上述步骤,直至所有样品归为一类。
第六步,输出聚类结果和系统聚类图,并根据实际情况、分类准则等得出最终分类结果。
数据的收集一般分为一手资料和二手资料两大类,一手资料是指研究者本身为了其研究目的经过自身搜集整理或直接经验所得,一手资料是经过研究者实地考察、亲身走访搜集的实证研究资料;二手资料是指某些特定研究组织受企业、政府等机构委托,对于一手资料进行调查统计的资料。二手资料包括各地年鉴、企业统计报表、产业统计便览、地图等。
本文考虑二手资料的可得性以及年鉴的可靠性,选择《江西省统计年鉴》中的数据,选取2007—2009年(整理)江西省各地市旅游多种指标作为本文分析数据,经过多种变量组合聚类分析的结果比较,最终采用X·1=国内游客数(人次),X·2=外国游客数(人次),X·3=香港游客数(人次),X·4=澳门游客数(人次),X·5=台湾游客数(人次),X·6=旅游收汇(万美元),X·7=星级饭店数目这7 个指标进行聚类,得到11 ×7 矩阵X:
该矩阵的行向量的分量分别表示江西省各地级市,具体X1·=南昌市,X2·=景德镇市,X3·=萍乡市,X4·=九江市,X5·=新余市,X6·=鹰潭市,X7·= 赣州市,X8·=吉安市,X9·=宜春市,X10·=抚州市,X11·=上饶市。
在SPSS 软件中实现聚类过程时,系统聚类共输入11个样本,有效样本为11 个,且没有缺失值的存在,所得到聚类统计量用如下距离矩阵D 表示:
与原始矩阵X 的行向量相对应,元素d11表示南昌与南昌的距离,d12表示南昌与景德镇的距离,d13表示南昌与萍乡的距离,以此类推。由距离矩阵,我们发现萍乡和宜春的相似性最大(即距离d39最小),其次是宜春和抚州,接着是抚州和新余,以此类推,新余和九江之间的差距最大。
值得注意的是,根据距离矩阵只是将11 个样本分成10 类,随后在新的10 类中SPSS 将再次根据离差平方和法计算新的类间距离矩阵D10×10,并根据D10×10将10 类分成9 类,在此基础上重复前述方法计算聚类统计量,直将11 个地级市按照WARD 距离法一步一步分类的过程可以如图1 所示的谱系聚类图看出,图中横轴表示距离,纵轴表示样品,即11 个地级市。
图1 江西各地区谱系聚类到将所有样本分为一类,SPSS 便会输出最终聚类结果。
从谱系图中,我们不难看出,萍乡和宜春首先归为一类,此后抚州也被归为这一类,然后赣州和吉安归为一类,景德镇和上饶归为一类,依次类推,最终将这11 个城市归为四类:萍乡、宜春、抚州和新余属于综合以上7 项指标相对较低的一类,景德镇、上饶、鹰潭和南昌为次低的一类,赣州和吉安为相对较高的一类,九江属于相对最高的一类。
在对江西各市发展旅游产业制定区域对策时,可以根据这种聚类,对同一类中的城市建立联盟,共同发展,对不同类型的城市,采取高一级的带动低一级的城市发展的整体区域规划。具体而言:在处于同一类的城市中,一方面,在发展目标上,共同以高一级的城市旅游发展现状为目标;另一方面,各城市旅游业的各类资源实现共享和互补,旅游产品及市场的开发与推广策略,可以互相参照,以联盟的方式形成规模,达到缩减成本、创造共同收益的目的。在处于不同类型的城市中,较低发展水平的以较高发展水平为目标,较高发展水平以“手拉手”的形式带动较低发展水平的城市,呈现链条反应,以缩小差距。具体来看,要从以下几点来做:
1. 萍乡、宜春、新余以及抚州四市旅游业发展状况相似度较高,且同位于江西省中部,故而在制定旅游发展规划或政策时就应该在基础设施建设、旅游线图设计、旅游产品开发、信息共享方面协同考虑。
2. 景德镇、上饶、鹰潭以及南昌四市旅游业发展状况相似度较高,而且这四个地区均位于江西省第一个国家战略“环鄱阳湖生态经济区”,因而在制定旅游业发展规划时,要充分考虑国家对该区“生态文明与经济社会发展协调统一、人与自然和谐相处的生态经济示范区和中国低碳经济发展先行区”的要求,并结合该地区所具有的自然生态资源禀赋,大力发展绿色生态家园旅游业。
3. 赣州、吉安与九江旅游业发展状况相似度较高,且位于江西省北部与南部,因此要注重以旅游业发展程度相对较高的九江旅游业的发展经验指导规划赣州、吉安的旅游业发展,并且在江西省南北部的旅游业基础设施建设、旅游业空间布局等方面加强协作,以期贯穿整个江西省全景,进而带动江西省旅游业的发展壮大。
江西省在其11 个地级市的旅游区域规划方面,应注意联系九江旅游业发展的先进经验,注重联系赣州及吉安的旅游业发展,并结合南昌、景德镇、上饶及鹰潭旅游业资源的区位及政策优势,而萍乡、宜春、抚州及新余旅游业的发展则要紧密跟随其他地级市旅游业发展进行科学规划与发展。
此外,以上分类仅从市场数据入手,只能从整体上对江西省旅游业发展给出区域对策,每个城市旅游的特色不应被这些市场数据所表现出的共性所掩盖。
[1]高惠璇. 实用统计方法与SAS 系统[M]. 北京:北京大学出版社,2001.
[2]张立军,任英华. 多元统计分析实验[M]. 北京:中国统计出版社,2008.
[3]李仲来. 系统聚类分析中应注意的两类问题[J].数理统计与管理,1993(6).
[4]于春燕. 吉林省海外旅游流统计分析[M]. 东北师范大学,2006.
[5]李晓丹,吴杨伟. 构建环鄱阳湖旅游圈旅游业增长极的实证研究[J].改革与战略,2009(11).
[6]刘勇. 基于资源整合提升的江西省旅游发展战略创新研究[J]. 江西农业大学学报(社会科学版) ,2012(3).
[7]邱荣飞,林坤. 江西旅游发展现状分析与策略探讨[J].企业经济,2011(9).