叶水仙 刘慧青 林国忠
摘 要:选用全国2011年31个省和直辖市的人口数据和经济数据,分别从一维、二维及多维进行聚类分析,结果表明,一维聚类分析反映各省不同指标的自然分布规律;二维聚类分析反映人口与相关指标的显著的相互关系与特征,多维聚类分析的分类结果综合性强,与公众认识的综合分类是一致的。由此认为,聚类分析得到的分类结果,可为政府和各职能部门在制定人口及各项地方性经济发展政策提供依据。
关键词:聚类分析 人口区划 数据挖掘
中图分类号:C92 文献标识码:A 文章编号:1007-3973(2013)005-184-03
1 前言
随着中国信息化进程的加速,各行各业每天都产生大量的数据,如何充分利用这些数据,更好地为人类生产和生活更好地服务?数据挖掘是一种不错的方法,数据挖掘又称数据库中的知识发现,是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。知识发现过程由以下三个阶段组成:(1)数据准备;(2)数据挖掘;(3)结果表达和解释。
聚类分析(Cluster Analysis)是一种数据挖掘方法,是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品或数据,要求能合理按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。目前在文献中存在大量的聚类算法,算法的选择取决于数据的类型、聚类的目的和应用。大体上聚类分析主要的算法可以分为:(1)划分方法;(2)层次的方法;(3)基于密度的方法;(4)基于网格的方法;(5)基于模型的方法。如果聚类分析被用作描述或者探查的工具,可以对同样的数据尝试多种算法,以发现数据可能揭示的结果。聚类方法广泛应用于各行各业。
人口是基础数据,是制定各项政策的依据。人口区划根据自然、经济、人口特征及相应的指标体系,对全国人口分布状况分区划片,并提出各区人口发展合理目标及相应的人口政策和措施,为全国和分区人口发展规划提供科学依据,并为国民经济计划和经济区划服务。20世纪80年代初,中国学者胡焕庸根据自然地理特征、人口密度、人口自然增长、人口迁移、耕地、粮食产量、劳动力等指标,将中国划分为八大人口区,即:黄河下游区,辽吉黑区,长江中下游区,东南沿海区,晋陕甘宁区,川黔滇区,蒙新区,青藏区。随着中国经济的迅猛发展人口分布呈现出许多新的特征,为了适应新的趋势,有必要重新定位和再研究。
2 数据与方法
2.1 数据来源与指标选择
本研究的数据采用2011年全国31个省及直辖市的统计数据,人口数据来源于《中国人口统计年鉴》,各省人均可支配收入来源于经济信息网。因研究的是各省的人口及经济指标聚类,研究区域很大,信息粒度较大,因此选择了有代表性的综合性人口数据指标,人口(总量)、人口密度、人口自然增长率、第六次人口普查数据、人均可支配收入、人均GDP、迁移数据。其中人口自然增长率为(人口出生率-人口死亡率)/人口均值*1000%,迁移数据=第六次人口普查数据-人口(常住人口)。各省及直辖市的基础数据如表1所示。
2.2 聚类分析原理
3.2 二维聚类
以人均GDP和人口自然增长率进行聚类,数据进行标准化处理后,得到的结果有五类,如表5如示。
从以上聚类结果看,第一类是沿海地区,经济较为发达,人口增长正常;而第二类内陆地区,人均GDP较低,人口自然增长优率较为正常;第三类为东北三省,人均GDP中等,人口增长率低;第四类为人均GDP高,为三个直辖市;第五类为人均GDP低,而且人口增长快的区域。
3.3 多维聚类
多维聚类时,采用K均值法进行聚类,得到的聚类结果如表6。
根据多维数据聚类,共分为六类,其中第一类属于人口少,但较为富裕的北京和上海,而第六类为天津,自成一类,主要是流动人口及可支配收入较第一类差一些;第四类为经济发达的广东、江苏和浙江;第二类为经济较好,人均收入中等,流动人口较少的地区;第五类为经济欠发达,人口保持较高增长率的省份;第三类则是大部分的内陆地区。
4 结论与讨论
本文通过采用聚类分析的手段分析全国31个省市人口的发展规律,揭示了不同省市在人口发展之间的相似性和差异性,研究得出合理聚类结果,为政府和各职能部门在制定人口及各项地方性经济发展政策提供依据。
聚类分析结果表明,一维、二维和多维聚类分析方法有各自的典型特征有用途。一维聚类分析简洁地表明各省人口自然分布规律,可为国家对不同各省份的人口政策提供科学依据;二维聚类分析直接反应了不同省份人口与经济等指标的相互关系,如论文中对人均GDP和人口自然增长率的二维聚类分析,分类结果合理的体现了当前我国各省经济发展与人口特征。多维聚类分析方法适用于对各省综合分类,论文中采用了与人口有关的5个指标进行的多维聚类分析,分类结果有较强的综合性,与当前各省公众认识的综合分类一致。
解决了传统的经验分类方法导致的客观性缺乏等问题。为人口的分类管理实践提供了理论依据和技术手段。
(本论文为院级大学生实践创新训练计划项目2011XYCXXL14资助项目)
参考文献:
[1] Jiawei Han,Micheline Kambe.数据挖掘概念与技术[M].北京:机械工业出版社,2012.
[2] 陈志泊.数据仓库与数据挖[M].北京:清华大学出版社,2009.
[3] 陆学艺.可持续发展实验区发展历程回顾与建议[J].中国人口资源与环境,2007,17(3):1-2.
[4] 张文彤,董伟.SPSS统计分析高级教程[M].北京:高等教育出版社,2004:236-237.
[5] 刘玉芳,宋金星,刘永和.河南省人口现代化区域差异的主成分及聚类分析[J].西北人口,2007(03):59-61.
[6] 陈华荣,王晓鸣.基于聚类分析的可持续发展实验区分类评价研究[J].中国人口资源与环境,2010(3):150-154.