基于SPSS的就业功能聚类分区研究

2019-01-07 06:18王灿

赤峰学院学报·自然科学版 2018年12期

关键词：省区排序协作

王灿

（成都师范学院数学学院，四川成都 611130）

1 引言

就业是民生之本.综合分析就业基本状况、发展基础和潜力等因素，科学划分就业功能区，客观评价不同区域的功能特点，确定就业功能主导方向，对深化引进人才政策调整、形成人才分配合理、促进特色区域发展的格局具有重要意义.

2 就业功能分区简介

就业的基本功能体现在四个方面：保障功能、激励功能、融入功能和协作功能[1].其中，保障功能是指居民通过就业获得物质、精神文化等，以满足基本的社会生存所需；激励功能是指就业岗位提供相应激励措施，使就业者的主观能动性得到最大程度的发挥，以实现就业者的的自身价值；融入功能是指就业岗位提供或具备使就业者融入社会的良好因素；协作功能是指居民通过就业，能够在此过程中提升自身与社会他人之间的协作能力.功能分区基本思路是：首先确定各功能的衡量指标，搜集、统计整理、分析对应数据及资料，建立指标体系并对数据进行处理，以消除指标量纲的影响，确定功能分区的指标量化集，通过这些处理后的描述指标把全国划分成若干类别，做好聚类分析的前期工作；然后构造关系数据阵，选定聚类方法并运用SPSS进行具体的聚类分析，以确定各类别包含的具体省区；最后计算各各类别各功能的权重系数，对各功能的主导作用和辅助作用进行排序，以明确最终就业功能区划分的结构.

3 指标体系的建立

聚类的基本思想就是根据观测指标之间的亲疏关系进行分类[2]，而我国大陆地区31个省级行政单位是就业功能分区的对象，因此应该选择每个省（自治区、直辖市）都具有并且能用以衡量各就业功能特点的统计指标.结合各省区与就业功能密切相关的经济、政策、社会和自然环境，对这些统计资料进行多次论证，最后确定了4大类别、共30个具体指标作为就业功能分区的依据.为确保所构建的指标体系更加符合实际情况，之后将使用专门业务标准量化各指标，力求最终能够准确的描述各类别的就业功能的特点.

3.1 保障功能指标

社会保障制度是促进我国社会发展稳定发展的依托之一，因此以社保额、医疗体系数目、教育培训、食住行等四组指标描述就业的保障功能，共12个变量.其中，社保额主要值各地区参保人数与额度；医疗主要指各地区医院和床位数；教育培训主要通过各地区中小学、高等学府个数衡量；食住行主要参考各地区的消费指数、房价等.

3.2 激励功能指标

激励功能指标主要反映和评价各省区的就业市场环境、户籍和政府服务制度的实施，共8个变量.其中，市场竞争环境是根据各省区政策的实施和促进力度，由专家打分赋值，就业政策的量化主要依据各省区再就业的投入数额；户籍档案制度的量化是根据各地对户籍、档案的限制条件，由专家打分得到[3].

3.3 融入功能指标

以各地区的生活习俗、自然环境等因素来衡量就业者的融入情况共.其中，生活习俗以少数民族数和有关民俗文化的学术研究为标准进行量化[5]；自然环境的量化主要根据《中国统计年鉴》中的平均温度、湿度、污染指数等衡量，此类指标共6个变量.

3.4 协作功能指标

用价值观教育和文化传承指标描述就业的协作功能，它们的量化[5]主要采用了抽样调查，对数据进行相关分析，根据相关性打分而得.

将31个省区的30个指标收集、量化、整理后，即得到需要的31×30的样本矩阵.

4 聚类分析

4.1 数据标准化

所建立指标体系中，有些变量虽然是同量纲但差距很大，更有一些变量的量纲都是不同的，这在很大程度上削弱了变量间的可比性，为了消除量纲的负面影响，首先需要对数据进行标准化处理.

通过建立指标体系构造的样本矩阵表示为：

目前有很多方法对聚类分析所需的数据进行标准化处理，常见的极值化方法、标准化方法、均值化方法、标准差化方法[6]等.结合所构建的指标体系，发现各变量的重要性是一致的，为避免消除量纲时影响变量间的地位，本文选择标准差化方法处理数据.

设标准化后的量为X'ij，则有：

其中，i=1,2,…,31,j=1,2,…,30.

这样，就得到无量纲影响且保持稳定性的新的样本矩阵，记为：

4.2 关联数据阵

为描述样本之间的亲疏关系，对标准化后的样本矩阵进行关联关系的梳理时采用“欧式距离”测度个体间的差异，即把每个省区都看成是n维(n=30)空间中的一个点，X'ij的值为对应的点坐标，则关联数据阵中的距离计算公式就为：

式(6)中的 i、j=1,2,…是参与聚类的省区，m=1,2,…,n是系统指标数.通过距离模型的计算，得到了一个31×31的方阵，描述了任意两个省区之间的亲疏程度，距离越小说明两个聚类对象越亲密，反之亦然.此关联数据阵记为：

显然，该关联数据阵是方阵，且关于对角线对称.

4.3 聚类分析

聚类方法很多，比如常用的有层次聚类或快速聚类（K-Means聚类）法.其中，层次聚类法的基本思路是由根据关联数据阵，首先构造31个类，即每个省区自成一类，然后根据两个省区的距离di和dj，根据最近原则把其合并成新的类dr(dr={di,dj})，之后计算新类dr与未被合并的各省区的距离，重复此步骤，直至所有省区全部聚为一类，最后画出聚类过程图，根据聚类图决定全国31个省区就业功能所需的分类个数及对应的具体省区.

层次聚类法能够得到多个分解类，但对样本的距离数据阵进行聚类时，重新计算距离过程中会使样本空间扩张或浓缩，造成样本数据的失真或迟钝，该方法对我国就业功能分区的执行效率不甚理想.因此确定采用K-Means聚类法[7]进行分析，该聚类方法的基本步骤如图1所示：

图1 聚类算法步骤

根据上述梳理的K-Means聚类法，运用SPSS软件对标准化后的相关数据实现聚类分析.具体操作过程是导入数据后，选择分析→分类→K－均值聚类，其中迭代次数为10，类中心点偏移程度为0.02时终止聚类，把我国31各行政省区聚分为了四大类，当然这只是初步聚类结果.

为了得到更加符合实际、科学的分类，请工作在就业指导第一线的专家们进行定性分析，稍微调整聚类结果.这样由指标选取时的定性到聚类时的定量，再到微调的定性研究，把我国大陆31个省区按就业功能分为四类，结果如表1所示.

表1 我国行政省区就业功能聚类结果

由聚类结果已把全国划分成4个类别，然而各类别的功能排序还不明确，因此需要对各类功能的主导和辅助关系的结构加以完善.

4.4 分类功能排序

为确定各类别就业功能的主辅结构，首先考虑利用指标平均值的大小来衡量，通过直接计算发现由于各类别的指标都比较复杂，会对排序结果造成较大偏差.因此最终采用指标权重来确定各功能排序，思路是把各类别功能总系统看成整体1，先计算单个指标的权重，再计算各类别各功能指标的总权重，最后计算单权重与总权重的比值，比例越大说明对应的就业功能的主导作用越明显，其计算公式为：

式(8)中，i=1,2,3,4表示类别，j=1,2,3,4为功能编号，rij表示第i类第j个功能的权重，Rij为第i类第j个功能的综合权重.最终得到的按就业功能进行聚类、排序的结果如表2所示.

表2 就业功能分类及排序结果

5 结语

由表1、表2，得到我国各类别就业功能的基本结构：第Ⅰ类以北上广为代表，其医疗、教育、社会保险等保障体系优势突出，形成了以保障功能为主导→激励功能→融入功能→协作功能的结构；第Ⅱ类主要是西、北部地区环绕线，在国家大政策方阵的指引下，该类省区以人才政策为突出吸引力，形成了以激励功能为主导→保障功能→融入功能→协作功能的结构；第Ⅲ类分为南北两派，且以人口众多为类，显示了该类别以融入功能为主导→保障功能→激励功能→协作功能的结构；第Ⅳ类显然很有区域特色，因此形成了其以协作功能为主导→融入功能→激励功能→保障功能的结构.

上述聚类及排序结果以就业功能为研究基础，首先根据就业的保障、激励、融入和协作四大功能建立指标体系，并对数据进行消除量纲的标准化处理，由K-Means聚类法，运用SPSS软件进行快速聚类，把我国按就业功能划分为4类.进一步的功能权重的计算及排序确定了各类别的就业功能的主导和辅助结构.下一步可在指标体系的建立、政策制度的量化上进行可靠性验证，从而使分类和功能排序更加合理，为我国就业、择业等相关政策的制定提供数据支撑.