基于PCA-BP神经网络的就业人口预测

2019-08-02 03:08唐贤芳刘小刚崔岩

微型电脑应用 2019年7期

唐贤芳，刘小刚，崔岩

(1.西北工业大学明德学院信息与工程学院，西安 710124； 2.西京学院理学院，西安 710124)

0 引言

中国是一个人口大国，就业问题与国家经济持续、健康发展，和谐社会的建设，民生的改善都息息相关。在经济下行的大环境下，就业问题日益凸显。建立合理的预测模型，对就业趋势做科学的预测，具有重要的现实意义[1]。

影响就业的因素比较复杂，影响因子的选取直接影响预测结果，影响因子选取过少，会对预测精度产生影响，影响因子选取过多，则会使模型计算复杂化，且有可能会产生局部最优问题[2]。为避免过多因子给建模带来不便，本文将主成分分析和BP神经网络相结合，以此预测全国就业人口数量，研究成果可为高校毕业生、高校和政府等相关部门的决策提供比较有价值的参考依据。

1 就业人口预测模型的构建

1.1 主成分分析法

主成分分析法主要是把分散在一组变量上的信息集中到某几个综合指标，即主成分上。每个主成分都是原始变量的线性组合，主成分之间互为正交关系，继而可以缩减多变量时间序列的维数，去除冗余信息，减少包含在多变量时间序列中的部分噪声，并且可以反映不同变量之间的相关性。当样本数据维数较多和结构复杂时，采用主成分分析的方法可以简化输入样本，减少训练时间，提高训练效率，达到提高神经网络泛化能力的目的[3]。

设有一样本集，含有p个变量、n个样本和t个连续目标变量。样本集用自变量矩阵X(n×p)和目标矩阵Y(n×t)表示，则主成分分析的一般步骤如下：

1)指标数据的标准化。为消除由于数据量纲的不同可能带来的影响，须对数据进行标准化处理，得到标准化数据矩阵ZX。常采用的变量标准化方法为式(1)。

(1)

2)主成分适用性的判定。通过KMO检验和Bartlett球度检验对指标之间相关性进行判定，若KMO值大于0.7且Bartlett球度检验的显著性概率小于0.05，则认为样本数据的相关性比较大，可以进行主成分分析[4]。

3)计算主成分个数。利用标准化的数据矩阵ZX的协方差矩阵即为原始数据的相关系数矩阵ρ，求出ρ矩阵的特征值λi和特征向量αi，并将特征值从大到小排列，在此基础上计算各指标的贡献率λi/p。选择特征值大于1且累计贡献率高于85%的k个指标作为主成分。

4)确定主成分的表达式。根据上一步骤计算的特征向量和标准化的数据矩阵，第i个主成分表达式为式(2)。

Fi=α1iZX1+α2iZX2+…+αPiZXP,i=1,2,…，k

(2)

2.2 BP神经网络

BP神经网络是一种基于误差反向传播算法训练的多层感知器前馈网络，具有依据数据本身的内在联系建模，具有良好的非线性逼近能力和对杂乱信息的综合处理能力。该神经网络模型无论在网络理论还是在性能方面均比较成熟，是目前应用最广泛的神经网络。它由1个输入层、1个或多个隐含层和1个输出层组成，理论证明含一个隐含层的BP神经网络能以任意精度逼近任何非线性映射关系[5]。

利用BP神经网络进行预测可以分为网络构建、网络训练、网络预测三步进行[6]。网络构建即依据系统输入输出序列(X,Y)确定网络输入层节点数n、隐含层节点数l，输出层节点数m。网络训练是最关键的一步，具体步骤如下：

1)网络初始化。初始化输入层、隐含层和输出层神经元之间的连接权值wij,wjk以及隐含层和输出层阈值a、b，给定神经元激励函数和学习速率η；

2)隐含层输出计算。根据输入变量X、输入层和隐含层间连接权值wij以及隐含层阈值a，计算隐含层的输出H，如式(3)。

(3)

3)输出层计算。根据含层的输出H，连接权值wjk以及阈值b，计算神经网络预测输出O，如式(4)。

(4)

4)误差计算。根据预测输出O和期望输出Y，计算网络预测误差e。如果误差满足要求结束训练，若不满足继续第5步。

5)更新权值、阈值。根据误差e，更新连接权值wij,wjk阈值a、b后，转至第2步。

Matlab软件中神经网络工具箱功能十分完善，提供了BP神经网络的建立函数(newff),传递函数(logsig,purelin等)，学习函数(learngd,learngdm)，训练函数(trainlm，traingd等)，仿真函数(sim)，可以方便实现对神经网络的设计与仿真。

1.3 就业人口预测的PCA-BP神经网络的构建

就业影响的因素比较复杂，但各因素之间存在一定的相关性，且因素对就业人口数量的影响具有非线性、滞后性的特点。一般的线性预测方法无法正确的反应就业人口数量和各因素的变化规律。BP神经网络具有优异的非线性建模能力，但为了避免过多的影响因素作为网络的输入带来收敛慢、容易陷入局部最优等问题。本文将主成分分析与BP神经网络相结合，建立一种基于PCA-BP神经网络的就业人口数量预测的模型。模型的结构图如图1所示。

图1 就业人口数量预测的PCA-BP神经网络预测模型结构拓扑

先将就业因素进行主成分分析，以提取的主成分作为神经网络的输入，然后建立、训练BP神经网络，以训练后的神经网络预测2018-2019年的就业人口数量值。

2 实证研究

2.1 就业指标的选取及相关数据的搜集

从经济学的角度来看，影响就业的因素很多，消费、投资、政府购买和进出口的情况以及中央政府的宏观经济政策等等都会对就业产生巨大的影响[7]。经过对就业政策和现状的研究分析[2],以及对大量文献资料和文章的阅读,分离出了影响就业人数的几个主要因素,分别是人民币兑美元的汇率X1(单位为(美元=100)(元))、总人口数X2(单位为万人)、国内生产总值X3(单位为亿元)、全社会固定资产投资X4(单位为亿元)、进出口总额X5(单位为亿元)、各项税收X6(单位为亿元)、流通中现金供应量X7(单位为亿元)、财政支出X8(单位为亿元)、财政收入X9(单位为亿元)和社会消费品零售总额X10(单位为亿元)10个因素。利用中国统计网可查得2002年至2017年各主要因素以及就业总人口数Y(单位为万人)的数据。

2.2 数据的PCA分析

在主成分分析阶段，首先需要对影响因素数据进行适用性分析。选择2002-2014年数据，先根据(1)将数据归一化，再利用SPSS软件对归一化的数据进行KMO检验和Bartlett球度检验。计算结果如图2所示。

图2 样本KMO及Bartlett球度检验

由上图可见样本的KMO的值为0.744，大于0.7，同时Bartlett球度检验的显著概率为0，小于0.05，说明就业影响因素之间的相关性和偏相关性较大，适合进行主成分分析。

再利用SPSS软件得到主成分特征值和累积贡献率，如图3所示。

由图3可知，只需要取前两个主成分，它的方差累计贡献率达到98.379%，符合特征值大于1且累计方差贡献率大于85%的要求。因此，选取前2个因子作为主成分。根据主成分载荷矩阵计算主成分特征向量，得到主成分的表达式如式(3)-式(4)。

解释的总方案

图3 样本主成分特征值和累积贡献率

F1=-0.3257ZX1+0.330 4ZX2+0.334 8ZX3+

0.331 3ZX4+0.331 6ZX5+0.334 6ZX6+0.334 4ZX7+

0.333 8ZX8+0.334 4ZX9+0.077 0ZX10

(3)

F2=-0.0981ZX1+0.038 9ZX2+0.016 5ZX3-

0.011 2ZX4+0.031 1ZX5+0.015 2ZX6+0.024 5ZX7+

0.006 6ZX8+0.012 4ZX9-0.993 2ZX10

(4)

2.3 PCA-BP神经网络预测模型的训练

图4 隐含层个数与训练误差图

从图4可见，当隐含层取为6个节点时，误差最小，所以选择网络结构为2-6-1。

确定网络拓扑结构后，经过多次训练，选择误差最小的一次作为最后模型。训练完成后得到就业人数预测值与实际值的比较如图5所示。

图5 训练模型的仿真结果图

从图5可见，实际值与测试值的拟合性较好。

另外，为了与基于PCA-BP神经网络预测模型对比，本文同时构建了仅用BP神经网络的就业人口预测模型。以10个影响因子作为输入节点，隐含层按照PCA-BP神经网络的层节点选取方法，确定隐含层的层节点为8，以就业人口数量为输出，构建10-8-1的BP神经网络模型。经过训练后，得到的2种模型的具体预测值以及相对误差如表1所示。

表1 两种模型的预测结果

从表1可见PCA-BP神经网络的预测的平均相对误差为0.016%，而仅用BP神经网络的预测的平均相对误差为0.67%，显然PCA-BP神经网络模型的预测精度更高。

2.4 PCA-BP神经网络预测模型的应用

将2015-2016年的相关数据进行规一化作为输入，代入训练好的PCA-BP模型中，预测2018年的就业人口数为77 746万人和77 987万人。预测值能够有效地反映中国就业人数的变化，此数据可以为相关部门分析和高校毕业生、政府及相关部门的决策提供科学依据。

3 总结

就业问题是近年来的热点问题，影响就业的因素比较复杂，而因素之间有一定的相关性，同时因素与就业人口数量之间是非线性关系。针对就业因素相关性，因素与就业人口数量非线性、高维度的特点，采用主成分分析与BP神经网络相结合的方法，建立了就业人口PCA-BP预测模型。利用2002-2014年全国就业人口的数据，对影响就业的10个影响因子进行主成分分析，经过主成分提取后，获得前2个主要因子作为主成分，以此作为BP神经网络的输入样本，训练就业人口预测的神经网络，训练结果表明平均相对误差仅为0.016%，预测精度高于仅用BP神经网络预测模型，可作为就业人口预测的一种可靠方法。最后以此模型预测2018年的就业人口数为77 746万人，2019年就业人口数为77 987万人。

从预测结果可见就业人口呈现递增趋势，说明我国的劳动力资源仍然丰富，发挥好现有就业人口的作用，潜力很大。另一方面在国际不确定因素增多、国内经济下行压力加大的条件下，我国就业保持稳中有升，实属来之不易，这与我国实施就业优先战略和积极的就业政策有关。下一步应该要继续实施就业优先战略和更加积极的就业政策，把稳就业摆在突出位置，完善和落实各项稳就业的政策措施，运用“互联网+”发展新就业形态，促进多渠道就业，进一步支持以创业带动就业，实现经济发展和扩大就业的良性互动，以确保就业形势稳定向好。